经过两个月的研究,6月份一个月语音写作80万字深度实践,我暂时的"语音输入法+笔记"排名(不限平台/不限价格)如下
928d37bc-a720-4045-a42f-50b3e19f9450643×242 13 KB
这里重点研究AI输入法,笔记不是重点,用Obsidian,Tana,Roam,Notion都行
要想获得最好的输出稿质量,需要:第一梯队软件功能 + 第一梯队听写模型 + 第一梯队润色模型 + 合适润色提示词(自己写) + 降噪麦克风 + 环境无人声噪音,几个要素都高
本排名主要是针对需要大量写作的人,每天写作字数越多,折腾越有价值,字数少每天写个千八百字,打字也慢不了多少。或者微信聊天等简短,比较随意的内容,用普通非多模态,不带润色的免费语音输入法就够,不值得折腾AI语音输入法
AI语音输入法原理
①PC或手机进入任意笔记软件(Obsidian等)
②点语音输入法的录音图标或快捷键
③录音中:高级模型通常只显示波形,不会显示实时字幕,不同软件或听写模型,会有不同的一次录音时长限制,一般15分钟(2500字)~60分钟(1万字)
④结束录音,自动上传到听写模型api(例如whisper)云端推理,或者本地推理(win需8G或16G显存或mac统一内存)
有的听写模型支持自动区分2个说话人,人名你自己填,适合谈话或会议录音
⑤自动返回录音稿,连同你事先写好的提示词,词典(同音词/人名/专有名词/替换列表),自动上传到大语言模型api云端润色
非推理模型润色快,推理模型润色慢,包月推理模型润色强度通常很低或没有,API一般是默认推理强度(Medium)
润色内容包括字典,去除口头禅,标点,错别字,口语改书面语,文风,自动分段,自动加段落标题等
⑥自动返回润色稿,可以自动输出到你当前笔记的光标位置,或者设置输出到剪贴板,你自己粘贴
语音输入法 vs AI语音笔记
AI语音输入法:就是可以在任意笔记或聊天软件中使用的输入法App,安卓上一般带虚拟键盘,iOS/PC上一般不带虚拟键盘
AI语音输入法+其他笔记可以当AI语音笔记用,但AI语音笔记不能当输入法用
例如:CleverType(安卓)
AI语音笔记:是笔记软件,但是通常笔记功能比专业笔记软件弱很多,也就是带云同步功能的Windows记事簿的水平
不能直接在专业笔记软件里输入,只能在两个笔记app之间复制粘贴,或者用插件同步文档,不是太方便
例如:VoiceNotes/AudioPen
输入法第一梯队
最强听写模型强(4o-transcribe或elevenlabs-scribe) + 最强润色模型(gpt5/2.5pro/flash/sonnet4),包月或自备API Key
第一第二梯队AI语音输入法都在mac上,windows/ios/安卓没有能进入第一第二梯队的
下面三个输入法,听写和润色模型(含API)都差不多,功能大同小异,主要区别是①价格②包月模型③润色推理强度,推理强度决定了润色的质量,所有AI语音输入法,都不支持手动修改思考预算或强度
但是同时,推理强度越高,速度越慢,办法是后台推理,输出到剪贴板而不是当前光标,等他提示推理完了,自己再进行粘贴
例如aistudio里2.5pro默认思考预算是8k,100秒录音稿需推理30秒,即推理时长=录音时长30%,这只是个大概数值,有一定随机性,而且如果1000秒录音并不是推理300,不是完全正比增长
①SuperWhisper(Mac正常/iOS缩水/Win缩水公测中)
$8.5/月,$85/年,尼区半价,教育优惠6折
移动用iOS版虽然缩水,也比其他iOS语音输入法强多了
包月
包月推理弱:抠门,包月给的gpt5推理很短,推理时长=录音时长的10%,sonnet4待测试,包月没给2.5pro
API推理强(反正你自己花钱):gpt5推理时长=录音时长100%+,2.5pro=80%
纯API用户:如果不买会员,连API都用不了
②VoiceInk(Mac/无iOS)
开源,Pro$29/终身,教育优惠60折
包月推理弱
纯API用户:如果不买会员,貌似连API都用不了
③Spokenly(Mac正常/iOS缩水)
包月听写强:4o-transcribe和elevenlabs-scribe不限时,唯一一家包月给
包月推理弱:我问作者他说是4o-mini,近期打算换gpt5
API推理限时:2.5pro貌似超过30秒就超时报错
纯API用户:如果不买会员,除了包月听写,所有功能都能用
$8/月,无教育优惠
输入法第二梯队
中上听写模型(whisper)+中上润色模型(一般不给推理模型),不支持api key
AudioPen语音笔记(Mac/iOS/安卓/网页):不是输入法
输入法第三梯队
润色模型弱,或只能用固定提示词,或只能手动执行润色等。
办法:可以把录音稿手动粘贴到aistudio等润色,润色后效果与第一梯队相当,
CleverType(安卓正常/iOS缩水):$6/月,只能手动启动润色
WisprFlow(Mac/Win正常/iOS缩水):$15/月,润色不能自定义提示词
SlaxNote(安卓/iOS):$5/月
Whisper Transcription(Mac/iOS严重缩水):美区$9/月,$30=/年,$100=欧区或网页€60/终身,教育优惠7折,以前叫MacWhisper。支持API 4o-transcribe听写和API 2.5pro润色,但貌似不能自动润色
iOS版缩水严重,只有手动润色
输入法第四梯队
润色模型弱,本身不是输入法,不能嵌入Obsidian等笔记中使用(只能复制粘贴过去或用插件同步)。app本身就是笔记,但笔记功能又极其简陋,用惯先进笔记的人,难以忍受
VoiceNotes(网页/安卓/iOS):是笔记,只能手动启动润色
软件第五梯队
只有听写,没有自动润色,识别率高,或不是专门听写app
例如:ChatGPT app,Gemini app,Copilot app的语音对话模式
Obsidian上各种ai听写插件
ChatGPT app,Gemini app,Copilot app,claude app,元宝,豆包,文小言的语音留言模式
输入法第六梯队
只有听写,没有润色,识别率低,尤其是中英混讲和去除口头禅极差
例如:搜狗,讯飞,百度,谷歌,微软,苹果语音输入法,讯飞语记,讯飞听见,微信留言转文字
iOS,macOS,Windows自带的听写功能
具体实测对比:🔥【十倍速写作系列2】:4o-transcribe vs whisper vs gemini-2.5 vs 搜狗讯飞的识别率实测,250716更新gemini和elevenlabs-scribe
听写模型
各个语音输入法软件,都是包月调用第三方听写API,或者你自己提供API Key,或者你自己本地跑模型,很少有软件开发者自己有能力开发听写模型或润色模型(LLM)的
听写第一梯队
elevenlabs-scribe
4o-transcribe
听写第二梯队
whisper-large-3,gemini-2.5-pro的多模态,4o-mini-transcribe,
听写第三梯队
whisper-medium本地
国产多模态听写模型:例如阿里
听写第四梯队
非多模态听写模型:搜狗,讯飞,百度,谷歌,微软,苹果等
润色模型
润色第一梯队
顶级推理模型,gpt-pro,grok4-heavy,2.5pro-deepthink
理论上润色效果是最好的,但是考虑到api贵,有的模型还没有api,速度极慢,如果稿件不是非常重要,一般没必要用这些模型
润色第二梯队
高级推理模型,2.5pro(三万字+),claude4(三万字+),Grok4(实测一次输出17万字)
另有些模型限制输出1~4k字,字多容易缩写的,字少可以用:o3,o4mini,r1
润色第三梯队
一般推理模型,2.5flash(2万字+)
润色第四梯队
推理模型关闭推理功能。
非推理模型deepseek3/4o/4.1,但限制输出1~4k字
成本
整体上,一分钱一分货,是古今中外通用的道理
时间成本
不能只考虑使用成本,也要考虑自己的时间成本,例如月薪9000÷22天÷8小时=50元/小时 时薪
AI语音如果可以提升你10%的产量,就值50元时薪×10%=5元/小时
我的实际情况是AI语音输入法提升了我产量15倍(从2000字/天到3.3万字/天)
这里面算AI输入法提升3倍速度 × 在公园录音提升5倍专注力,物理隔离,克服游戏,影视,抖音等干扰
心理成本
如果识别率低,没自动润色,瑕疵就很多,看录音稿,手动改录音稿,看见自己说的很好,但识别出乱七八糟,心情是很差的,自尊心自信心也可能受打击
个人品牌成本
如果识别率低,没自动润色,错别字多,英文拼写错误,口头禅多,重复啰嗦,没有及时手动修改,发到微信/钉钉/邮件/文档等,给同事/老板/客户/朋友看到,可能会给人做事马虎,不负责任,学历低的印象
机会成本
如果因识别率低,惧怕语音写作,放弃十倍速的机会,机会成本可能会很高。
高成本,高质量的
自备API Key,语音模型用4o-transcribe(¥2.7/万字)或elevenlabs-scribe(¥6/万字,¥3/h)
润色模型用2.5pro(¥1/万字)或sonnet4(¥1.5/万字)
总api成本¥4/万字左右
据我所知,现在只有Spokenly(mac)的$8包月,和CleverType(安卓)的$6包月,是有不限量的4o-transcribe。Spokenly和SuperWhisper(mac)可以填4o-transcribe的apikey
貌似没有任何一个ai语音输入法提供了elevenlabs-scribe包月,但是S Spokenly(mac)/VoiceInk(mac)/MacWhisper(mac)可以填elevenlabs-scribe的apikey
openai 4o-transcribe按token收费¥2.7/万字。elevenlabs-scribe按小时收费¥3/小时,人正常连续说话是每小时1万字,表面看价格差不多,实际上elevenlabs-scribe会贵2倍左右,是因为他是按时间算钱,思考时间不说话,也一样算钱。
4o-transcribe只录音不说话不算钱
另外elevenlabs-scrib并不是直接api充值,他是api会员,$5=12小时,只有刚好用满12小时,才是¥3/小时,低于12小时,就会浪费,高于12小时,要买更高一档会员
只有闪念笔记这种,说几句话就停止录音,一点不浪费,才有可能累计达到1小时一万字
真正长录音的时候,人大概有一半时间是不说话的,在思考的,实际产量只有每小时5000字
总不能每次思考都暂停,想好了再接着录吧。何况很多ai语音输入法根本就没有暂停的功能
另外开着录音忘关了,不小心误触了录音按钮,早晚在床上躺着录,录着录着睡着了,如果用按时间计费的apikey,这都是很常见的浪费token的情况。
中成本,中高质量的
用语音笔记的包月服务,一般听写模型whisper-large,润色模型2.5flash/4o
每月$10左右,算每天录2小时,一半时间思考,一半时间说话,即1万字,成本¥2/万字左右
这个成本不固定,因为有的软件包月不限量,或者限量很高,用得越多单价越低
包月一般也不会给顶级听写模型和推理润色模型,因为成本会高几倍,卖$10/月左右作者赚不到差价,定价太高又不好卖
低成本,中高质量的
APIKey,第三方whisper云服务最低¥0.6/万字(0.3/h),2.5flash¥0.2/万字,综合¥1/万字左右
第三方Whisper API例如Groq,Fal.ai,Fireworks等
另外很多云服务都有注册送余额(例如GCP送$300,Assembly送$200),或者每天免费额度(例如groq),用量不大的话可以白嫖
也有很多第三方逆向或低价API,L站里自己找
零成本,中高质量的
8G以M芯片Mac或win带显卡,可以本地跑whisper-medium
16G的M芯片Mac或win带显卡,可以本地跑whisper-large
根据配置和模型大小不同,速度5~10x,就是10分钟录音需要1~2分钟推理(参考云端whisper api可以达到200x倍速以上)
本地跑听写模型比较容易,因为听写模型本来容量就小。本地跑润色模型比较难,只能跑些7~9B左右的小模型,速度可能3~5x左右,粗略的说,几B模型就需要Windows几G显存,或Mac统一内存
零成本,低质量的
搜狗,讯飞,百度,微软,谷歌,苹果语音输入法
硬件选择
Mac是电脑上最佳选择
如果是每天要大量AI语音输入的人,室内使用Mac是最佳选择,二手m1 macbook air也就两千多
选择很多,竞争充分,MacWhisper,SuperWhisper,Spokenly,Voiceink都很好,大同小异
这类ai语音软件,高度集中于mac上,mac上排名前十的AI语音输入法,随便拎出来一个放到Windows/iOS/安卓上估计都能排第一,
但是mac上语音输入法,偶尔会缩水移植到iOS,很少会移植到Win/安卓
我估计有个原因,就是mac上各类专业创作者(设计,视频,文案)等比较多,付费意愿强
另外可能跟m芯片的mac,统一内存,不区分内存和显存,适合跑本地whisper有关,虽然并不是强制本地跑whisper
Whisper用CPU+内存跑很慢,用GPU跑需要windows8~16g显卡,或Mac统一内存
M1或以上芯片的Mac,8g起步,100%都能跑本地Whisper。
Windows笔记本有8g或以上独显的比例不高,8g要4060以上,16g要4080以上
就是说虽然windows笔记本用户数是macbook十倍,但里面真正有8G以上显卡,能跑本地whisper的,可能总人数还没有macbook多
Win
选择很少,没有能进第一第二梯队的,暂时貌似只有SuperWhisper有明确希望在几个月内进入第一或第二梯队
SuperWhisper(Win):
mac版是全平台第一梯队:有自定义APIKey,有润色和自定义提示词,
听写可以用包月Whisper,或OpenAI key的 4o-transcribe(中转站key不行),
润色可以用包月gpt5(非推理)或sonnet4,或key使用带推理的gpt5/2.5pro/sonnet4/grok4(中转站key可以)
iOS版是全平台第三梯队:没有没有自定义APIKey,有润色和自定义提示词,
只能用Whisper + gpt5(非推理)或sonnet4
win版是全平台第三梯队:没有自定义APIKey,有润色和自定义提示词,
只能用Whisper + 4o或sonnet4
现在公测应该是免费
下载地址:https://fresh.superwhisper.com/download/installer/windows/x64
作者说,功能会逐渐向mac版看齐,几个星期内会支持apikey
modes设置这里preset一定要选blank(custom),才有自定义提示词和润色模型选择
微信图片_20250823102943_1487750×600 49.9 KB
WisprFlow(Win):不能选模型,不能设置润色提示词
iOS 是移动最佳选择
选择较少,好处是户外用不了笔记本时也可以用
很多Mac上语音输入法如果要移植,一般优先会移植iOS
由于这些录音App都是使用美国API,中美法规都禁止使用美国AI的App在国区AppStore上架,因此需要外国AppleID来安装这些App,安装后可以切换回国区ID
iOS上语音输入法,除了系统自带输入法,大部分需要跳转或粘贴,是苹果不肯开放麦克风权限问题,不是这些语音输入法厂商不想做
微信图片_20250804040513796×512 26.9 KB
Spokenly(iOS):预计8月初上线,应该是同类最好之一
SuperWhisper(iOS):缩水版,不能直接当输入法,要跳转粘贴
ios对输入法有严格限制,所以ios版superwhisper不能当输入法用,要在superwhisper里录完,粘贴到其他笔记或微信等app里面
如果是当输入法,录一句话就切换一次粘贴,挺麻烦的
如果是当语音笔记用,一次录音可能几百几千字,粘贴一下也没啥
WisprFlow(iOS):缩水版
Apple听写(iOS):性能一般,没有润色和自定义提示词,但是免费,速度快,用于聊天也够用
25年7月升级过一次,速度比whisper快,错误率6%,显著下降,参考Whisper是3%,4o-transcribe则更低
微信输入法(iOS):性能一般,没有润色和自定义提示词,但是免费,用于聊天也够用
安卓
选择很少,没有很强的,好处是户外用不了笔记本时也可以用
由于这些录音App都是使用美国API,中美法规都禁止使用美国AI的在国内安卓市场上架,需要到PlayStore或PureApk等海外市场下载,或谷歌搜索apk
我认为安卓AI语音输入法,未来潜力比iOS大,因为iOS输入法禁用语音的限制,是不太可能解除的,安卓无此限制
CleverType(安卓):不能自动润色,$6/月
VoiceNotes语音笔记(安卓):不是输入法,$15/月
SlaxNote语音笔记(安卓):不是输入法,$5/月
选包月还是API Key
如果录音量很大,包月划算
如果录音量不大,每天一两个小时,API Key划算,尤其润色模型2.5pro/flash API几乎不要钱。4o-transcribe听写模型用API中转站可以半价,自己搞Azure100也行
但是注意有的软件比较厚道,不包月也不限制功能,例如Spokenly免费用户除了没有包月模型,其他功能都是一样的
有的软件就不太厚道,例如SuperWhisper,必须是付费会员,才能自己填API Key,我都自备API Key了,还买你包月做啥
附老外写的AI语音输入法对比表
网址:Definitive MacApp Comparisons - Google 表格
近期我发的其他文章可以参考
.🔥【十倍速写作系列3】关于AI语音输入法,你想知道的一切,附全平台排名【250820底楼更新最强听写+最强润色方案】
.🔥【十倍速写作系列2】:4o-transcribe vs whisper vs gemini-2.5 vs 搜狗讯飞的识别率实测,250716更新gemini和elevenlabs-scribe
【十倍速写作系列1】🔥【原创长文】深度分析AI语音输入法CleverType,如何降维打击讯飞搜狗语音,成为你的效率利器【长期更新】
深度研究5:分享个提升Gemini/ChatGPT Deep research最大输出,以及查看ChatGPT Deep research剩余次数的方法
深度研究4:🔥【原创长文】O3 Deep research vs 2.5-pro Deep research
深度研究3:🔥【原创长文】让AI为你写有声书:基于Deep research+音频朗读的学习方法
大模型11:🔥【大模型系列11】关于Grok4,你想知道的一切。250716更新:LMArena评分,网页版支持语音,加入类似3d waifu
大模型10:🔥【原创长文】关于O3-pro,你想知道的一切,更新LiveBench评分【长期更新】
大模型9:🔥【原创长文】关于Deepseek R1-0528,你想知道的一切【250530更新LiveBench评分】
大模型8:🔥【原创长文】关于Claude4,你想知道的一切,250529更新Lmarena前端编程评分【长期更新】
大模型7:🔥【原创长文】关于Gemini 2.5 Flash,你想知道的一切。2.5-flash-0520Lmarena和长上下文评分【250525更新见底楼】
大模型6:🔥【原创长文】关于GPT-O3,O4-mini和4.1,你想知道的一切:250425:Lmarena评分出来了【长期更新】
大模型5:【原创长文】关于Gemini 2.5 Pro,你想知道的一切。2.5-pro-0605 Aider编程分数超过o3【更新见底楼】
其他:🔥【原创长文】顶级会员科普:ChatGPT Pro vs Gemini Ultra vs Claude Max vs SuperGrok Heavy
其他:🔥【原创长文】全网最全,中美AI相关社区汇总【长期更新】
其他:【原创长文】不要被官方参数骗了,各大模型实际长文输出能力测试研究【长期更新】
其他:【原创长文】Gemini-2.5-flash做沉浸式翻译的研究
其他:❓【ChatGPT】Sora画图 vs 4o画图,有什么区别,你知道吗?
其他:🔥【原创长文】关于免费和包月限量,你想知道的一切:ChatGPT Deep research限量翻倍【250518底楼更新】
其他:AI梗图大全,总有一张让你大笑☺,250410更新Llama梗图在底部【长期更新】
其他:《Deepseek时刻》原创长文,深度分析Deepseek这几天在全球到底发生了什么(1月28日17点40更新)