🔥【十倍速写作系列3】关于AI语音输入法,你想知道的一切,附全平台排名【250820底楼更新最强听写+最强润色方案】

🔥【十倍速写作系列3】关于AI语音输入法,你想知道的一切,附全平台排名【250820底楼更新最强听写+最强润色方案】

经过两个月的研究,6月份一个月语音写作80万字深度实践,我暂时的"语音输入法+笔记"排名(不限平台/不限价格)如下

928d37bc-a720-4045-a42f-50b3e19f9450643×242 13 KB

这里重点研究AI输入法,笔记不是重点,用Obsidian,Tana,Roam,Notion都行

要想获得最好的输出稿质量,需要:第一梯队软件功能 + 第一梯队听写模型 + 第一梯队润色模型 + 合适润色提示词(自己写) + 降噪麦克风 + 环境无人声噪音,几个要素都高

本排名主要是针对需要大量写作的人,每天写作字数越多,折腾越有价值,字数少每天写个千八百字,打字也慢不了多少。或者微信聊天等简短,比较随意的内容,用普通非多模态,不带润色的免费语音输入法就够,不值得折腾AI语音输入法

AI语音输入法原理

①PC或手机进入任意笔记软件(Obsidian等)

②点语音输入法的录音图标或快捷键

③录音中:高级模型通常只显示波形,不会显示实时字幕,不同软件或听写模型,会有不同的一次录音时长限制,一般15分钟(2500字)~60分钟(1万字)

④结束录音,自动上传到听写模型api(例如whisper)云端推理,或者本地推理(win需8G或16G显存或mac统一内存)

有的听写模型支持自动区分2个说话人,人名你自己填,适合谈话或会议录音

⑤自动返回录音稿,连同你事先写好的提示词,词典(同音词/人名/专有名词/替换列表),自动上传到大语言模型api云端润色

非推理模型润色快,推理模型润色慢,包月推理模型润色强度通常很低或没有,API一般是默认推理强度(Medium)

润色内容包括字典,去除口头禅,标点,错别字,口语改书面语,文风,自动分段,自动加段落标题等

⑥自动返回润色稿,可以自动输出到你当前笔记的光标位置,或者设置输出到剪贴板,你自己粘贴

语音输入法 vs AI语音笔记

AI语音输入法:就是可以在任意笔记或聊天软件中使用的输入法App,安卓上一般带虚拟键盘,iOS/PC上一般不带虚拟键盘

AI语音输入法+其他笔记可以当AI语音笔记用,但AI语音笔记不能当输入法用

例如:CleverType(安卓)

AI语音笔记:是笔记软件,但是通常笔记功能比专业笔记软件弱很多,也就是带云同步功能的Windows记事簿的水平

不能直接在专业笔记软件里输入,只能在两个笔记app之间复制粘贴,或者用插件同步文档,不是太方便

例如:VoiceNotes/AudioPen

输入法第一梯队

最强听写模型强(4o-transcribe或elevenlabs-scribe) + 最强润色模型(gpt5/2.5pro/flash/sonnet4),包月或自备API Key

第一第二梯队AI语音输入法都在mac上,windows/ios/安卓没有能进入第一第二梯队的

下面三个输入法,听写和润色模型(含API)都差不多,功能大同小异,主要区别是①价格②包月模型③润色推理强度,推理强度决定了润色的质量,所有AI语音输入法,都不支持手动修改思考预算或强度

但是同时,推理强度越高,速度越慢,办法是后台推理,输出到剪贴板而不是当前光标,等他提示推理完了,自己再进行粘贴

例如aistudio里2.5pro默认思考预算是8k,100秒录音稿需推理30秒,即推理时长=录音时长30%,这只是个大概数值,有一定随机性,而且如果1000秒录音并不是推理300,不是完全正比增长

①SuperWhisper(Mac正常/iOS缩水/Win缩水公测中)

$8.5/月,$85/年,尼区半价,教育优惠6折

移动用iOS版虽然缩水,也比其他iOS语音输入法强多了

包月

包月推理弱:抠门,包月给的gpt5推理很短,推理时长=录音时长的10%,sonnet4待测试,包月没给2.5pro

API推理强(反正你自己花钱):gpt5推理时长=录音时长100%+,2.5pro=80%

纯API用户:如果不买会员,连API都用不了

②VoiceInk(Mac/无iOS)

开源,Pro$29/终身,教育优惠60折

包月推理弱

纯API用户:如果不买会员,貌似连API都用不了

③Spokenly(Mac正常/iOS缩水)

包月听写强:4o-transcribe和elevenlabs-scribe不限时,唯一一家包月给

包月推理弱:我问作者他说是4o-mini,近期打算换gpt5

API推理限时:2.5pro貌似超过30秒就超时报错

纯API用户:如果不买会员,除了包月听写,所有功能都能用

$8/月,无教育优惠

输入法第二梯队

中上听写模型(whisper)+中上润色模型(一般不给推理模型),不支持api key

AudioPen语音笔记(Mac/iOS/安卓/网页):不是输入法

输入法第三梯队

润色模型弱,或只能用固定提示词,或只能手动执行润色等。

办法:可以把录音稿手动粘贴到aistudio等润色,润色后效果与第一梯队相当,

CleverType(安卓正常/iOS缩水):$6/月,只能手动启动润色

WisprFlow(Mac/Win正常/iOS缩水):$15/月,润色不能自定义提示词

SlaxNote(安卓/iOS):$5/月

Whisper Transcription(Mac/iOS严重缩水):美区$9/月,$30=/年,$100=欧区或网页€60/终身,教育优惠7折,以前叫MacWhisper。支持API 4o-transcribe听写和API 2.5pro润色,但貌似不能自动润色

iOS版缩水严重,只有手动润色

输入法第四梯队

润色模型弱,本身不是输入法,不能嵌入Obsidian等笔记中使用(只能复制粘贴过去或用插件同步)。app本身就是笔记,但笔记功能又极其简陋,用惯先进笔记的人,难以忍受

VoiceNotes(网页/安卓/iOS):是笔记,只能手动启动润色

软件第五梯队

只有听写,没有自动润色,识别率高,或不是专门听写app

例如:ChatGPT app,Gemini app,Copilot app的语音对话模式

Obsidian上各种ai听写插件

ChatGPT app,Gemini app,Copilot app,claude app,元宝,豆包,文小言的语音留言模式

输入法第六梯队

只有听写,没有润色,识别率低,尤其是中英混讲和去除口头禅极差

例如:搜狗,讯飞,百度,谷歌,微软,苹果语音输入法,讯飞语记,讯飞听见,微信留言转文字

iOS,macOS,Windows自带的听写功能

具体实测对比:🔥【十倍速写作系列2】:4o-transcribe vs whisper vs gemini-2.5 vs 搜狗讯飞的识别率实测,250716更新gemini和elevenlabs-scribe

听写模型

各个语音输入法软件,都是包月调用第三方听写API,或者你自己提供API Key,或者你自己本地跑模型,很少有软件开发者自己有能力开发听写模型或润色模型(LLM)的

听写第一梯队

elevenlabs-scribe

4o-transcribe

听写第二梯队

whisper-large-3,gemini-2.5-pro的多模态,4o-mini-transcribe,

听写第三梯队

whisper-medium本地

国产多模态听写模型:例如阿里

听写第四梯队

非多模态听写模型:搜狗,讯飞,百度,谷歌,微软,苹果等

润色模型

润色第一梯队

顶级推理模型,gpt-pro,grok4-heavy,2.5pro-deepthink

理论上润色效果是最好的,但是考虑到api贵,有的模型还没有api,速度极慢,如果稿件不是非常重要,一般没必要用这些模型

润色第二梯队

高级推理模型,2.5pro(三万字+),claude4(三万字+),Grok4(实测一次输出17万字)

另有些模型限制输出1~4k字,字多容易缩写的,字少可以用:o3,o4mini,r1

润色第三梯队

一般推理模型,2.5flash(2万字+)

润色第四梯队

推理模型关闭推理功能。

非推理模型deepseek3/4o/4.1,但限制输出1~4k字

成本

整体上,一分钱一分货,是古今中外通用的道理

时间成本

不能只考虑使用成本,也要考虑自己的时间成本,例如月薪9000÷22天÷8小时=50元/小时 时薪

AI语音如果可以提升你10%的产量,就值50元时薪×10%=5元/小时

我的实际情况是AI语音输入法提升了我产量15倍(从2000字/天到3.3万字/天)

这里面算AI输入法提升3倍速度 × 在公园录音提升5倍专注力,物理隔离,克服游戏,影视,抖音等干扰

心理成本

如果识别率低,没自动润色,瑕疵就很多,看录音稿,手动改录音稿,看见自己说的很好,但识别出乱七八糟,心情是很差的,自尊心自信心也可能受打击

个人品牌成本

如果识别率低,没自动润色,错别字多,英文拼写错误,口头禅多,重复啰嗦,没有及时手动修改,发到微信/钉钉/邮件/文档等,给同事/老板/客户/朋友看到,可能会给人做事马虎,不负责任,学历低的印象

机会成本

如果因识别率低,惧怕语音写作,放弃十倍速的机会,机会成本可能会很高。

高成本,高质量的

自备API Key,语音模型用4o-transcribe(¥2.7/万字)或elevenlabs-scribe(¥6/万字,¥3/h)

润色模型用2.5pro(¥1/万字)或sonnet4(¥1.5/万字)

总api成本¥4/万字左右

据我所知,现在只有Spokenly(mac)的$8包月,和CleverType(安卓)的$6包月,是有不限量的4o-transcribe。Spokenly和SuperWhisper(mac)可以填4o-transcribe的apikey

貌似没有任何一个ai语音输入法提供了elevenlabs-scribe包月,但是S Spokenly(mac)/VoiceInk(mac)/MacWhisper(mac)可以填elevenlabs-scribe的apikey

openai 4o-transcribe按token收费¥2.7/万字。elevenlabs-scribe按小时收费¥3/小时,人正常连续说话是每小时1万字,表面看价格差不多,实际上elevenlabs-scribe会贵2倍左右,是因为他是按时间算钱,思考时间不说话,也一样算钱。

4o-transcribe只录音不说话不算钱

另外elevenlabs-scrib并不是直接api充值,他是api会员,$5=12小时,只有刚好用满12小时,才是¥3/小时,低于12小时,就会浪费,高于12小时,要买更高一档会员

只有闪念笔记这种,说几句话就停止录音,一点不浪费,才有可能累计达到1小时一万字

真正长录音的时候,人大概有一半时间是不说话的,在思考的,实际产量只有每小时5000字

总不能每次思考都暂停,想好了再接着录吧。何况很多ai语音输入法根本就没有暂停的功能

另外开着录音忘关了,不小心误触了录音按钮,早晚在床上躺着录,录着录着睡着了,如果用按时间计费的apikey,这都是很常见的浪费token的情况。

中成本,中高质量的

用语音笔记的包月服务,一般听写模型whisper-large,润色模型2.5flash/4o

每月$10左右,算每天录2小时,一半时间思考,一半时间说话,即1万字,成本¥2/万字左右

这个成本不固定,因为有的软件包月不限量,或者限量很高,用得越多单价越低

包月一般也不会给顶级听写模型和推理润色模型,因为成本会高几倍,卖$10/月左右作者赚不到差价,定价太高又不好卖

低成本,中高质量的

APIKey,第三方whisper云服务最低¥0.6/万字(0.3/h),2.5flash¥0.2/万字,综合¥1/万字左右

第三方Whisper API例如Groq,Fal.ai,Fireworks等

另外很多云服务都有注册送余额(例如GCP送$300,Assembly送$200),或者每天免费额度(例如groq),用量不大的话可以白嫖

也有很多第三方逆向或低价API,L站里自己找

零成本,中高质量的

8G以M芯片Mac或win带显卡,可以本地跑whisper-medium

16G的M芯片Mac或win带显卡,可以本地跑whisper-large

根据配置和模型大小不同,速度5~10x,就是10分钟录音需要1~2分钟推理(参考云端whisper api可以达到200x倍速以上)

本地跑听写模型比较容易,因为听写模型本来容量就小。本地跑润色模型比较难,只能跑些7~9B左右的小模型,速度可能3~5x左右,粗略的说,几B模型就需要Windows几G显存,或Mac统一内存

零成本,低质量的

搜狗,讯飞,百度,微软,谷歌,苹果语音输入法

硬件选择

Mac是电脑上最佳选择

如果是每天要大量AI语音输入的人,室内使用Mac是最佳选择,二手m1 macbook air也就两千多

选择很多,竞争充分,MacWhisper,SuperWhisper,Spokenly,Voiceink都很好,大同小异

这类ai语音软件,高度集中于mac上,mac上排名前十的AI语音输入法,随便拎出来一个放到Windows/iOS/安卓上估计都能排第一,

但是mac上语音输入法,偶尔会缩水移植到iOS,很少会移植到Win/安卓

我估计有个原因,就是mac上各类专业创作者(设计,视频,文案)等比较多,付费意愿强

另外可能跟m芯片的mac,统一内存,不区分内存和显存,适合跑本地whisper有关,虽然并不是强制本地跑whisper

Whisper用CPU+内存跑很慢,用GPU跑需要windows8~16g显卡,或Mac统一内存

M1或以上芯片的Mac,8g起步,100%都能跑本地Whisper。

Windows笔记本有8g或以上独显的比例不高,8g要4060以上,16g要4080以上

就是说虽然windows笔记本用户数是macbook十倍,但里面真正有8G以上显卡,能跑本地whisper的,可能总人数还没有macbook多

Win

选择很少,没有能进第一第二梯队的,暂时貌似只有SuperWhisper有明确希望在几个月内进入第一或第二梯队

SuperWhisper(Win):

mac版是全平台第一梯队:有自定义APIKey,有润色和自定义提示词,

听写可以用包月Whisper,或OpenAI key的 4o-transcribe(中转站key不行),

润色可以用包月gpt5(非推理)或sonnet4,或key使用带推理的gpt5/2.5pro/sonnet4/grok4(中转站key可以)

iOS版是全平台第三梯队:没有没有自定义APIKey,有润色和自定义提示词,

只能用Whisper + gpt5(非推理)或sonnet4

win版是全平台第三梯队:没有自定义APIKey,有润色和自定义提示词,

只能用Whisper + 4o或sonnet4

现在公测应该是免费

下载地址:https://fresh.superwhisper.com/download/installer/windows/x64

作者说,功能会逐渐向mac版看齐,几个星期内会支持apikey

modes设置这里preset一定要选blank(custom),才有自定义提示词和润色模型选择

微信图片_20250823102943_1487750×600 49.9 KB

WisprFlow(Win):不能选模型,不能设置润色提示词

iOS 是移动最佳选择

选择较少,好处是户外用不了笔记本时也可以用

很多Mac上语音输入法如果要移植,一般优先会移植iOS

由于这些录音App都是使用美国API,中美法规都禁止使用美国AI的App在国区AppStore上架,因此需要外国AppleID来安装这些App,安装后可以切换回国区ID

iOS上语音输入法,除了系统自带输入法,大部分需要跳转或粘贴,是苹果不肯开放麦克风权限问题,不是这些语音输入法厂商不想做

微信图片_20250804040513796×512 26.9 KB

Spokenly(iOS):预计8月初上线,应该是同类最好之一

SuperWhisper(iOS):缩水版,不能直接当输入法,要跳转粘贴

ios对输入法有严格限制,所以ios版superwhisper不能当输入法用,要在superwhisper里录完,粘贴到其他笔记或微信等app里面

如果是当输入法,录一句话就切换一次粘贴,挺麻烦的

如果是当语音笔记用,一次录音可能几百几千字,粘贴一下也没啥

WisprFlow(iOS):缩水版

Apple听写(iOS):性能一般,没有润色和自定义提示词,但是免费,速度快,用于聊天也够用

25年7月升级过一次,速度比whisper快,错误率6%,显著下降,参考Whisper是3%,4o-transcribe则更低

微信输入法(iOS):性能一般,没有润色和自定义提示词,但是免费,用于聊天也够用

安卓

选择很少,没有很强的,好处是户外用不了笔记本时也可以用

由于这些录音App都是使用美国API,中美法规都禁止使用美国AI的在国内安卓市场上架,需要到PlayStore或PureApk等海外市场下载,或谷歌搜索apk

我认为安卓AI语音输入法,未来潜力比iOS大,因为iOS输入法禁用语音的限制,是不太可能解除的,安卓无此限制

CleverType(安卓):不能自动润色,$6/月

VoiceNotes语音笔记(安卓):不是输入法,$15/月

SlaxNote语音笔记(安卓):不是输入法,$5/月

选包月还是API Key

如果录音量很大,包月划算

如果录音量不大,每天一两个小时,API Key划算,尤其润色模型2.5pro/flash API几乎不要钱。4o-transcribe听写模型用API中转站可以半价,自己搞Azure100也行

但是注意有的软件比较厚道,不包月也不限制功能,例如Spokenly免费用户除了没有包月模型,其他功能都是一样的

有的软件就不太厚道,例如SuperWhisper,必须是付费会员,才能自己填API Key,我都自备API Key了,还买你包月做啥

附老外写的AI语音输入法对比表

网址:Definitive MacApp Comparisons - Google 表格

近期我发的其他文章可以参考

.🔥【十倍速写作系列3】关于AI语音输入法,你想知道的一切,附全平台排名【250820底楼更新最强听写+最强润色方案】

.🔥【十倍速写作系列2】:4o-transcribe vs whisper vs gemini-2.5 vs 搜狗讯飞的识别率实测,250716更新gemini和elevenlabs-scribe

【十倍速写作系列1】🔥【原创长文】深度分析AI语音输入法CleverType,如何降维打击讯飞搜狗语音,成为你的效率利器【长期更新】

深度研究5:分享个提升Gemini/ChatGPT Deep research最大输出,以及查看ChatGPT Deep research剩余次数的方法

深度研究4:🔥【原创长文】O3 Deep research vs 2.5-pro Deep research

深度研究3:🔥【原创长文】让AI为你写有声书:基于Deep research+音频朗读的学习方法

大模型11:🔥【大模型系列11】关于Grok4,你想知道的一切。250716更新:LMArena评分,网页版支持语音,加入类似3d waifu

大模型10:🔥【原创长文】关于O3-pro,你想知道的一切,更新LiveBench评分【长期更新】

大模型9:🔥【原创长文】关于Deepseek R1-0528,你想知道的一切【250530更新LiveBench评分】

大模型8:🔥【原创长文】关于Claude4,你想知道的一切,250529更新Lmarena前端编程评分【长期更新】

大模型7:🔥【原创长文】关于Gemini 2.5 Flash,你想知道的一切。2.5-flash-0520Lmarena和长上下文评分【250525更新见底楼】

大模型6:🔥【原创长文】关于GPT-O3,O4-mini和4.1,你想知道的一切:250425:Lmarena评分出来了【长期更新】

大模型5:【原创长文】关于Gemini 2.5 Pro,你想知道的一切。2.5-pro-0605 Aider编程分数超过o3【更新见底楼】

其他:🔥【原创长文】顶级会员科普:ChatGPT Pro vs Gemini Ultra vs Claude Max vs SuperGrok Heavy

其他:🔥【原创长文】全网最全,中美AI相关社区汇总【长期更新】

其他:【原创长文】不要被官方参数骗了,各大模型实际长文输出能力测试研究【长期更新】

其他:【原创长文】Gemini-2.5-flash做沉浸式翻译的研究

其他:❓【ChatGPT】Sora画图 vs 4o画图,有什么区别,你知道吗?

其他:🔥【原创长文】关于免费和包月限量,你想知道的一切:ChatGPT Deep research限量翻倍【250518底楼更新】

其他:AI梗图大全,总有一张让你大笑☺,250410更新Llama梗图在底部【长期更新】

其他:《Deepseek时刻》原创长文,深度分析Deepseek这几天在全球到底发生了什么(1月28日17点40更新)

🎊 相关推荐

怪物猎人p3太刀和大剑哪个好用
365bet体育网站

怪物猎人p3太刀和大剑哪个好用

📅 08-05 👀 8480
电脑自动关机是什么原因?为什么电脑会自动关机?轻松弄懂
Epic怎么改区到最便宜的国家?详细教程在这