🔥【十倍速写作系列3】关于AI语音输入法，你想知道的一切，附全平台排名【250820底楼更新最强听写+最强润色方案】-365bet体育网站-365bet娱乐-365bet线上-365bet体育网站

经过两个月的研究，6月份一个月语音写作80万字深度实践，我暂时的"语音输入法+笔记"排名(不限平台/不限价格)如下

928d37bc-a720-4045-a42f-50b3e19f9450643×242 13 KB

这里重点研究AI输入法，笔记不是重点，用Obsidian，Tana，Roam，Notion都行

要想获得最好的输出稿质量，需要：第一梯队软件功能 + 第一梯队听写模型 + 第一梯队润色模型 + 合适润色提示词（自己写） + 降噪麦克风 + 环境无人声噪音，几个要素都高

本排名主要是针对需要大量写作的人，每天写作字数越多，折腾越有价值，字数少每天写个千八百字，打字也慢不了多少。或者微信聊天等简短，比较随意的内容，用普通非多模态，不带润色的免费语音输入法就够，不值得折腾AI语音输入法

AI语音输入法原理

①PC或手机进入任意笔记软件(Obsidian等)

②点语音输入法的录音图标或快捷键

③录音中：高级模型通常只显示波形，不会显示实时字幕，不同软件或听写模型，会有不同的一次录音时长限制，一般15分钟(2500字)~60分钟(1万字)

④结束录音，自动上传到听写模型api(例如whisper)云端推理，或者本地推理(win需8G或16G显存或mac统一内存）

有的听写模型支持自动区分2个说话人，人名你自己填，适合谈话或会议录音

⑤自动返回录音稿，连同你事先写好的提示词，词典(同音词/人名/专有名词/替换列表)，自动上传到大语言模型api云端润色

非推理模型润色快，推理模型润色慢，包月推理模型润色强度通常很低或没有，API一般是默认推理强度(Medium)

润色内容包括字典，去除口头禅，标点，错别字，口语改书面语，文风，自动分段，自动加段落标题等

⑥自动返回润色稿，可以自动输出到你当前笔记的光标位置，或者设置输出到剪贴板，你自己粘贴

语音输入法 vs AI语音笔记

AI语音输入法：就是可以在任意笔记或聊天软件中使用的输入法App，安卓上一般带虚拟键盘，iOS/PC上一般不带虚拟键盘

AI语音输入法+其他笔记可以当AI语音笔记用，但AI语音笔记不能当输入法用

例如：CleverType(安卓）

AI语音笔记：是笔记软件，但是通常笔记功能比专业笔记软件弱很多，也就是带云同步功能的Windows记事簿的水平

不能直接在专业笔记软件里输入，只能在两个笔记app之间复制粘贴，或者用插件同步文档，不是太方便

例如：VoiceNotes/AudioPen

输入法第一梯队

最强听写模型强(4o-transcribe或elevenlabs-scribe) + 最强润色模型(gpt5/2.5pro/flash/sonnet4)，包月或自备API Key

第一第二梯队AI语音输入法都在mac上，windows/ios/安卓没有能进入第一第二梯队的

下面三个输入法，听写和润色模型（含API）都差不多，功能大同小异，主要区别是①价格②包月模型③润色推理强度，推理强度决定了润色的质量，所有AI语音输入法，都不支持手动修改思考预算或强度

但是同时，推理强度越高，速度越慢，办法是后台推理，输出到剪贴板而不是当前光标，等他提示推理完了，自己再进行粘贴

例如aistudio里2.5pro默认思考预算是8k，100秒录音稿需推理30秒，即推理时长=录音时长30%，这只是个大概数值，有一定随机性，而且如果1000秒录音并不是推理300，不是完全正比增长

①SuperWhisper(Mac正常/iOS缩水/Win缩水公测中)

$8.5/月，$85/年，尼区半价，教育优惠6折

移动用iOS版虽然缩水，也比其他iOS语音输入法强多了

包月

包月推理弱：抠门，包月给的gpt5推理很短，推理时长=录音时长的10%，sonnet4待测试，包月没给2.5pro

API推理强（反正你自己花钱）：gpt5推理时长=录音时长100%+，2.5pro=80%

纯API用户：如果不买会员，连API都用不了

②VoiceInk(Mac/无iOS)

开源，Pro$29/终身，教育优惠60折

包月推理弱

纯API用户：如果不买会员，貌似连API都用不了

③Spokenly(Mac正常/iOS缩水)

包月听写强：4o-transcribe和elevenlabs-scribe不限时，唯一一家包月给

包月推理弱：我问作者他说是4o-mini，近期打算换gpt5

API推理限时：2.5pro貌似超过30秒就超时报错

纯API用户：如果不买会员，除了包月听写，所有功能都能用

$8/月，无教育优惠

输入法第二梯队

中上听写模型(whisper)+中上润色模型(一般不给推理模型)，不支持api key

AudioPen语音笔记(Mac/iOS/安卓/网页)：不是输入法

输入法第三梯队

润色模型弱，或只能用固定提示词，或只能手动执行润色等。

办法：可以把录音稿手动粘贴到aistudio等润色，润色后效果与第一梯队相当，

CleverType(安卓正常/iOS缩水)：$6/月，只能手动启动润色

WisprFlow(Mac/Win正常/iOS缩水)：$15/月，润色不能自定义提示词

SlaxNote(安卓/iOS)：$5/月

Whisper Transcription(Mac/iOS严重缩水)：美区$9/月，$30=/年，$100=欧区或网页€60/终身，教育优惠7折，以前叫MacWhisper。支持API 4o-transcribe听写和API 2.5pro润色，但貌似不能自动润色

iOS版缩水严重，只有手动润色

输入法第四梯队

润色模型弱，本身不是输入法，不能嵌入Obsidian等笔记中使用（只能复制粘贴过去或用插件同步）。app本身就是笔记，但笔记功能又极其简陋，用惯先进笔记的人，难以忍受

VoiceNotes(网页/安卓/iOS)：是笔记，只能手动启动润色

软件第五梯队

只有听写，没有自动润色，识别率高，或不是专门听写app

例如：ChatGPT app，Gemini app，Copilot app的语音对话模式

Obsidian上各种ai听写插件

ChatGPT app，Gemini app，Copilot app，claude app，元宝，豆包，文小言的语音留言模式

输入法第六梯队

只有听写，没有润色，识别率低，尤其是中英混讲和去除口头禅极差

例如：搜狗，讯飞，百度，谷歌，微软，苹果语音输入法，讯飞语记，讯飞听见，微信留言转文字

iOS，macOS，Windows自带的听写功能

具体实测对比：🔥【十倍速写作系列2】：4o-transcribe vs whisper vs gemini-2.5 vs 搜狗讯飞的识别率实测，250716更新gemini和elevenlabs-scribe

听写模型

各个语音输入法软件，都是包月调用第三方听写API，或者你自己提供API Key，或者你自己本地跑模型，很少有软件开发者自己有能力开发听写模型或润色模型（LLM）的

听写第一梯队

elevenlabs-scribe

4o-transcribe

听写第二梯队

whisper-large-3，gemini-2.5-pro的多模态，4o-mini-transcribe，

听写第三梯队

whisper-medium本地

国产多模态听写模型：例如阿里

听写第四梯队

非多模态听写模型：搜狗，讯飞，百度，谷歌，微软，苹果等

润色模型

润色第一梯队

顶级推理模型，gpt-pro，grok4-heavy，2.5pro-deepthink

理论上润色效果是最好的，但是考虑到api贵，有的模型还没有api，速度极慢，如果稿件不是非常重要，一般没必要用这些模型

润色第二梯队

高级推理模型，2.5pro(三万字+)，claude4(三万字+)，Grok4(实测一次输出17万字）

另有些模型限制输出1~4k字，字多容易缩写的，字少可以用：o3，o4mini，r1

润色第三梯队

一般推理模型，2.5flash（2万字+）

润色第四梯队

推理模型关闭推理功能。

非推理模型deepseek3/4o/4.1，但限制输出1~4k字

成本

整体上，一分钱一分货，是古今中外通用的道理

时间成本

不能只考虑使用成本，也要考虑自己的时间成本，例如月薪9000÷22天÷8小时=50元/小时时薪

AI语音如果可以提升你10%的产量，就值50元时薪×10%=5元/小时

我的实际情况是AI语音输入法提升了我产量15倍(从2000字/天到3.3万字/天)

这里面算AI输入法提升3倍速度 × 在公园录音提升5倍专注力，物理隔离，克服游戏，影视，抖音等干扰

心理成本

如果识别率低，没自动润色，瑕疵就很多，看录音稿，手动改录音稿，看见自己说的很好，但识别出乱七八糟，心情是很差的，自尊心自信心也可能受打击

个人品牌成本

如果识别率低，没自动润色，错别字多，英文拼写错误，口头禅多，重复啰嗦，没有及时手动修改，发到微信/钉钉/邮件/文档等，给同事/老板/客户/朋友看到，可能会给人做事马虎，不负责任，学历低的印象

机会成本

如果因识别率低，惧怕语音写作，放弃十倍速的机会，机会成本可能会很高。

高成本，高质量的

自备API Key，语音模型用4o-transcribe(¥2.7/万字)或elevenlabs-scribe(¥6/万字,¥3/h)

润色模型用2.5pro(¥1/万字）或sonnet4（¥1.5/万字）

总api成本¥4/万字左右

据我所知，现在只有Spokenly(mac)的$8包月，和CleverType(安卓）的$6包月，是有不限量的4o-transcribe。Spokenly和SuperWhisper(mac)可以填4o-transcribe的apikey

貌似没有任何一个ai语音输入法提供了elevenlabs-scribe包月，但是S Spokenly(mac)/VoiceInk(mac)/MacWhisper(mac)可以填elevenlabs-scribe的apikey

openai 4o-transcribe按token收费¥2.7/万字。elevenlabs-scribe按小时收费¥3/小时，人正常连续说话是每小时1万字，表面看价格差不多，实际上elevenlabs-scribe会贵2倍左右，是因为他是按时间算钱，思考时间不说话，也一样算钱。

4o-transcribe只录音不说话不算钱

另外elevenlabs-scrib并不是直接api充值，他是api会员，$5=12小时，只有刚好用满12小时，才是¥3/小时，低于12小时，就会浪费，高于12小时，要买更高一档会员

只有闪念笔记这种，说几句话就停止录音，一点不浪费，才有可能累计达到1小时一万字

真正长录音的时候，人大概有一半时间是不说话的，在思考的，实际产量只有每小时5000字

总不能每次思考都暂停，想好了再接着录吧。何况很多ai语音输入法根本就没有暂停的功能

另外开着录音忘关了，不小心误触了录音按钮，早晚在床上躺着录，录着录着睡着了，如果用按时间计费的apikey，这都是很常见的浪费token的情况。

中成本，中高质量的

用语音笔记的包月服务，一般听写模型whisper-large，润色模型2.5flash/4o

每月$10左右，算每天录2小时，一半时间思考，一半时间说话，即1万字，成本¥2/万字左右

这个成本不固定，因为有的软件包月不限量，或者限量很高，用得越多单价越低

包月一般也不会给顶级听写模型和推理润色模型，因为成本会高几倍，卖$10/月左右作者赚不到差价，定价太高又不好卖

低成本，中高质量的

APIKey，第三方whisper云服务最低¥0.6/万字(0.3/h)，2.5flash¥0.2/万字，综合¥1/万字左右

第三方Whisper API例如Groq，Fal.ai，Fireworks等

另外很多云服务都有注册送余额（例如GCP送$300，Assembly送$200），或者每天免费额度（例如groq），用量不大的话可以白嫖

也有很多第三方逆向或低价API，L站里自己找

零成本，中高质量的

8G以M芯片Mac或win带显卡，可以本地跑whisper-medium

16G的M芯片Mac或win带显卡，可以本地跑whisper-large

根据配置和模型大小不同，速度5~10x，就是10分钟录音需要1~2分钟推理（参考云端whisper api可以达到200x倍速以上）

本地跑听写模型比较容易，因为听写模型本来容量就小。本地跑润色模型比较难，只能跑些7~9B左右的小模型，速度可能3~5x左右，粗略的说，几B模型就需要Windows几G显存，或Mac统一内存

零成本，低质量的

搜狗，讯飞，百度，微软，谷歌，苹果语音输入法

硬件选择

Mac是电脑上最佳选择

如果是每天要大量AI语音输入的人，室内使用Mac是最佳选择，二手m1 macbook air也就两千多

选择很多，竞争充分，MacWhisper，SuperWhisper，Spokenly，Voiceink都很好，大同小异

这类ai语音软件，高度集中于mac上，mac上排名前十的AI语音输入法，随便拎出来一个放到Windows/iOS/安卓上估计都能排第一，

但是mac上语音输入法，偶尔会缩水移植到iOS，很少会移植到Win/安卓

我估计有个原因，就是mac上各类专业创作者（设计，视频，文案）等比较多，付费意愿强

另外可能跟m芯片的mac，统一内存，不区分内存和显存，适合跑本地whisper有关，虽然并不是强制本地跑whisper

Whisper用CPU+内存跑很慢，用GPU跑需要windows8~16g显卡，或Mac统一内存

M1或以上芯片的Mac，8g起步，100%都能跑本地Whisper。

Windows笔记本有8g或以上独显的比例不高，8g要4060以上，16g要4080以上

就是说虽然windows笔记本用户数是macbook十倍，但里面真正有8G以上显卡，能跑本地whisper的，可能总人数还没有macbook多

Win

选择很少，没有能进第一第二梯队的，暂时貌似只有SuperWhisper有明确希望在几个月内进入第一或第二梯队

SuperWhisper(Win)：

mac版是全平台第一梯队：有自定义APIKey，有润色和自定义提示词，

听写可以用包月Whisper，或OpenAI key的 4o-transcribe（中转站key不行），

润色可以用包月gpt5(非推理)或sonnet4，或key使用带推理的gpt5/2.5pro/sonnet4/grok4（中转站key可以）

iOS版是全平台第三梯队：没有没有自定义APIKey，有润色和自定义提示词，

只能用Whisper + gpt5(非推理)或sonnet4

win版是全平台第三梯队：没有自定义APIKey，有润色和自定义提示词，

只能用Whisper + 4o或sonnet4

现在公测应该是免费

下载地址：https://fresh.superwhisper.com/download/installer/windows/x64

作者说，功能会逐渐向mac版看齐，几个星期内会支持apikey

modes设置这里preset一定要选blank(custom)，才有自定义提示词和润色模型选择

微信图片_20250823102943_1487750×600 49.9 KB

WisprFlow(Win)：不能选模型，不能设置润色提示词

iOS 是移动最佳选择

选择较少，好处是户外用不了笔记本时也可以用

很多Mac上语音输入法如果要移植，一般优先会移植iOS

由于这些录音App都是使用美国API，中美法规都禁止使用美国AI的App在国区AppStore上架，因此需要外国AppleID来安装这些App，安装后可以切换回国区ID

iOS上语音输入法，除了系统自带输入法，大部分需要跳转或粘贴，是苹果不肯开放麦克风权限问题，不是这些语音输入法厂商不想做

微信图片_20250804040513796×512 26.9 KB

Spokenly(iOS)：预计8月初上线，应该是同类最好之一

SuperWhisper(iOS)：缩水版，不能直接当输入法，要跳转粘贴

ios对输入法有严格限制，所以ios版superwhisper不能当输入法用，要在superwhisper里录完，粘贴到其他笔记或微信等app里面

如果是当输入法，录一句话就切换一次粘贴，挺麻烦的

如果是当语音笔记用，一次录音可能几百几千字，粘贴一下也没啥

WisprFlow(iOS)：缩水版

Apple听写(iOS)：性能一般，没有润色和自定义提示词，但是免费，速度快，用于聊天也够用

25年7月升级过一次，速度比whisper快，错误率6%，显著下降，参考Whisper是3%，4o-transcribe则更低

微信输入法(iOS)：性能一般，没有润色和自定义提示词，但是免费，用于聊天也够用

安卓

选择很少，没有很强的，好处是户外用不了笔记本时也可以用

由于这些录音App都是使用美国API，中美法规都禁止使用美国AI的在国内安卓市场上架，需要到PlayStore或PureApk等海外市场下载，或谷歌搜索apk

我认为安卓AI语音输入法，未来潜力比iOS大，因为iOS输入法禁用语音的限制，是不太可能解除的，安卓无此限制

CleverType(安卓)：不能自动润色，$6/月

VoiceNotes语音笔记(安卓)：不是输入法，$15/月

SlaxNote语音笔记(安卓)：不是输入法，$5/月

选包月还是API Key

如果录音量很大，包月划算

如果录音量不大，每天一两个小时，API Key划算，尤其润色模型2.5pro/flash API几乎不要钱。4o-transcribe听写模型用API中转站可以半价，自己搞Azure100也行

但是注意有的软件比较厚道，不包月也不限制功能，例如Spokenly免费用户除了没有包月模型，其他功能都是一样的

有的软件就不太厚道，例如SuperWhisper，必须是付费会员，才能自己填API Key，我都自备API Key了，还买你包月做啥

附老外写的AI语音输入法对比表

网址：Definitive MacApp Comparisons - Google 表格

近期我发的其他文章可以参考

.🔥【十倍速写作系列3】关于AI语音输入法，你想知道的一切，附全平台排名【250820底楼更新最强听写+最强润色方案】

.🔥【十倍速写作系列2】：4o-transcribe vs whisper vs gemini-2.5 vs 搜狗讯飞的识别率实测，250716更新gemini和elevenlabs-scribe

【十倍速写作系列1】🔥【原创长文】深度分析AI语音输入法CleverType，如何降维打击讯飞搜狗语音，成为你的效率利器【长期更新】

深度研究5：分享个提升Gemini/ChatGPT Deep research最大输出，以及查看ChatGPT Deep research剩余次数的方法

深度研究4：🔥【原创长文】O3 Deep research vs 2.5-pro Deep research

深度研究3：🔥【原创长文】让AI为你写有声书：基于Deep research+音频朗读的学习方法

大模型11：🔥【大模型系列11】关于Grok4，你想知道的一切。250716更新：LMArena评分，网页版支持语音，加入类似3d waifu

大模型10：🔥【原创长文】关于O3-pro，你想知道的一切，更新LiveBench评分【长期更新】

大模型9：🔥【原创长文】关于Deepseek R1-0528，你想知道的一切【250530更新LiveBench评分】

大模型8：🔥【原创长文】关于Claude4，你想知道的一切，250529更新Lmarena前端编程评分【长期更新】

大模型7：🔥【原创长文】关于Gemini 2.5 Flash，你想知道的一切。2.5-flash-0520Lmarena和长上下文评分【250525更新见底楼】

大模型6：🔥【原创长文】关于GPT-O3，O4-mini和4.1，你想知道的一切：250425：Lmarena评分出来了【长期更新】

大模型5：【原创长文】关于Gemini 2.5 Pro，你想知道的一切。2.5-pro-0605 Aider编程分数超过o3【更新见底楼】

其他：🔥【原创长文】顶级会员科普：ChatGPT Pro vs Gemini Ultra vs Claude Max vs SuperGrok Heavy

其他：🔥【原创长文】全网最全，中美AI相关社区汇总【长期更新】

其他：【原创长文】不要被官方参数骗了，各大模型实际长文输出能力测试研究【长期更新】

其他：【原创长文】Gemini-2.5-flash做沉浸式翻译的研究

其他：❓【ChatGPT】Sora画图 vs 4o画图，有什么区别，你知道吗？

其他：🔥【原创长文】关于免费和包月限量，你想知道的一切：ChatGPT Deep research限量翻倍【250518底楼更新】

其他：AI梗图大全，总有一张让你大笑☺，250410更新Llama梗图在底部【长期更新】

其他：《Deepseek时刻》原创长文，深度分析Deepseek这几天在全球到底发生了什么（1月28日17点40更新）

🔥【十倍速写作系列3】关于AI语音输入法，你想知道的一切，附全平台排名【250820底楼更新最强听写+最强润色方案】

🎊 相关推荐

怪物猎人p3太刀和大剑哪个好用

电脑自动关机是什么原因？为什么电脑会自动关机？轻松弄懂

Epic怎么改区到最便宜的国家？详细教程在这

🎀 合作伙伴