语音输入技术已经成为提高生产力的重要工具,但选择合适的解决方案并不容易。经过几个月的深度使用和测试,我想分享一些关于不同语音输入工具的选择经验。

Mac 的语音输入法

接下来让我们来对比 Mac 端的语音输入法。当然了,这里有一些应用是在 Windows 上可以用的,比如 WisprFlow 和 Aqua Voice。

基于 Whisper 的解决方案

许多人首先接触的是 Whisper 技术,它支持本地部署,速度相对较快。市面上很多应用都基于这个技术构建:

  • WisprFlow:除了基础的 Whisper 模型外,还加入了纠错功能,效果相对较好。订阅费用为每月 10 美元,但免费版本每月重置额度,对大多数用户来说够用。后来由于 Reddit 上曝光的权限滥用和内存占用问题,我卸载了。
  • MacWhisper:Mac 平台的本地 Whisper 应用,后来改名 Whisper Transcription。
  • SuperWhisper 等其他应用。

一般来说,如果你看到一个语音输入应用是免费的、无订阅或买断制的,基本都是使用 Whisper 服务。但无论是 Whisper V2,V3 还是 V3 Turbo,识别效果都不算特别理想。

Aqua Voice

这是我认为我体验过的效果最好的语音输入工具。如果预算充足,这绝对是首选:

  • 支持 Windows 和 Mac 双平台
  • 具有 Streaming 模式(能模糊看到输出是逐词识别的,但是具体的技术栈无从而知)
  • UI 流畅,输出准确且速度快
  • 缺点:订阅费用较高,且与 WisprFlow 相比(每月 10 美元),简体中文和繁体中文混淆。

Spokenly

目前我主要使用的是 Spokenly,这是一个 Mac 独占的免费应用:

  • 完全免费,只需要 OpenAI API
  • 使用 GPT-4o Mini Transcribe 模型,而非 Whisper
  • 速度和准确性都远超 Whisper

最初我担心 GPT-4o Mini 的语音转录会很昂贵,但实际使用发现非常便宜。由于语音输入通常是短时间的快速输入,实际消耗的费用很少。经过计算,大约一小时录音仅需 27 日元(约 1 元人民币),也就是说,Aqua Voice 一个月的订阅费用可以支撑 50 小时的转写,至少在我的使用案例里是非常优惠的。

不过 Spokenly 不支持 Windows,我的 Surface 应该怎么办😭

手机端解决方案

在移动设备上,微信输入法 是我见过综合速度和质量最好的中文语音输入解决方案:

  • 识别速度极快,连快速语音都能准确识别
  • 日常对话音量即可,无需刻意大声说话
  • 虽然中英文混输效果一般,但在手机使用场景下已经足够

相比之下,Google 为 Pixel 上 Tensor 设计的独占语音输入虽然非常好用,但只支持日语和英文

语音笔记软件对比(VoiceNotes vs IdeaShell)

除了即时语音输入,语音笔记软件也是重要的一环。在长篇的思考、整体计划和头脑风暴环节,我喜欢用手机上的录音软件出门边走路散步边和自己说话,此外,在这类场景中,转写的准确度变得不是很重要,因为长篇的场景下,即使是 Whisper 模型也变得很够用。

我主要对比了两款跨平台云端服务:

Voicenotes 在开发速度和功能全面性上表现更好,提供了 RAG(个人资料库)功能,服务稳定性也相对较高。不过它的永久方案 Voicenotes Believer 已经售罄,只能选择订阅模式,而且订阅价格偏高。另外 Android 版本在现代化适配方面还有待改进,比如缺少震动反馈等细节。
相比之下,IdeaShell 的界面设计更加美观,至今仍提供永久方案,体现了小而美的产品理念,专注于核心功能。但它的服务端稳定性不够理想,经常出现转换失败的问题,功能相对简单,扩展性有限。更让人失望的是,此前承诺的 RAG 功能至今都没有实现。

作为对比,Voicenotes 的订阅方案为 15.99 美元/月,IdeaShell 为 5.99 美元/月。Voicenotes Believer 售价为 50 美元,现在已经停止售卖,IdeaShell 为 100 美元。

选择建议

如果你是英文用户: 大多数基于 Whisper 的方案甚至电脑自带的输入法都能满足需求,技术门槛也不高。

如果你主要使用中文:

  • 预算充足:选择 Aqua Voice
  • 追求性价比:选择 Spokenly(Mac 用户)
  • 手机使用:微信输入法

语音笔记软件选择:

  • 重视稳定性和功能完整性:VoiceNotes
  • 重视界面设计和性价比:IdeaShell

总结

语音输入技术的关键在于模型质量。当技术达到一定水准时,体验会非常舒适;反之则会让人沮丧。建议在选择前充分试用各种方案的免费额度,找到最适合自己使用场景的工具。

值得注意的是,许多软件在英文识别上表现尚可,但中文支持普遍较差。选择时需要特别关注对中文的支持程度。