我正在寻找一款适用于 Linux 的离线语音识别软件,它也可以处理德语并且易于使用和配置。
我已经尝试过 CMU Sphinx 和其他一些其他的,但它们都有一个共同点:安装/使用它们太复杂了,主要是因为缺乏好的手册以及非常粗糙的概念(我尝试在这种情况下避免使用“可用性”一词)。
那么......是否有可以在有限时间内设置和配置的语音识别软件,能够在识别的命令上执行脚本并完全脱机工作,意味着不需要云服务或远程服务器来分析口语字?我也愿意为一个工作和可用的解决方案付钱!
欢迎每一个提示和想法!
谢谢!
PS:我知道线程有没有适合Linux的语音识别软件?- 但那里给出的答案并不指向离线解决方案!
值得关注迈克尔谢尔顿在做什么:http: //blog.mikeasoft.com/2017/12/30/speech-recognition-mozillas-deepspeech-gstreamer-and-ibus/
警告:在我看来,它还没有任何实际用途。但是......在努力和努力配置东西之后,我最终能够识别口语(英语......我对德语一无所知)。
Mike Sheldon 正在使用 Mozilla 的 DeepSpeech 模型,这听起来不错。
该页面上的评论(我的第 100 条评论是当我设法获得一些语音识别时)似乎在 2018 年 7 月停止了。我不知道他是否还在努力。
尝试书呆子听写(演示视频)。
我遇到了同样的问题并最终编写了自己的工具,虽然它有一些固执己见的决定,但我发现它通常可以很好地满足基本的听写需求(基于出色的VOSK-API)。
我最近创建的一篇文章对其中一些信息进行了更详细的回答(以下一些信息归功于 geb 和 adabru),这可能有助于阅读、添加书签和查看更新:使用头部跟踪解决方案进行眼动追踪在 Linux 上
根据 adabru、 https: //handsfreecoding.org/和我在网上遇到的许多其他人,这是一种更高效、更容易设置的选项: https ://talonvoice.com
似乎可以离线工作以分析口语(请参阅 7. 隐私):https ://talonvoice.com/EULA.txt
如果您在撰写本文时每月支付 25 美元购买 Beta 版,则可以使用 Talon 中的 Vosk 引擎获得德语支持(有关支持的语言,请参阅 Vosk 和 Talon 社区 wiki):
https://alphacephei.com/vosk/
https://talon.wiki/speech_engines/
https://talon.wiki/faq/#are-languages-other-than-english-supported
还有一个免费版本的 Talon,但请记住,Talon 并不是所有的开源代码。
我会仔细看看Numen。它是使用支持德语的 Vosk 的免费开源软件。如果您主要使用以键盘为中心的程序(链接中列出了一些程序),这看起来是一个非常好的选择:https ://git.sr.ht/%7Egeb/numen
可能还有其他 Vosk 项目适合您的需求:https ://alphacephei.com/vosk/integrations
您可以将 Dragon 与 Talon 一起使用,但 Dragon 是 Windows 原生的。据我所知,您可能需要在 Windows 中使用 Linux 虚拟机,或者必须在 Windows 中使用 Cygwin(请参阅https://handsfreecoding.org/using-dragon-with-linux)。可能不是您要找的东西,但 Dragon 支持德语,我想我记得 Nuance 告诉我,Dragon 离线工作以分析口语(我会仔细检查)。您还可以将 Dragon 与 Dragonfly 一起使用,这在https://handsfreecoding.org/中有所提及。Dragon 将花费您大约 300-500 美元(请参阅https://talon.wiki/speech_engines/)并且它是专有的。根据我的经验,我个人不会推荐 Dragon,这不是我的首要考虑因素。