Estou procurando um software de reconhecimento de fala offline para Linux que também possa lidar com o idioma alemão e que seja fácil de usar e configurar.
Já experimentei o CMU Sphinx e mais alguns outros, mas todos tinham uma coisa em comum: têm sido muito complicados de instalar/usar, principalmente por falta de um bom manual e também por um conceito muito rudimentar (tento para evitar a palavra "usabilidade" neste contexto).
Então...existe um software de reconhecimento de voz que pode ser instalado e configurado em tempo finito, é capaz de executar scripts em comandos reconhecidos e funciona totalmente offline, o que significa que não precisa de um serviço de nuvem ou servidor remoto para analisar a fala palavras? Também estou disposto a pagar por uma solução funcional e utilizável!
Todas as dicas e ideias são bem vindas!
Obrigado!
PS: Estou ciente do tópico Existe algum software de reconhecimento de voz decente para Linux? - mas as respostas dadas NÃO apontam para soluções off-line!
Vale ficar de olho no que Michael Sheldon está fazendo: http://blog.mikeasoft.com/2017/12/30/speech-recognition-mozillas-deepspeech-gstreamer-and-ibus/
Advertência: ainda não tem utilidade prática, na minha opinião. MAS ... depois de lutar e lutar para configurar as coisas, finalmente consegui obter o reconhecimento das palavras faladas (em inglês ... não tenho ideia do alemão).
Mike Sheldon está usando o modelo DeepSpeech da Mozilla, que soa bem.
Os comentários naquela página (meu comentário nº 100 foi quando consegui algum reconhecimento de fala) parecem ter parado em julho de 2018. Não tenho ideia se ele ainda está trabalhando nisso.
Experimente o ditado de nerd ( vídeo de demonstração ).
Eu encontrei o mesmo problema e acabei escrevendo minha própria ferramenta, embora tenha algumas decisões opinativas, acho que geralmente funciona bem para necessidades básicas de ditado (com base no excelente VOSK-API ) .
Uma postagem que criei recentemente tinha algumas dessas informações respondidas com um pouco mais de detalhes (crédito para geb e adabru por algumas das informações abaixo), o que pode ser útil para ler, marcar e verificar as atualizações: Eye Gaze Tracking With Head Tracking Solutions No Linux
Uma das opções mais produtivas e fáceis de configurar de acordo com adabru, https://handsfreecoding.org/ e muitos outros que encontrei online: https://talonvoice.com
Parece funcionar offline para analisar palavras faladas (consulte 7. Privacidade): https://talonvoice.com/EULA.txt
Você pode usar o mecanismo Vosk no Talon para suporte em alemão se pagar US$ 25/mês, no momento da redação deste artigo, para a versão Beta (consulte Vosk e o wiki da comunidade Talon para idiomas suportados):
https://alphacephei.com/vosk/
https://talon.wiki/speech_engines/
https://talon.wiki/faq/#are-languages-other-than-english-supported
Há também uma versão gratuita do Talon, mas lembre-se de que o Talon não é todo código-fonte aberto.
Eu daria a Numen um olhar duro. É um software gratuito e de código aberto que usa o Vosk, que oferece suporte ao alemão. Parece uma opção muito boa se você usa principalmente programas centrados no teclado (alguns estão listados no link): https://git.sr.ht/%7Egeb/numen
Pode haver outros projetos Vosk que atendam às suas necessidades em: https://alphacephei.com/vosk/integrations
Você pode usar o Dragon com o Talon, mas o Dragon é nativo do Windows. Até onde eu sei, você provavelmente precisaria de uma máquina virtual Linux no Windows ou usaria o Cygwin no Windows (consulte https://handsfreecoding.org/using-dragon-with-linux ). Provavelmente não é o que você está procurando, mas o Dragon oferece suporte ao alemão e acho que me lembro que Nuance me disse que o Dragon funciona offline para analisar palavras faladas (eu verificaria isso). Você também pode usar Dragon com Dragonfly, mencionado em https://handsfreecoding.org/ . O Dragon vai custar cerca de US$ 300 a US$ 500 (consulte https://talon.wiki/speech_engines/ ) e é proprietário. Eu pessoalmente não recomendaria o Dragon pela minha experiência com ele e não seria minha primeira consideração.