Už pár dní hledám to samé. Zatím jsem našel Sphinx4 a FreeTTS. Obě jsou implementace Java a zdá se, že Sphinx je na rozdíl od FreeTTS aktualizován poměrně často. Jediný problém, který mám, je, že Sphinx má problémy mi porozumět v kancelářském prostředí a já potřebuji řešení pro prostředí skladu.
Většinou Java:http://cmusphinx.sourceforge.net/html/cmusphinx.php
vPass (hlasové heslo) si můžete stáhnout z http://www.basic-signalprocessing.com.
Komponenty jsou navrženy pro jazyk Java a .Net. Doba rozpoznání je 5 sekund. VPass je dobře otestován vText není, stále nový, proto ještě není zabalený.
sfinga je zdaleka tou nejlepší dostupnou možností, pokud máte omezený rozpočet. Nicméně je to také obrovské rozdíl, jaké modely používáte, jak je ladíte a jak naladíte zdroj zvuku. naprosto všechno musí odpovídat, jinak to prostě nefunguje. Vzhledem k problému, který jste popsal, jste ochotni vsadit značnou částku, že jste si popletli modely a váš mikrofon není správně zkalibrován. také, pokud máte přízvuk, pravděpodobně to nebude fungovat - to není problém s dekodérem, ale s akustickými modely - pokud v tréninkových datech nebyl zahrnut nikdo s hlasem/přízvukem jako vy, dostanete špatné výsledky .
to znamená, že jste se podívali na jejich stránku s modely s otevřeným zdrojovým kódem?
http://www.speech.cs.cmu.edu/sphinx/models/
v závislosti na tom, co se snažíte udělat, byste měli být schopni získat asi 90% přesnost na svobodu řeči s modely WSJ 16 kHz a gigaword LMs NVP. Upozorňuji však, že ASR je masivní podnik a ještě nedosáhl statusu komodity.