Řeč je v moderní době populární a chytrá metoda interakce s elektronickými zařízeními. Jak víme, existuje mnoho open source nástrojů pro rozpoznávání řeči dostupných na různých platformách. Od počátku této technologie byla současně zdokonalována v porozumění lidskému hlasu. To je důvod; nyní zaměstnává mnohem více odborníků než dříve. Technický pokrok je dostatečně silný na to, aby to běžným lidem bylo jasnější.
Nástroje pro rozpoznávání řeči s otevřeným zdrojovým kódem
Open source nástroj pro rozpoznávání hlasu není příliš dostupný jako typický software, který používáme v našem každodenním životě na platformě Linux. Po dlouhém zkoumání jsme pro vás našli několik dobře vybavených aplikací s krátkým popisem. Pojďme se podívat na body níže!
1. Kaldi
Kaldi je speciální druh softwaru pro rozpoznávání řeči, který vznikl jako součást projektu na Univerzitě Johna Hopkinse. Tato sada nástrojů přichází s rozšiřitelným designem a je napsána v programovacím jazyce C++. Svým uživatelům poskytuje flexibilní a pohodlné prostředí se spoustou rozšíření pro zvýšení výkonu Kaldi.
Pozoruhodné vlastnosti Kaldi
- Bezplatná a flexibilní aplikace pro rozpoznávání hlasu s otevřeným zdrojovým kódem pod licencí Apache.
- Běží na více platformách, včetně GNU/Linux, BSD a Microsoft Windows.
- Poskytuje podporu pro instalaci a konfiguraci aplikace do vašeho systému.
- Kromě systému rozpoznávání řeči podporuje také hluboké neuronové sítě a lineární transformace.
2. CMUSfinga
CMUS Sphinx přichází se skupinou systémů obohacených o funkce s několika předpřipravenými balíčky souvisejícími s rozpoznáváním řeči. Jedná se o open source program vyvinutý na Carnegie Mellon University. Tento nástroj pro rozpoznávání nezávislý na mluvčích získáte v několika jazycích, včetně francouzštiny, angličtiny, němčiny, holandštiny a dalších.
Pozoruhodné vlastnosti CMUSphinx
- Jedná se o snadno použitelný a rychlý systém rozpoznávání řeči s uživatelsky přívětivým rozhraním.
- Přichází s flexibilním designem a efektivním systémem, a to i na platformách s nízkými zdroji.
- Poskytuje nástroje pro trénink akustických modelů prostřednictvím balíčku Sphinxtrain.
- Pomáhá provádět různé typy úkolů prostřednictvím svých užitečných balíčků, včetně vyhledávání klíčových slov, hodnocení výslovnosti, zarovnání a dalších.
- Jedná se o multiplatformní nástroj, který podporuje systémy Windows i Linux.
3. DeepSpeech
DeepSpeech je open source engine pro rozpoznávání řeči, který převádí vaši řeč na text. Je to bezplatná aplikace od Mozilly. Ke spuštění projektu DeepSearch na vašem zařízení budete potřebovat Python 3.r nebo vyšší. Potřebuje také soubor rozšíření Git, konkrétně úložiště Git Large File Storage. Používá se pro verzování velkých souborů, když je spouštíte ve vašem systému.
Pozoruhodné funkce DeepSpeech
- DeepSpeech využívá rámec TensorFlow, aby byla transformace hlasu pohodlnější.
- Podporuje GPU NVIDIA, což pomáhá provádět rychlejší odvození.
- Odvození DeepSearch můžete použít třemi různými způsoby; Balíček Python, balíček Node.JS nebo klient příkazového řádku.
- Pokaždé, když chcete spustit tento software do vašeho systému, budete muset aktivovat virtuální prostředí pomocí příkazu Python.
- Ke spuštění této aplikace je potřeba prostředí Linux nebo Mac.
4. Wav2Letter++
WavLetter++ je moderní a populární nástroj pro rozpoznávání řeči vyvinutý týmem Facebook AI Research. Je to další open source program pod licencí BCD. Tento superrychlý software pro rozpoznávání hlasu byl vytvořen v C++ a představen se spoustou funkcí. Svým uživatelům poskytuje možnost jazykového modelování, strojového překladu, syntézy řeči a další ve flexibilním prostředí.
Pozoruhodné vlastnosti Wav2Letter++
- Obsahuje aktivní komunitu na populárních platformách, jako je Facebook a skupina Google, která pomáhá svým uživatelům po celém světě.
- WavLetter++ je rychlá a flexibilní sada nástrojů, která pro maximální efektivitu využívá knihovnu tenzorů ArrayFire.
- Umožňuje vám pracovat s vysoce výkonným rámcem, jako je wav2letter++, který pomáhá provádět úspěšný výzkum a ladění modelů.
- Poskytuje také kompletní dokumentaci prostřednictvím sekcí s výukovým programem.
- Ve složce receptů získáte podrobné recepty pro WSJ, Timit a Librispeech.
5. Julius
Julius je poměrně starší open source software pro rozpoznávání hlasu vyvinutý Lee Akinobu. Tento nástroj je napsán v programovacím jazyce C vývojáři z Kawahara Lab, Kyoto University. Jedná se o vysoce výkonnou aplikaci pro rozpoznávání řeči s velkou slovní zásobou. Můžete jej použít v angličtině i japonštině. Může to být skvělá volba, pokud jej chcete používat pro akademické a výzkumné účely.
Pozoruhodné rysy Julia
- Julius je vysoce konfigurovatelná aplikace, která dokáže nastavit různé parametry vyhledávání a vyladit tak svůj výkon.
- Tento nástroj je založen na dvouprůchodové strategii, která vám poskytuje výkon v reálném čase ve vysoké kvalitě.
- Jedná se o multiplatformní projekt, který běží na systémech Linux, BSD, Windows a Android.
- Integrováno s Julianem, analyzátorem rozpoznávání založeným na gramatice.
- Kromě podpory gramatiky založené na pravidlech poskytuje také výstup grafu Word, hodnocení spolehlivosti, odmítnutí vstupu na základě GMM a mnoho dalších funkcí.
6. Simon
Simon přichází s moderním a snadno použitelným softwarem pro rozpoznávání řeči, který vyvinul Peter Grasch. Je to další open source program pod GNU General Public License. Simon můžete volně používat v systémech Linux i Windows. Také poskytuje flexibilitu pro práci s jakýmkoli jazykem, který chcete.
Pozoruhodné vlastnosti Simona
- Pomocí své hlasově ovládané kalkulačky Simon poskytuje zařízení k provádění různých aritmetických operací.
- Kompatibilní se Skype a dalšími oblíbenými programy VOIP pro vytvoření jednoduchého komunikačního systému s přáteli a příbuznými.
- Umožňuje uživatelům sledovat prezentace a videa, poslouchat hudbu a další pomocí několika jednoduchých hlasových příkazů.
- Je to také nezbytný nástroj při čtení novin a surfování na internetu.
7. Mycroft
Mycroft přichází se snadno použitelným open source hlasovým asistentem pro převod hlasu na text. Je považován za jeden z nejpopulárnějších linuxových nástrojů pro rozpoznávání řeči v moderní době, napsaný v Pythonu. Umožňuje uživatelům co nejlépe využít tento nástroj ve vědeckém projektu nebo podnikové softwarové aplikaci. Může být také použit jako praktický asistent, který vám může sdělit čas, datum, počasí a další.
Pozoruhodné vlastnosti Mycroft
- Integrováno s nejpopulárnějšími sociálními médii a profesionálními platformami, včetně Facebooku, Github, LinkedIn a dalších.
- Tuto aplikaci můžete spustit na různých softwarových a hardwarových platformách. Může to být desktop nebo Raspberry Pi.
- Kromě toho, že jde o chytrého hlasového asistenta, poskytuje zařízení pro záznam zvuku, strojové učení, softwarovou knihovnu a další.
- Umožňuje uživatelům převést přirozený jazyk na strojově čitelná data pomocí nástroje Adapt, analyzátoru záměrů společnosti Mycroft.
8. OpenMindSpeech
Open Mind Speech je jedním ze základních nástrojů pro rozpoznávání řeči v Linuxu, jehož cílem je zdarma převést vaši řeč na text. Je součástí Open Mind Initiative, provozuje její provoz především pro vývojáře. Tento program byl představen s různými názvy, jako je VoiceControl, SpeechInput a FreeSpeech, než získal současný název.
Pozoruhodné vlastnosti OpenMindSpeech
- Využívá prostředí Overflow při operaci rozpoznávání hlasu, aby byly složité aplikace flexibilní.
- Open Mind Speech je většinou kompatibilní s platformami Linux a UNIX.
- Pomocí internetu může shromažďovat data o řeči od elektronických občanů, kteří jsou přispěvateli nezpracovaných dat.
9. SpeechControl
Speech Control je bezplatná aplikace pro rozpoznávání řeči, vhodná pro jakoukoli distribuci Ubuntu. Dodává se s grafickým uživatelským rozhraním založeným na Qt. Přestože je stále v rané fázi vývoje, můžete jej použít pro svůj jednoduchý projekt.
Pozoruhodné funkce SpeechControl
- Řízení řeči je program s otevřeným zdrojovým kódem pod licencí General Public License (GPL).
- Jeho cílem je pracovat jako virtuální asistent, který poskytuje opakující se úkoly, aby byl proces hladce proveden.
- Většinou se hodí pro platformy založené na Linuxu.
- Také poskytuje snadno srozumitelnou uživatelskou dokumentaci s podrobnostmi o projektu.
10. Deepspeech.pytorch
Deepspeech.pytorch je další zmiňovaná open source aplikace pro rozpoznávání řeči, která je v konečném důsledku implementací DeepSpeech2 pro PyTorch. Obsahuje sadu výkonných sítí založených na architektuře DeepSpeech2. Díky mnoha užitečným zdrojům může být použit jako jeden ze základních nástrojů pro rozpoznávání řeči v Linuxu pro výzkum a vývoj projektů.
Pozoruhodné vlastnosti Deepspeech.pytorch
- Podporuje zesílení šumu, které pomáhá zvýšit robustnost v době načítání zvuku.
- Pro odeslání požadavku na odeslání na server poskytuje základní skript serveru.
- Podporujte několik datových sad ke stažení, včetně TEDLIUM, AN4, Voxforge a LibriSpeech.
- Umožňuje přidat šum do trénovacích dat prostřednictvím vkládání hluku.
- Podporuje Visdom a Tensorboard pro vizualizaci školení o vědeckém experimentování.
Dokončení myšlenek
Dosáhli jsme tedy konečného bodu u open source nástrojů pro rozpoznávání řeči pro Linux. Doufám, že máte vyčerpávající informace o tomto tématu. Výše uvedené aplikace jsou bezplatné, snadno použitelné a připravené stát se součástí vašeho akademického nebo osobního projektu.
Kterému z nich dáváte přednost? Pokud máte nějaké další možnosti, neváhejte a dejte nám vědět. Sdílejte prosím tento článek se svou komunitou, pokud vám bude užitečný. Do té doby se mějte krásně. Díky!