Oprogramowanie do rozpoznawania mowy dla systemu Linux - Speech recognition software for Linux

Od początku XXI wieku istnieje kilka pakietów oprogramowania do rozpoznawania mowy (SR) dla systemu Linux . Niektóre z nich to oprogramowanie bezpłatne i o otwartym kodzie źródłowym, a inne to oprogramowanie zastrzeżone . Rozpoznawanie mowy zwykle odnosi się do oprogramowania, które próbuje rozróżniać tysiące słów w ludzkim języku. Sterowanie głosowe może odnosić się do oprogramowania używanego do przekazywania poleceń operacyjnych do komputera.

Natywne rozpoznawanie mowy w systemie Linux

Historia

Pod koniec lat 90. wersja ViaVoice dla systemu Linux , stworzona przez IBM , została udostępniona użytkownikom bezpłatnie. W 2002 roku programista usunął pakiet SDK ( free software development kit ).

Status rozwoju

Na początku XXI wieku pojawiła się potrzeba opracowania wysokiej jakości natywnego mechanizmu rozpoznawania mowy w systemie Linux. W rezultacie rozpoczęto kilka projektów poświęconych tworzeniu programów do rozpoznawania mowy w systemie Linux, takich jak Mycroft , który jest podobny do Microsoft Cortana , ale open source.

Crowdsourcing próbki mowy

Niezbędne jest skompilowanie korpusu mowy, aby stworzyć modele akustyczne dla projektów rozpoznawania mowy . VoxForge to korpus wolności słowa i repozytorium modeli akustycznych, które zostało zbudowane w celu gromadzenia transkrybowanej mowy do wykorzystania w projektach rozpoznawania mowy. VoxForge akceptuje próbki mowy pochodzące z crowdsourcingu i poprawki rozpoznanych sekwencji mowy. Jest objęty licencją na podstawie Powszechnej Licencji Publicznej GNU (GPL).

Koncepcja rozpoznawania mowy

Pierwszym krokiem jest rozpoczęcie nagrywania strumienia audio na komputerze. Użytkownik ma dwie główne opcje przetwarzania:

Dyskretne rozpoznawanie mowy (DSR) - całkowicie przetwarza informacje na komputerze lokalnym. Odnosi się to do niezależnych systemów, w których wszystkie aspekty SR są wykonywane całkowicie na komputerze użytkownika. Ma to kluczowe znaczenie dla ochrony własności intelektualnej (IP) i unikania niechcianego nadzoru (2018).
SR zdalny lub oparty na serwerze - przesyła plik mowy audio do serwera zdalnego w celu konwersji pliku na plik tekstowy. Dzięki niedawnym programom przechowywania w chmurze i eksploracji danych ta metoda łatwiej umożliwia nadzór, kradzież informacji i wstawianie złośliwego oprogramowania.

Zdalne rozpoznawanie było wcześniej używane przez smartfony, ponieważ brakowało im wystarczającej wydajności, pamięci roboczej lub pamięci do przetwarzania rozpoznawania mowy w telefonie. Te ograniczenia zostały w dużej mierze przezwyciężone, chociaż SR oparty na serwerze na urządzeniach mobilnych pozostaje uniwersalny.

Rozpoznawanie mowy w przeglądarce

Dyskretne rozpoznawanie mowy można przeprowadzić w przeglądarce internetowej i działa dobrze z obsługiwanymi przeglądarkami. Remote SR nie wymaga instalowania oprogramowania na komputerze stacjonarnym lub urządzeniu mobilnym, ponieważ jest to głównie system serwerowy z nieodłącznymi problemami bezpieczeństwa wymienionymi powyżej.

Zdalne : Usługa dyktowania rejestruje ścieżkę dźwiękową użytkownika za pośrednictwem przeglądarki internetowej.
DSR : Istnieją rozwiązania, które działają tylko na kliencie, bez wysyłania danych do serwerów.

Darmowe mechanizmy rozpoznawania mowy

Poniżej znajduje się lista projektów poświęconych wdrożeniu rozpoznawania mowy w systemie Linux oraz głównych rozwiązań natywnych. To nie są aplikacje dla użytkowników końcowych. Są to biblioteki programistyczne, które mogą być używane do tworzenia aplikacji dla użytkowników końcowych.

CMU Sphinx to ogólny termin opisujący grupę systemów rozpoznawania mowy opracowanych na Carnegie Mellon University.
HTK to najbardziej znane i powszechnie używane oprogramowanie do rozpoznawania mowy przed Kaldi.
Julius to wysokowydajne, dwuprzebiegowe oprogramowanie do dekodowania ciągłego rozpoznawania mowy z dużym słownictwem (LVCSR) dla badaczy i programistów zajmujących się mową.
Kaldi to zestaw narzędzi do rozpoznawania mowy na licencji Apache.
Mozilla DeepSpeech opracowuje mechanizm zamiany mowy na tekst typu open source, oparty na opracowaniu Baidu dotyczącym głębokich badań mowy.

Ewentualnie aktywne projekty:

Parlatype, odtwarzacz audio do ręcznej transkrypcji mowy na pulpit GNOME, zapewnia ciągłe rozpoznawanie mowy od wersji 1.6 z CMU Sphinx.
Lera (Rozpoznawanie mowy o dużym słownictwie) na podstawie Simona i CMU Sphinx dla KDE.
Funkcja Speech wykorzystuje mechanizm rozpoznawania mowy Google do obsługi dyktowania w wielu różnych językach.
Speech Control: to aplikacja oparta na Qt, która wykorzystuje narzędzia CMU Sphinx , takie jak SphinxTrain i PocketSphinx, aby zapewnić narzędzia do rozpoznawania mowy, takie jak sterowanie pulpitem, dyktowanie i transkrypcja na pulpit systemu Linux.
Platypus to podkładka typu open source, która pozwoli opatentowanemu Dragonowi NaturallySpeaking działającemu pod Wine na pracę z dowolną aplikacją Linux X11.
FreeSpeech, od twórcy Platypus, jest darmową i wieloplatformową aplikacją typu open source dla GTK, która wykorzystuje narzędzia CMU Sphinx do dyktowania głosu, nauki języków i edycji w stylu Dragon NaturallySpeaking.
Vedics (Voice Enabled Desktop Interaction and Control System) to głosowy asystent dla środowiska GNOME
NatI to wielojęzyczny system sterowania głosem napisany w Pythonie
SphinxKeys pozwala użytkownikowi wpisywać klawisze klawiatury i kliknięcia myszą, mówiąc do mikrofonu.
VoxForge to korpus wolności słowa i repozytorium modeli akustycznych dla silników rozpoznawania mowy typu open source.
Simon stara się być niezwykle elastycznym, aby skompensować dialekty, a nawet zaburzenia mowy. Używa HTK - Julius lub CMU SPHINX, działa w systemach Windows i Linux oraz obsługuje szkolenia.
Projekt Jasper Jasper to platforma typu open source do tworzenia stale włączonych aplikacji sterowanych głosem. To jest wbudowany front-end Raspberry Pi dla CMU Sphinx lub Julius

Programiści mogą tworzyć oprogramowanie do rozpoznawania mowy w systemie Linux przy użyciu istniejących pakietów pochodzących z projektów open source.

Nieaktywne projekty:

CVoiceControl to niezależna od KDE i X Window wersja swojego poprzednika KVoiceControl. Właściciel wstrzymał rozwój w fazie alfa.
Open Mind Speech, część Open Mind Initiative, ma na celu rozwój bezpłatnych (GPL) narzędzi i aplikacji do rozpoznawania mowy oraz gromadzenie danych dotyczących mowy. Produkcja zakończyła się w 2000 roku.
PerlBox to sterowanie i wyjście mowy oparte na perlu . Rozwój zakończył się na wczesnym etapie w 2004 roku.
Xvoice Aplikacja użytkownika zapewniająca dyktowanie i sterowanie poleceniami dla dowolnej aplikacji X. Rozwój zakończył się w 2009 roku podczas wczesnych testów projektu. (wymaga zastrzeżonego ViaVoice do działania)

Zastrzeżone silniki rozpoznawania mowy

Janus Recognition Toolkit (JRTk) to zestaw narzędzi do rozpoznawania mowy o zamkniętym kodzie źródłowym, przeznaczony głównie dla systemu Linux, opracowany przez Interactive Systems Laboratories opracowany na Carnegie Mellon University i Karlsruhe Institute of Technology, dla którego dostępne są licencje komercyjne i badawcze.

Sterowanie głosowe i skróty klawiaturowe

Rozpoznawanie mowy zwykle odnosi się do oprogramowania, które próbuje rozróżniać tysiące słów w ludzkim języku. Sterowanie głosowe może odnosić się do oprogramowania używanego do wysyłania poleceń operacyjnych do komputera lub urządzenia. Sterowanie głosowe zazwyczaj wymaga znacznie mniejszego słownictwa, a zatem jest znacznie łatwiejsze do wykonania.

Proste oprogramowanie w połączeniu ze skrótami klawiaturowymi ma najwcześniejszy potencjał praktycznie dokładnego sterowania głosowego w systemie Linux.

Uruchamianie oprogramowania do rozpoznawania mowy w systemie Windows w systemie Linux

Poprzez warstwę kompatybilności

Możliwe jest używanie programów takich jak Dragon NaturallySpeaking w Linuksie przy użyciu Wine , chociaż mogą wystąpić pewne problemy, w zależności od używanej wersji.

Za pośrednictwem zwirtualizowanego systemu Windows

Możliwe jest również użycie oprogramowania do rozpoznawania mowy w systemie Windows w systemie Linux. Korzystając z bezpłatnego oprogramowania do wirtualizacji , można uruchomić Windows i NaturallySpeaking pod Linuksem. VMware Server lub VirtualBox obsługują kopiowanie i wklejanie do / z maszyny wirtualnej, dzięki czemu dyktowany tekst można łatwo przenosić do / z maszyny wirtualnej.

Zobacz też

Bibliografia

Zewnętrzne linki

Dostępność, Rozpoznawanie mowy - Pomoc Ubuntu

Languages

In other projects