Rozpoznawanie mowy - Speech recognition

Rozpoznawanie mowy to interdyscyplinarna poddziedzina informatyki i lingwistyki komputerowej, która rozwija metodologie i technologie umożliwiające komputerowe rozpoznawanie i tłumaczenie języka mówionego na tekst. Jest również znany jako automatyczne rozpoznawanie mowy ( ASR ), komputerowe rozpoznawanie mowy lub mowa na tekst ( STT ). Łączy wiedzę i badania z zakresu informatyki , językoznawstwa i inżynierii komputerowej .

Niektóre systemy rozpoznawania mowy wymagają „szkolenia” (zwanego również „zapisem”), podczas którego pojedynczy mówca odczytuje tekst lub izolowane słownictwo do systemu. System analizuje konkretny głos osoby i wykorzystuje go do dostrojenia rozpoznawania mowy tej osoby, co skutkuje większą dokładnością. Systemy, które nie wykorzystują szkolenia, nazywane są systemami „niezależnymi od mówcy”. Systemy wykorzystujące uczenie nazywane są „zależnymi od mówcy”.

Aplikacje do rozpoznawania mowy obejmują głosowe interfejsy użytkownika, takie jak wybieranie głosowe (np. „zadzwoń do domu”), przekierowywanie połączeń (np. „chcę odebrać połączenie”), sterowanie urządzeniem domotic , wyszukiwanie słów kluczowych (np. znajdź podcast, w którym określone słowa zostały wypowiedziane), proste wprowadzanie danych (np. wprowadzanie numeru karty kredytowej), przygotowywanie ustrukturyzowanych dokumentów (np. raport radiologiczny), określanie charakterystyki mówcy, przetwarzanie mowy na tekst (np. edytory tekstu lub wiadomości e-mail ) oraz samoloty ( zwykle określane jako bezpośrednie wprowadzanie głosowe ).

Termin rozpoznawanie głosu lub identyfikacja mówcy odnosi się do identyfikacji mówcy, a nie tego, co mówi. Rozpoznawanie mówcy może uprościć zadanie tłumaczenia mowy w systemach, które zostały wyszkolone na głos konkretnej osoby lub może być użyte do uwierzytelnienia lub weryfikacji tożsamości mówcy w ramach procesu bezpieczeństwa.

Z punktu widzenia technologii rozpoznawanie mowy ma długą historię z kilkoma falami istotnych innowacji. W ostatnim czasie dziedzina skorzystała z postępów w głębokim uczeniu i big data . O postępach świadczy nie tylko napływ artykułów naukowych publikowanych w tej dziedzinie, ale, co ważniejsze, przyjęcie przez przemysł na całym świecie różnych metod uczenia głębokiego w projektowaniu i wdrażaniu systemów rozpoznawania mowy.

Historia

Kluczowymi obszarami rozwoju były: wielkość słownictwa, niezależność mówiącego i szybkość przetwarzania.

Przed 1970 r.

Raj Reddy był pierwszą osobą, która podjęła się ciągłego rozpoznawania mowy jako doktorant na Uniwersytecie Stanforda pod koniec lat sześćdziesiątych. Poprzednie systemy wymagały od użytkowników wstrzymania po każdym słowie. System Reddy'ego wydawał komendy głosowe do gry w szachy .

Mniej więcej w tym czasie radzieccy badacze wynaleźli algorytm dynamicznego dopasowania czasu (DTW) i wykorzystali go do stworzenia aparatu rozpoznawania zdolnego do operowania na słownictwie składającym się z 200 słów. DTW przetwarzał mowę dzieląc ją na krótkie ramki, np. segmenty 10ms, i przetwarzając każdą ramkę jako pojedynczą jednostkę. Chociaż DTW zostałoby zastąpione przez późniejsze algorytmy, technika była kontynuowana. Osiągnięcie niezależności głośnika pozostawało nierozwiązane w tym okresie.

1970-1990

  • 1971DARPA sfinansowała pięć lat na Speech Understanding Research , badania rozpoznawania mowy poszukujące minimalnego słownictwa o wielkości 1000 słów. Uważali, że rozumienie mowy będzie kluczem do postępu w rozpoznawaniu mowy , ale później okazało się to nieprawdziwe. W programie wzięły udział BBN , IBM , Carnegie Mellon i Stanford Research Institute . To ożywiło badania nad rozpoznawaniem mowy po liście Johna Pierce'a.
  • 1972 – Grupa IEEE Acoustics, Speech and Signal Processing zorganizowała konferencję w Newton w stanie Massachusetts.
  • 1976 – Pierwszy ICASSP odbył się w Filadelfii , która od tego czasu była głównym miejscem publikacji badań nad rozpoznawaniem mowy.

Pod koniec lat sześćdziesiątych Leonard Baum opracował matematykę łańcuchów Markowa w Instytucie Analizy Obronnej . Dziesięć lat później na CMU uczniowie Raja Reddy'ego James Baker i Janet M. Baker zaczęli używać ukrytego modelu Markowa (HMM) do rozpoznawania mowy. James Baker dowiedział się o HMM podczas wakacyjnej pracy w Instytucie Analizy Obronnej podczas studiów licencjackich. Wykorzystanie HMM umożliwiło naukowcom połączenie różnych źródeł wiedzy, takich jak akustyka, język i składnia, w ujednolicony model probabilistyczny.

  • W połowie lat osiemdziesiątych zespół Freda Jelinka z IBM stworzył aktywowaną głosem maszynę do pisania o nazwie Tangora, która była w stanie obsłużyć 20 000 słów słownictwa. Statystyczne podejście Jelinek kładło mniejszy nacisk na naśladowanie sposobu, w jaki ludzki mózg przetwarza i rozumie mowę, na korzyść stosowania technik modelowania statystycznego, takich jak: HMM. (Grupa Jelinek niezależnie odkryła zastosowanie HMM w mowie.) Było to kontrowersyjne wśród lingwistów, ponieważ HMM są zbyt uproszczone, aby wyjaśnić wiele wspólnych cech ludzkich języków. Jednak HMM okazał się bardzo użytecznym sposobem modelowania mowy i zastąpił dynamiczne zakrzywianie czasu, stając się dominującym algorytmem rozpoznawania mowy w latach 80. XX wieku.
  • 1982 – Dragon Systems, założony przez Jamesa i Janet M. Baker , był jednym z nielicznych konkurentów IBM.

Praktyczne rozpoznawanie mowy

W latach 80. wprowadzono również model języka n-gramowego .

  • 1987 – Model back-off umożliwił modelom językowym używanie n-gramów o wielu długościach, a CSELT używał HMM do rozpoznawania języków (zarówno w oprogramowaniu, jak i w wyspecjalizowanych procesorach sprzętowych, np. RIPAC ).

Wiele postępów w tej dziedzinie zawdzięcza szybko rosnącym możliwościom komputerów. Pod koniec programu DARPA w 1976 roku najlepszym komputerem dostępnym dla badaczy był PDP-10 z 4 MB pamięci RAM. Odkodowanie zaledwie 30 sekund mowy może zająć do 100 minut.

Dwa praktyczne produkty to:

  • 1984 – wypuszczono przenośny Apricot z obsługą do 4096 słów, z których tylko 64 mogło być jednocześnie przechowywane w pamięci RAM .
  • 1987 – osoba rozpoznająca z Kurzweil Applied Intelligence
  • 1990 – Dragon Dictate, produkt konsumencki wydany w 1990 roku AT&T wdrożył usługę przetwarzania połączeń rozpoznawania głosu w 1992 roku, aby przekierowywać połączenia telefoniczne bez udziału operatora. Technologia została opracowana przez Lawrence'a Rabinera i innych pracowników Bell Labs.

W tym momencie słownictwo typowego komercyjnego systemu rozpoznawania mowy było większe niż przeciętne słownictwo ludzkie. Były uczeń Raja Reddy'ego, Xuedong Huang , opracował system Sphinx-II w CMU. System Sphinx-II był pierwszym, który wykonał niezależne od mówiącego, duże słownictwo, ciągłe rozpoznawanie mowy i osiągnął najlepsze wyniki w ocenie DARPA z 1992 roku. Obsługa ciągłej mowy z dużym słownictwem stanowiła kamień milowy w historii rozpoznawania mowy. Huang założył grupę rozpoznawania mowy w Microsoft w 1993 roku. Kai-Fu Lee , uczeń Raja Reddy'ego, dołączył do Apple, gdzie w 1992 roku pomógł opracować prototyp interfejsu mowy dla komputera Apple, znanego jako Casper.

Lernout & Hauspie , belgijska firma zajmująca się rozpoznawaniem mowy, przejęła kilka innych firm, w tym Kurzweil Applied Intelligence w 1997 i Dragon Systems w 2000. Technologia mowy L&H była używana w systemie operacyjnym Windows XP . L & H był liderem dopóki skandal księgowy kres do firmy w 2001 roku technologii mowy z L & H został kupiony przez ScanSoft który stał Nuance w 2005 Jabłko pierwotnie licencjonowane oprogramowanie od Nuance do realizacji funkcji rozpoznawania mowy do swojego cyfrowego asystenta Siri .

2000s

W 2000 roku DARPA sponsorowała dwa programy rozpoznawania mowy: Skuteczne, niedrogie, wielokrotnego użytku zamianę mowy na tekst (EARS) w 2002 roku oraz Global Autonomous Language Exploitation (GALE). W programie EARS wzięły udział cztery zespoły: IBM , zespół kierowany przez BBN z LIMSI i Univ. z Pittsburgha , Cambridge University oraz zespół złożony z ICSI , SRI i University of Washington . Firma EARS ufundowała zbiór telefonicznego korpusu mowy Centrali, zawierającego 260 godzin nagranych rozmów prowadzonych przez ponad 500 prelegentów. Program GALE koncentrował się na przemówieniu informacyjnym w języku arabskim i mandaryńskim . Pierwsze próby Google związane z rozpoznawaniem mowy miały miejsce w 2007 roku po zatrudnieniu kilku badaczy z Nuance. Pierwszym produktem był GOOG-411 , telefoniczna usługa katalogowa. Nagrania z GOOG-411 dostarczyły cennych danych, które pomogły Google ulepszyć ich systemy rozpoznawania. Wyszukiwanie głosowe Google jest teraz obsługiwane w ponad 30 językach.

W Stanach Zjednoczonych Agencja Bezpieczeństwa Narodowego od co najmniej 2006 roku wykorzystuje rodzaj rozpoznawania mowy do wykrywania słów kluczowych . Technologia ta pozwala analitykom przeszukiwać duże ilości nagranych rozmów i izolować wzmianki o słowach kluczowych. Nagrania mogą być indeksowane, a analitycy mogą uruchamiać zapytania w bazie danych, aby znaleźć interesujące konwersacje. Niektóre rządowe programy badawcze koncentruje się na zastosowaniach wywiadu rozpoznawania mowy, programu np DARPA za uszami i IARPA „s programu Babel .

Na początku XXI wieku rozpoznawanie mowy wciąż było zdominowane przez tradycyjne metody, takie jak ukryte modele Markowa w połączeniu ze sztucznymi sieciami neuronowymi ze sprzężeniem do przodu . Obecnie jednak wiele aspektów rozpoznawania mowy zostało przejętych przez metodę głębokiego uczenia się zwaną długotrwałą pamięcią krótkotrwałą (LSTM), rekurencyjną siecią neuronową opublikowaną przez Seppa Hochreitera i Jürgena Schmidhubera w 1997 roku. LSTM RNN unikają problemu zanikającego gradientu i potrafi nauczyć się zadań „Bardzo Głębokiego Uczenia”, które wymagają wspomnień o wydarzeniach, które miały miejsce tysiące dyskretnych kroków temu, co jest ważne dla mowy. Około 2007 r. LSTM przeszkolony przez koneksjonistyczną klasyfikację czasową (CTC) zaczął przewyższać tradycyjne rozpoznawanie mowy w niektórych aplikacjach. W 2015 r. rozpoznawanie mowy Google podobno odnotowało dramatyczny wzrost wydajności o 49% dzięki wyszkolonemu przez CTC LSTM, które jest teraz dostępne za pośrednictwem Google Voice dla wszystkich użytkowników smartfonów.

Wykorzystanie sieci z głębokim sprzężeniem do przodu (jednorazowych) do modelowania akustycznego zostało wprowadzone w drugiej połowie 2009 r. przez Geoffreya Hintona i jego studentów z Uniwersytetu w Toronto oraz przez Li Denga i współpracowników z Microsoft Research, początkowo we współpracy między firmą Microsoft oraz University of Toronto, który został następnie rozszerzony o IBM i Google (stąd podtytuł „Wspólne poglądy czterech grup badawczych” w ich pracy przeglądowej z 2012 r.). Kierownik działu badań firmy Microsoft nazwał tę innowację „najbardziej dramatyczną zmianą dokładności od 1979 roku”. W przeciwieństwie do stałych, stopniowych ulepszeń w ciągu ostatnich kilku dekad, zastosowanie uczenia głębokiego zmniejszyło wskaźnik błędów słów o 30%. Ta innowacja została szybko przyjęta w całej branży. Naukowcy zaczęli również wykorzystywać techniki głębokiego uczenia się do modelowania języka.

W długiej historii rozpoznawania mowy zarówno forma płytka, jak i głęboka (np. sieci rekurencyjne) sztucznych sieci neuronowych były badane przez wiele lat, w latach 80., 90. i kilka lat po 2000 roku. Ale te metody nigdy nie wygrały z niejednorodnym wewnętrznym modelem mieszanki Gaussa / technologią ukrytego modelu Markowa (GMM-HMM) opartą na generatywnych modelach mowy wyszkolonych dyskryminacyjnie. W latach 90. przeanalizowano metodologicznie szereg kluczowych trudności, w tym zmniejszanie się gradientu i słabą strukturę korelacji czasowych w neuronowych modelach predykcyjnych. Wszystkie te trudności były dodatkiem do braku dużych danych treningowych i dużej mocy obliczeniowej w tych wczesnych dniach. Większość badaczy rozpoznawania mowy, którzy zrozumieli takie bariery, następnie odeszło od sieci neuronowych, aby kontynuować modelowanie generatywne, aż do niedawnego odrodzenia głębokiego uczenia się, które rozpoczęło się w latach 2009-2010, które przezwyciężyło wszystkie te trudności. Hinton i in. i Deng i in. dokonał przeglądu części tej najnowszej historii o tym, jak ich współpraca między sobą, a następnie z kolegami z czterech grup (Uniwersytet w Toronto, Microsoft, Google i IBM) zapoczątkowała renesans zastosowań głębokich sieci neuronowych ze sprzężeniem do przodu do rozpoznawania mowy.

2010s

Na początku 2010s mowy uznania, zwany również rozpoznawanie głosu wyraźnie odróżnić od sp eaker uznania i niezależność głośnik został uznany za przełom. Do tego czasu systemy wymagały okresu „szkolenia”. Reklama lalki z 1987 roku zawierała hasło „Nareszcie lalka, która cię rozumie”. – pomimo tego, że opisywano je jako „które dzieci mogłyby trenować, by odpowiadały na ich głos”.

W 2017 roku badacze Microsoftu osiągnęli historyczny kamień milowy parzystości ludzkiej, polegający na transkrypcji rozmów telefonicznych w szeroko ocenianym zadaniu Switchboard. Wykorzystano wiele modeli głębokiego uczenia się, aby zoptymalizować dokładność rozpoznawania mowy. Zgłoszono, że wskaźnik błędów rozpoznawania mowy jest tak niski, jak 4 profesjonalnych transkrybentów pracujących razem nad tym samym testem porównawczym, który został sfinansowany przez zespół IBM Watson zajmujący się mową w tym samym zadaniu.


Modele, metody i algorytmy

Zarówno modelowanie akustyczne, jak i językowe są ważnymi elementami nowoczesnych algorytmów rozpoznawania mowy opartych na statystyce. Ukryte modele Markowa (HMM) są szeroko stosowane w wielu systemach. Modelowanie języka jest również wykorzystywane w wielu innych aplikacjach do przetwarzania języka naturalnego, takich jak klasyfikacja dokumentów lub statystyczne tłumaczenie maszynowe .

Ukryte modele Markowa

Nowoczesne systemy rozpoznawania mowy ogólnego przeznaczenia są oparte na ukrytych modelach Markowa. Są to modele statystyczne, które generują sekwencję symboli lub ilości. HMM są używane w rozpoznawaniu mowy, ponieważ sygnał mowy może być postrzegany jako fragmentaryczny sygnał stacjonarny lub krótkotrwały sygnał stacjonarny. W krótkiej skali czasu (np. 10 milisekund) mowę można aproksymować jako proces stacjonarny . Mowa może być traktowana jako model Markowa dla wielu celów stochastycznych.

Innym powodem, dla którego HMM są popularne, jest to, że można je trenować automatycznie oraz są proste i wykonalne obliczeniowo w użyciu. W rozpoznawaniu mowy ukryty model Markowa wyprowadzałby sekwencję n- wymiarowych wektorów o wartościach rzeczywistych (gdzie n jest małą liczbą całkowitą, taką jak 10), wyprowadzając jeden z nich co 10 milisekund. Wektory składałyby się ze współczynników cepstralnych , które są uzyskiwane poprzez transformację Fouriera krótkiego okna czasowego mowy i dekorelację widma za pomocą transformacji kosinusowej , a następnie wzięcie pierwszych (najbardziej znaczących) współczynników. Ukryty model Markowa będzie miał tendencję do posiadania w każdym stanie rozkładu statystycznego będącego mieszanką ukośnych kowariancji Gaussa, co da prawdopodobieństwo dla każdego obserwowanego wektora. Każde słowo lub (w przypadku bardziej ogólnych systemów rozpoznawania mowy) każdy fonem będzie miał inny rozkład wyjścia; ukryty model Markowa dla sekwencji słów lub fonemów jest tworzony przez konkatenację poszczególnych wytrenowanych ukrytych modeli Markowa dla oddzielnych słów i fonemów.

Powyżej opisano podstawowe elementy najpopularniejszego podejścia do rozpoznawania mowy opartego na HMM. Nowoczesne systemy rozpoznawania mowy wykorzystują różne kombinacje szeregu standardowych technik w celu poprawy wyników w porównaniu z podstawowym podejściem opisanym powyżej. Typowy system z dużym słownikiem wymagałby zależności kontekstowej dla fonemów (więc fonemy z różnym lewym i prawym kontekstem mają różne realizacje jako stany HMM); użyłby normalizacji cepstralnej do normalizacji dla różnych mówców i warunków nagrywania; w celu dalszej normalizacji mówcy może użyć normalizacji długości drogi głosowej (VTLN) w celu normalizacji męsko-żeńskiej oraz regresji liniowej maksymalnego prawdopodobieństwa (MLLR) w celu bardziej ogólnej adaptacji mówcy. Cechy te miałyby tak zwane współczynniki delta i delta-delta do uchwycenia dynamiki mowy, a ponadto mogłyby wykorzystywać heteroskedastyczną liniową analizę dyskryminacyjną (HLDA); lub może pominąć współczynniki delta i delta-delta i użyć splicingu i projekcji opartej na LDA , a następnie być może heteroskedastyczną liniową analizę dyskryminacyjną lub globalną, częściowo wiązaną transformatę kowariancji (znaną również jako transformata liniowa maksymalnego prawdopodobieństwa lub MLLT). Wiele systemów wykorzystuje tak zwane techniki treningu dyskryminacyjnego, które rezygnują z czysto statystycznego podejścia do estymacji parametrów HMM, a zamiast tego optymalizują niektóre miary danych treningowych związane z klasyfikacją. Przykładami są maksymalna wzajemna informacja (MMI), minimalny błąd klasyfikacji (MCE) i minimalny błąd telefonu (MPE).

Dekodowanie mowy (określenie tego, co się dzieje, gdy systemowi zostanie zaprezentowana nowa wypowiedź i musi obliczyć najbardziej prawdopodobne zdanie źródłowe) prawdopodobnie użyłoby algorytmu Viterbiego do znalezienia najlepszej ścieżki, a tutaj jest wybór między dynamicznym tworzeniem połączenie ukrytego modelu Markowa, który zawiera zarówno informacje o modelu akustycznym, jak i językowym oraz wcześniejsze połączenie ich statycznie ( podejście z wykorzystaniem przetwornika skończonego lub FST).

Możliwym ulepszeniem dekodowania jest zachowanie zbioru dobrych kandydatów zamiast po prostu zatrzymywanie najlepszego kandydata i użycie lepszej funkcji punktacji ( ponownie scoring ) do oceny tych dobrych kandydatów, abyśmy mogli wybrać najlepszego zgodnie z tym udoskonalonym wynikiem . Zbiór kandydatów może być przechowywany jako lista ( podejście N-najlepszych list ) lub jako podzbiór modeli ( sieć ). Ponowna punktacja jest zwykle dokonywana poprzez próbę zminimalizowania ryzyka Bayesa (lub jego przybliżenia): Zamiast brać zdanie źródłowe z maksymalnym prawdopodobieństwem, staramy się wziąć zdanie, które minimalizuje oczekiwanie danej funkcji straty w odniesieniu do wszystkich możliwych transkrypcji (tzn. bierzemy zdanie, które minimalizuje średnią odległość do innych możliwych zdań ważoną ich oszacowanym prawdopodobieństwem). Funkcja straty to zwykle odległość Levenshteina , chociaż mogą to być różne odległości dla określonych zadań; zestaw możliwych transkrypcji jest oczywiście przycinany, aby zachować wykonalność. Opracowano wydajne algorytmy do ponownego oceniania sieci reprezentowanych jako ważone przetworniki o skończonych stanach z odległościami edycyjnymi, które reprezentowały się jako przetworniki o skończonych stanach weryfikujące pewne założenia.

Rozpoznawanie mowy oparte na dynamicznym dopasowaniu czasu (DTW)

Dynamiczne zniekształcanie czasu to podejście, które było historycznie używane do rozpoznawania mowy, ale obecnie zostało w dużej mierze wyparte przez bardziej udane podejście oparte na HMM.

Dynamiczne dopasowanie czasu to algorytm pomiaru podobieństwa między dwiema sekwencjami, które mogą różnić się czasem lub szybkością. Na przykład, podobieństwa we wzorcach chodzenia zostałyby wykryte, nawet jeśli na jednym filmie osoba szła powoli, a na innym szła szybciej, lub nawet jeśli w trakcie jednej obserwacji wystąpiły przyspieszenia i spowolnienia. DTW zostało zastosowane do wideo, audio i grafiki – w rzeczywistości wszelkie dane, które można przekształcić w reprezentację liniową, można analizować za pomocą DTW.

Dobrze znaną aplikacją jest automatyczne rozpoznawanie mowy, aby radzić sobie z różnymi prędkościami mówienia. Ogólnie jest to metoda pozwalająca komputerowi na znalezienie optymalnego dopasowania między dwoma podanymi ciągami (np. szeregami czasowymi) z pewnymi ograniczeniami. Oznacza to, że sekwencje są „wypaczane” nieliniowo, aby pasowały do ​​siebie. Ta metoda dopasowywania sekwencji jest często używana w kontekście ukrytych modeli Markowa.

Sieci neuronowe

Sieci neuronowe pojawiły się jako atrakcyjne podejście do modelowania akustycznego w ASR pod koniec lat 80. XX wieku. Od tego czasu sieci neuronowe są wykorzystywane w wielu aspektach rozpoznawania mowy, takich jak klasyfikacja fonemów, klasyfikacja fonemów za pomocą wieloobiektywnych algorytmów ewolucyjnych, rozpoznawanie izolowanych słów, audiowizualne rozpoznawanie mowy , audiowizualne rozpoznawanie mówcy i adaptacja mówcy.

Sieci neuronowe przyjmują mniej wyraźnych założeń dotyczących właściwości statystycznych cech niż HMM i mają kilka cech, które czynią je atrakcyjnymi modelami rozpoznawania do rozpoznawania mowy. Sieci neuronowe, stosowane do oszacowania prawdopodobieństw segmentu funkcji mowy, umożliwiają trening dyskryminacyjny w naturalny i skuteczny sposób. Jednak pomimo ich skuteczności w klasyfikowaniu jednostek krótkoczasowych, takich jak pojedyncze fonemy i pojedyncze słowa, wczesne sieci neuronowe rzadko były skuteczne w zadaniach ciągłego rozpoznawania ze względu na ich ograniczoną zdolność do modelowania zależności czasowych.

Jednym z podejść do tego ograniczenia było użycie sieci neuronowych jako wstępnego przetwarzania, transformacji cech lub redukcji wymiarowości, krok przed rozpoznawaniem opartym na HMM. Jednak ostatnio, LSTM i powiązane rekurencyjne sieci neuronowe (RNN) oraz opóźnione sieci neuronowe (TDNN) wykazały lepszą wydajność w tym obszarze.

Głębokie sprzężenia zwrotne i rekurencyjne sieci neuronowe

Badane są również głębokie sieci neuronowe i autokodery odszumiające . Głęboka sieć neuronowa ze sprzężeniem do przodu (DNN) to sztuczna sieć neuronowa z wieloma ukrytymi warstwami jednostek między warstwą wejściową i wyjściową. Podobnie jak w przypadku płytkich sieci neuronowych, sieci DNN mogą modelować złożone relacje nieliniowe. Architektury DNN generują modele kompozycyjne, gdzie dodatkowe warstwy umożliwiają komponowanie cech z niższych warstw, dając ogromne możliwości uczenia się, a tym samym potencjał modelowania złożonych wzorców danych mowy.

Sukces DNN w rozpoznawaniu mowy w dużych słownikach nastąpił w 2010 roku przez badaczy przemysłowych, we współpracy z badaczami akademickimi, gdzie przyjęto duże warstwy wyjściowe DNN oparte na zależnych od kontekstu stanach HMM skonstruowanych przez drzewa decyzyjne. Zobacz obszerne recenzje tego rozwoju i stanu techniki z października 2014 r. w najnowszej książce Springer firmy Microsoft Research. W najnowszych artykułach poglądowych możesz zapoznać się z powiązanym kontekstem automatycznego rozpoznawania mowy oraz wpływem różnych paradygmatów uczenia maszynowego, w tym w szczególności uczenia głębokiego .

Jedną z podstawowych zasad uczenia głębokiego jest porzucenie ręcznie tworzonej inżynierii funkcji i używanie surowych funkcji. Zasada ta została po raz pierwszy z powodzeniem zbadana w architekturze głębokiego autoenkodera na „surowym” spektrogramie lub cechach liniowego banku filtrów, wykazując jej wyższość nad cechami Mel-Cepstral, które zawierają kilka etapów stałej transformacji ze spektrogramów. Ostatnio wykazano, że prawdziwe „surowe” cechy mowy, kształty fal, dają doskonałe wyniki rozpoznawania mowy na większą skalę.

Kompleksowe automatyczne rozpoznawanie mowy

Od 2014 r. istnieje duże zainteresowanie badawcze ASR „od końca do końca”. Tradycyjne podejścia oparte na fonetyce (tj. wszystkie modele oparte na HMM ) wymagały oddzielnych komponentów i szkolenia w zakresie wymowy, modelu akustycznego i językowego . Modele typu end-to-end wspólnie uczą się wszystkich składników aparatu rozpoznawania mowy. Jest to cenne, ponieważ upraszcza proces szkolenia i proces wdrażania. Na przykład model języka n-gram jest wymagany dla wszystkich systemów opartych na HMM, a typowy model języka n-gram często zajmuje kilka gigabajtów pamięci, co czyni je niepraktycznymi do wdrożenia na urządzeniach mobilnych. W związku z tym nowoczesne komercyjne systemy ASR firmy Google i Apple (stan na 2017 r.) są wdrażane w chmurze i wymagają połączenia sieciowego, a nie urządzenia lokalnie.

Pierwsza próba kompleksowego ASR miała miejsce z systemami opartymi na Connectionist Temporal Classification (CTC) wprowadzonymi przez Alexa Gravesa z Google DeepMind i Navdeep Jaitly z University of Toronto w 2014 roku. Model składał się z powtarzających się sieci neuronowych i warstwy CTC . Łącznie model RNN-CTC uczy się razem wymowy i modelu akustycznego, jednak nie jest w stanie nauczyć się języka ze względu na założenia niezależności warunkowej podobne do HMM. W związku z tym modele CTC mogą bezpośrednio nauczyć się mapować akustykę mowy na znaki angielskie, ale modele popełniają wiele typowych błędów ortograficznych i muszą polegać na oddzielnym modelu językowym w celu oczyszczenia transkrypcji. Później Baidu rozszerzył swoją pracę z niezwykle dużymi zestawami danych i zademonstrował pewien komercyjny sukces w chińskim mandaryńskim i angielskim. W 2016 roku University of Oxford zaprezentował LipNet , pierwszy model czytania z ruchu warg na poziomie zdań od końca do końca, wykorzystujący sploty czasoprzestrzenne w połączeniu z architekturą RNN-CTC, przewyższający wydajność na poziomie człowieka w ograniczonym zbiorze danych gramatycznych. W 2018 r. firma Google DeepMind zaprezentowała wielkoskalową architekturę CNN-RNN-CTC, osiągając 6 razy lepszą wydajność niż eksperci.

Alternatywnym podejściem do modeli opartych na CTC są modele oparte na uwadze. Modele ASR oparte na uwadze zostały wprowadzone jednocześnie przez Chana i in. z Carnegie Mellon University oraz Google Brain and Bahdanau et al. z Uniwersytetu w Montrealu w 2016. Model o nazwie „Słuchaj, uczestniczyć and Spell” (LAS), dosłownie „Słuchacze” do sygnału akustycznego, płaci „uwagi” do różnych części sygnału i „czary” out transkryptu jeden znak na czas. W przeciwieństwie do modeli opartych na CTC, modele oparte na uwadze nie mają założeń warunkowej niezależności i mogą uczyć się wszystkich składników aparatu rozpoznawania mowy, w tym bezpośrednio wymowy, modelu akustycznego i językowego. Oznacza to, że podczas wdrażania nie ma potrzeby noszenia modelu języka, co czyni go bardzo praktycznym w przypadku aplikacji z ograniczoną pamięcią. Do końca 2016 r. modele oparte na uwadze odniosły znaczny sukces, w tym przewyższały modele CTC (z zewnętrznym modelem językowym lub bez niego). Różne rozszerzenia zostały zaproponowane od oryginalnego modelu LAS. Latent Sequence Decompositions (LSD) zostało zaproponowane przez Carnegie Mellon University , MIT i Google Brain, aby bezpośrednio emitować jednostki podwyrazowe, które są bardziej naturalne niż znaki angielskie; University of Oxford i Google DeepMind rozszerzyły LAS o „Watch, Listen, Attend and Spell” (WLAS), aby obsługiwać czytanie z ruchu warg, przewyższając wydajność na poziomie człowieka.

Aplikacje

Systemy samochodowe

Zazwyczaj ręczne sterowanie, na przykład za pomocą sterowania palcem na kierownicy, włącza system rozpoznawania mowy i jest to sygnalizowane kierowcy za pomocą komunikatu dźwiękowego. Po zgłoszeniu dźwiękowym system ma „okno nasłuchiwania”, podczas którego może zaakceptować wprowadzanie mowy w celu rozpoznania.

Za pomocą prostych poleceń głosowych można inicjować połączenia telefoniczne, wybierać stacje radiowe lub odtwarzać muzykę z kompatybilnego smartfona, odtwarzacza MP3 lub pendrive'a z włożoną muzyką. Możliwości rozpoznawania głosu różnią się w zależności od marki i modelu samochodu. Niektóre z najnowszych modeli samochodów oferują rozpoznawanie mowy w języku naturalnym zamiast stałego zestawu poleceń, dzięki czemu kierowca może używać pełnych zdań i popularnych zwrotów. W przypadku takich systemów nie ma zatem potrzeby zapamiętywania przez użytkownika zestawu stałych słów poleceń.

Opieka zdrowotna

Dokumentacja medyczna

W sektorze ochrony zdrowia rozpoznawanie mowy może być zaimplementowane jako front-end lub back-end procesu dokumentacji medycznej. Rozpoznawanie mowy frontonu to miejsce, w którym dostawca dyktuje aparatowi rozpoznawania mowy, rozpoznane słowa są wyświetlane w miarę ich wypowiadania, a dyktator jest odpowiedzialny za edycję i podpisanie dokumentu. Zaplecze lub odroczone rozpoznawanie mowy to sytuacja, w której dostawca dyktuje do cyfrowego systemu dyktowania , głos jest kierowany przez maszynę do rozpoznawania mowy, a rozpoznana wersja robocza dokumentu jest kierowana wraz z oryginalnym plikiem głosowym do edytora, gdzie wersja robocza jest edytowana i raport sfinalizowany. Odroczone rozpoznawanie mowy jest obecnie szeroko stosowane w branży.

Jednym z głównych problemów związanych z wykorzystaniem rozpoznawania mowy w opiece zdrowotnej jest to, że amerykańska ustawa o odzyskiwaniu i reinwestowaniu z 2009 r. ( ARRA ) zapewnia znaczne korzyści finansowe lekarzom, którzy korzystają z EMR zgodnie ze standardami „Meaningful Use”. Standardy te wymagają, aby znaczna ilość danych była utrzymywana przez EMR (obecnie częściej określana jako elektroniczna karta zdrowia lub EHR). Korzystanie z rozpoznawania mowy jest bardziej naturalnie dopasowane do generowania tekstu narracyjnego, jako części interpretacji radiologii/patologii, notatki z postępów lub podsumowania wypisu: ergonomiczne korzyści wynikające z używania rozpoznawania mowy do wprowadzania uporządkowanych danych dyskretnych (np. wartości numerycznych lub kodów z listy lub kontrolowanego słownictwa ) są stosunkowo minimalne dla osób widzących i potrafiących obsługiwać klawiaturę i mysz.

Ważniejszą kwestią jest to, że większość EHR nie została wyraźnie dostosowana do wykorzystania możliwości rozpoznawania głosu. Duża część interakcji klinicysty z EHR obejmuje nawigację po interfejsie użytkownika za pomocą menu oraz klikanie zakładek/przycisków i jest silnie uzależniona od klawiatury i myszy: nawigacja głosowa zapewnia jedynie niewielkie korzyści ergonomiczne. W przeciwieństwie do tego, wiele wysoce spersonalizowanych systemów dyktowania radiologii lub patologii wdraża „makra” głosowe, w których użycie pewnych fraz – np. „raport normalny”, automatycznie wypełni dużą liczbę wartości domyślnych i/lub wygeneruje schemat, który będzie różnią się w zależności od rodzaju badania – np. prześwietlenie klatki piersiowej lub seria kontrastów żołądkowo-jelitowych w systemie radiologicznym.

Zastosowanie terapeutyczne

Długotrwałe stosowanie oprogramowania do rozpoznawania mowy w połączeniu z edytorami tekstu wykazało korzyści dla krótkotrwałego odnawiania pamięci u pacjentów z AVM mózgu, którzy zostali poddani resekcji . Konieczne są dalsze badania w celu określenia korzyści poznawczych dla osób, których AVM zostały wyleczone za pomocą technik radiologicznych.

Wojskowy

Samoloty myśliwskie o wysokich osiągach

Wiele wysiłków poświęcono w ostatniej dekadzie testowaniu i ocenie rozpoznawania mowy w samolotach myśliwskich . Na szczególną uwagę zasługuje amerykański program rozpoznawania mowy dla samolotów Advanced Fighter Technology Integration (AFTI) / F-16 ( F-16 VISTA ), program we Francji dla samolotów Mirage i inne programy w Wielkiej Brytanii dotyczące różnych platform lotniczych. W tych programach rozpoznawanie mowy było z powodzeniem obsługiwane w samolotach myśliwskich, z takimi zastosowaniami, jak ustawianie częstotliwości radiowych, sterowanie systemem autopilota, ustawianie współrzędnych punktu sterowniczego i parametrów wypuszczania broni oraz sterowanie wyświetlaniem lotu.

Pracując ze szwedzkimi pilotami latającymi w kokpicie JAS-39 Gripen, Englund (2004) stwierdził, że rozpoznawalność maleje wraz ze wzrostem przeciążeń . W raporcie stwierdzono również, że adaptacja znacznie poprawiła wyniki we wszystkich przypadkach i że wprowadzenie modeli oddychania znacznie poprawiło wyniki rozpoznawania. Wbrew temu, czego można było się spodziewać, nie stwierdzono żadnych skutków złamanej angielszczyzny mówców. Było oczywiste, że spontaniczna mowa powodowała problemy dla osoby rozpoznającej, czego można było się spodziewać. Można więc oczekiwać, że ograniczone słownictwo, a przede wszystkim właściwa składnia, znacznie poprawi dokładność rozpoznawania.

Eurofighter Typhoon , obecnie w służbie brytyjskiego RAF , wykorzystuje system głośników zależne, wymagające każdemu pilotowi, aby utworzyć szablon. System nie jest używany do zadań krytycznych dla bezpieczeństwa lub broni, takich jak zwalnianie broni lub opuszczanie podwozia, ale jest używany do wielu innych funkcji kokpitu. Komendy głosowe są potwierdzane wizualną i/lub dźwiękową informacją zwrotną. System jest postrzegany jako główna cecha projektowa mająca na celu zmniejszenie obciążenia pilota pracą , a nawet pozwala pilotowi przypisywać cele do swojego samolotu za pomocą dwóch prostych poleceń głosowych lub do dowolnego ze swoich skrzydłowych za pomocą tylko pięciu poleceń.

Opracowywane są również systemy niezależne od głośników, które są testowane dla F35 Lightning II (JSF) i głównego trenera myśliwców Alenia Aermacchi M-346 Master . Systemy te dały wyniki dokładności słów przekraczające 98%.

Helikoptery

Problemy z osiągnięciem wysokiej dokładności rozpoznawania w warunkach stresu i hałasu są szczególnie istotne w środowisku śmigłowca, a także w środowisku myśliwców odrzutowych. Problem hałasu akustycznego jest w rzeczywistości bardziej dotkliwy w środowisku śmigłowca, nie tylko ze względu na wysoki poziom hałasu, ale także dlatego, że pilot helikoptera, ogólnie rzecz biorąc, nie nosi maski na twarz , która zmniejszyłaby hałas akustyczny w mikrofonie . W ciągu ostatniej dekady przeprowadzono znaczące programy testowe i ewaluacyjne w zastosowaniach systemów rozpoznawania mowy w śmigłowcach, w szczególności przez US Army Avionics Research and Development Activity (AVRADA) oraz Royal Aerospace Establishment ( RAE ) w Wielkiej Brytanii. Prace we Francji obejmowały rozpoznawanie mowy w śmigłowcu Puma . W Kanadzie wykonano również wiele pożytecznej pracy . Wyniki były zachęcające, a aplikacje głosowe obejmowały: sterowanie radiotelefonami komunikacyjnymi, ustawianie systemów nawigacyjnych oraz sterowanie automatycznym systemem przekazywania celów.

Podobnie jak w przypadku myśliwców, nadrzędną kwestią dotyczącą głosu w śmigłowcach jest wpływ na efektywność pilota. Zachęcające wyniki są raportowane dla testów AVRADA, chociaż stanowią one jedynie demonstrację wykonalności w środowisku testowym. Wiele pozostaje do zrobienia zarówno w zakresie rozpoznawania mowy, jak i ogólnej technologii mowy , aby konsekwentnie osiągać poprawę wydajności w ustawieniach operacyjnych.

Szkolenie kontrolerów ruchu lotniczego

Szkolenie dla kontrolerów ruchu lotniczego (ATC) stanowi doskonałą aplikację dla systemów rozpoznawania mowy. Wiele systemów szkolenia ATC wymaga obecnie, aby osoba działała jako „pseudo-pilot”, angażując się w dialog głosowy z szkolonym kontrolerem, który symuluje dialog, który kontroler musiałby prowadzić z pilotami w rzeczywistej sytuacji ATC. Techniki rozpoznawania i syntezy mowy oferują możliwość wyeliminowania konieczności działania jako pseudo-pilot, zmniejszając w ten sposób szkolenie i personel pomocniczy. Teoretycznie zadania kontrolera Air charakteryzują się również wysoce ustrukturyzowaną mową jako głównym wyjściem kontrolera, dlatego powinno być możliwe zmniejszenie trudności zadania rozpoznawania mowy. W praktyce rzadko się to zdarza. Dokument FAA 7110.65 wyszczególnia zwroty, które powinny być używane przez kontrolerów ruchu lotniczego. Chociaż ten dokument podaje mniej niż 150 przykładów takich fraz, liczba fraz obsługiwanych przez systemy rozpoznawania mowy jednego z dostawców symulacji przekracza 500 000.

USAF, USMC, US Army, US Navy i FAA, a także wiele międzynarodowych organizacji szkoleniowych ATC, takich jak Królewskie Australijskie Siły Powietrzne i władze lotnictwa cywilnego we Włoszech, Brazylii i Kanadzie, obecnie używają symulatorów ATC z rozpoznawaniem mowy od wielu różnych dostawców.

Telefonia i inne domeny

ASR jest obecnie powszechny w dziedzinie telefonii i staje się coraz bardziej rozpowszechniony w dziedzinie gier komputerowych i symulacji. W systemach telefonicznych ASR jest obecnie wykorzystywany głównie w contact center, integrując go z systemami IVR . Pomimo wysokiego poziomu integracji z przetwarzaniem tekstu w ogólnym informatyce osobistej, w dziedzinie produkcji dokumentów ASR nie odnotował oczekiwanego wzrostu wykorzystania.

Poprawa szybkości procesorów mobilnych sprawiła, że ​​rozpoznawanie mowy stało się praktyczne w smartfonach . Mowa jest używana głównie jako część interfejsu użytkownika, do tworzenia predefiniowanych lub niestandardowych poleceń głosowych.

Zastosowanie w edukacji i życiu codziennym

W nauce języków rozpoznawanie mowy może być przydatne do nauki drugiego języka . Może uczyć prawidłowej wymowy, a także pomagać osobie rozwinąć biegłość w umiejętnościach mówienia.

Uczniowie niewidomi (patrz Ślepota i edukacja ) lub osoby z bardzo słabym wzrokiem mogą skorzystać z technologii przekazywania słów, a następnie słyszeć, jak komputer je recytuje, a także korzystać z komputera, wydając komendy głosem, zamiast patrzeć na ekran i klawiatura.

Uczniowie niepełnosprawni fizycznie lub cierpiący na urazy spowodowane powtarzającym się przeciążeniem /inne urazy kończyn górnych mogą być zwolnieni z konieczności martwienia się o pisanie odręczne, maszynopisanie lub pracę ze skrybą przy zadaniach szkolnych za pomocą programów zamiany mowy na tekst. Mogą również korzystać z technologii rozpoznawania mowy, aby swobodnie przeszukiwać Internet lub korzystać z komputera w domu bez konieczności fizycznej obsługi myszy i klawiatury.

Rozpoznawanie mowy może pozwolić uczniom z trudnościami w uczeniu się stać się lepszymi pisarzami. Wypowiadając słowa na głos, mogą zwiększyć płynność pisania i złagodzić obawy dotyczące pisowni, interpunkcji i innych mechanizmów pisania. Zobacz także Trudności w uczeniu się .

Użycie oprogramowania do rozpoznawania głosu w połączeniu z cyfrowym rejestratorem dźwięku i komputerem osobistym z oprogramowaniem do przetwarzania tekstu okazało się korzystne w przywracaniu uszkodzonej pamięci krótkotrwałej u osób po udarze i kraniotomii.

Ludzie niepełnosprawni

Osoby niepełnosprawne mogą skorzystać z programów rozpoznawania mowy. W przypadku osób niesłyszących lub niedosłyszących oprogramowanie do rozpoznawania mowy jest używane do automatycznego generowania napisów do rozmów, takich jak dyskusje w salach konferencyjnych, wykłady w klasie i/lub nabożeństwa.

Rozpoznawanie mowy jest również bardzo przydatne dla osób, które mają trudności z posługiwaniem się rękami, począwszy od łagodnych urazów spowodowanych powtarzającym się stresem, aż po niepełnosprawności, które uniemożliwiają korzystanie z konwencjonalnych komputerowych urządzeń wejściowych. W rzeczywistości ludzie, którzy często używali klawiatury i opracowali RSI, stali się pilnym wczesnym rynkiem rozpoznawania mowy. Rozpoznawanie mowy jest używane w telefonii niesłyszącej , takiej jak poczta głosowa na tekst, usługi przekazywania i telefon z napisami . Osoby z trudnościami w uczeniu się, które mają problemy z komunikacją „od myśli do papieru” (w zasadzie myślą o pomyśle, ale jest on nieprawidłowo przetwarzany, co powoduje, że kończy się inaczej na papierze), mogą prawdopodobnie skorzystać z oprogramowania, ale technologia nie jest odporna na błędy. Również cała idea mówienia do tekstu może być trudna dla osoby niepełnosprawnej intelektualnie ze względu na fakt, że rzadko ktokolwiek próbuje nauczyć się technologii uczenia osoby niepełnosprawnej.

Ten rodzaj technologii może pomóc osobom z dysleksją, ale inne rodzaje niepełnosprawności są nadal kwestionowane. Skuteczność produktu to problem, który utrudnia mu skuteczność. Chociaż dziecko może być w stanie wypowiedzieć słowo, w zależności od tego, jak wyraźnie je wypowiada, technologia może pomyśleć, że mówi inne słowo i wprowadza niewłaściwe. Daje im więcej pracy do naprawienia, powodując, że będą musieli poświęcić więcej czasu na poprawienie niewłaściwego słowa.

Dalsze zastosowania

Wydajność

Wydajność systemów rozpoznawania mowy jest zwykle oceniana pod kątem dokładności i szybkości. Dokładność jest zwykle oceniana za pomocą współczynnika błędu słowa (WER), podczas gdy prędkość jest mierzona za pomocą współczynnika czasu rzeczywistego . Inne miary dokładności obejmują wskaźnik błędów pojedynczego słowa (SWER) i wskaźnik sukcesu polecenia (CSR).

Rozpoznawanie mowy przez maszynę to jednak bardzo złożony problem. Wokalizacje różnią się pod względem akcentu, wymowy, artykulacji, szorstkości, nosowości, wysokości tonu, głośności i szybkości. Mowa jest zniekształcona przez szum tła i echa, charakterystykę elektryczną. Dokładność rozpoznawania mowy może się różnić w zależności od:

  • Rozmiar słownictwa i możliwość pomylenia
  • Zależność od głośnika a niezależność
  • Mowa izolowana, nieciągła lub ciągła
  • Ograniczenia dotyczące zadań i języka
  • Czytanie a mowa spontaniczna
  • Niekorzystne warunki

Precyzja

Jak wspomniano wcześniej w tym artykule, dokładność rozpoznawania mowy może się różnić w zależności od następujących czynników:

  • Wskaźniki błędów rosną wraz ze wzrostem słownika:
np. 10 cyfr od „zero” do „dziewięć” można rozpoznać zasadniczo doskonale, ale słownictwo o rozmiarach 200, 5000 lub 100000 może mieć współczynniki błędów odpowiednio 3%, 7% lub 45%.
  • Słownictwo jest trudne do rozpoznania, jeśli zawiera mylące słowa:
np. 26 liter alfabetu angielskiego jest trudnych do rozróżnienia, ponieważ są to mylące słowa (najczęściej zbiór E: „B, C, D, E, G, P, T, V, Z — gdy „Z” jest wymawiane „zee” zamiast „zed” w zależności od regionu angielskiego; 8% wskaźnik błędu jest uważany za dobry dla tego słownictwa.
  • Zależność od mówcy a niezależność:
System zależny od głośnika jest przeznaczony do użytku przez jednego głośnika.
System niezależny od głośnika jest przeznaczony do użytku przez dowolnego głośnika (trudniejszy).
  • Mowa odosobniona, nieciągła lub ciągła
W przypadku mowy izolowanej używane są pojedyncze słowa, dzięki czemu rozpoznawanie mowy staje się łatwiejsze.

Przy mowie nieciągłej używa się pełnych zdań oddzielonych milczeniem, dzięki czemu łatwiej jest rozpoznać mowę, jak również przy mowie izolowanej.
Przy mowie ciągłej używane są zdania naturalnie wypowiadane, przez co trudniej jest rozpoznać mowę, która różni się zarówno od mowy izolowanej, jak i nieciągłej.

  • Ograniczenia dotyczące zadań i języka
    • Np. zapytanie aplikacji może obalić hipotezę „Jabłko jest czerwone”.
    • np. ograniczenia mogą być semantyczne; odrzucenie „Jabłko jest zły”.
    • np. składnia; odrzucenie „Czerwony to jabłko”.

Ograniczenia są często reprezentowane przez gramatykę.

  • Czytanie a mowa spontaniczna – Kiedy osoba czyta, zwykle dzieje się to w kontekście, który został wcześniej przygotowany, ale gdy dana osoba używa mowy spontanicznej, trudno jest ją rozpoznać z powodu niepłynności (takich jak „uh” i „um”, falstarty, niekompletne zdania, jąkanie, kaszel i śmiech) oraz ograniczone słownictwo.
  • Niekorzystne warunki – Hałas otoczenia (np. Hałas w samochodzie lub w fabryce). Zniekształcenia akustyczne (np. echa, akustyka pomieszczenia)

Rozpoznawanie mowy to wielopoziomowe zadanie rozpoznawania wzorców.

  • Sygnały akustyczne są uporządkowane w hierarchię jednostek, np. fonemy , słowa, frazy i zdania;
  • Każdy poziom zapewnia dodatkowe ograniczenia;

np. znane wymowy słów lub legalne sekwencje słów, które mogą kompensować błędy lub niejasności na niższym poziomie;

  • Ta hierarchia ograniczeń jest wykorzystywana. Poprzez łączenie decyzji probabilistycznie na wszystkich niższych poziomach i podejmowanie bardziej deterministycznych decyzji tylko na najwyższym poziomie, rozpoznawanie mowy przez maszynę jest procesem rozbitym na kilka faz. Obliczeniowo jest to problem, w którym wzór dźwiękowy musi zostać rozpoznany lub zaklasyfikowany do kategorii, która reprezentuje znaczenie dla człowieka. Każdy sygnał akustyczny można podzielić na mniejsze, bardziej podstawowe podsygnały. W miarę rozbijania bardziej złożonego sygnału dźwiękowego na mniejsze poddźwięki powstają różne poziomy, gdzie na najwyższym poziomie mamy złożone dźwięki, które składają się z prostszych dźwięków na niższym poziomie, a przechodząc na niższe poziomy, jeszcze bardziej, tworzymy bardziej podstawowe, krótsze i prostsze dźwięki. Na najniższym poziomie, gdzie dźwięki są najbardziej fundamentalne, maszyna sprawdziłaby proste i bardziej probabilistyczne zasady tego, co dźwięk powinien reprezentować. Gdy te dźwięki zostaną połączone w bardziej złożone dźwięki na wyższym poziomie, nowy zestaw bardziej deterministycznych reguł powinien przewidzieć, co powinien reprezentować nowy złożony dźwięk. Najwyższy poziom reguły deterministycznej powinien ustalić znaczenie wyrażeń złożonych. Aby poszerzyć naszą wiedzę na temat rozpoznawania mowy, musimy wziąć pod uwagę sieci neuronowe. Istnieją cztery etapy podejść do sieci neuronowych:
  • Digitalizuj mowę, którą chcemy rozpoznać

W przypadku mowy telefonicznej częstotliwość próbkowania wynosi 8000 próbek na sekundę;

  • Oblicz cechy dziedziny widmowej mowy (z transformacją Fouriera);

obliczane co 10 ms, z jedną sekcją 10 ms nazywaną ramką;

Analizę czteroetapowych podejść do sieci neuronowych można wyjaśnić dalszymi informacjami. Dźwięk wytwarzany jest przez wibracje powietrza (lub innego medium), które rejestrujemy uszami, a maszyny przez odbiorniki. Dźwięk podstawowy tworzy falę, która ma dwa opisy: amplitudę (jak silna jest) i częstotliwość (jak często wibruje na sekundę). Dokładność można obliczyć za pomocą współczynnika błędów słów (WER). Współczynnik błędów słowa można obliczyć, wyrównując rozpoznane słowo i słowo, do którego się odwołuje, za pomocą dynamicznego wyrównywania ciągów. Problem może wystąpić podczas obliczania współczynnika błędów słowa ze względu na różnicę między długościami sekwencji rozpoznanego słowa i słowa, do którego się odwołuje. Pozwolić

 S be the number of substitutions,
 D be the number of deletions,
 I be the number of insertions,
 N be the number of word references.

Formuła do obliczenia współczynnika błędów słowa (WER) to

      WER = (S+D+I)÷N

Podczas obliczania współczynnika rozpoznawania słów (WRR) używany jest współczynnik błędów słowa (WER), a wzór jest

      WRR = 1- WER
          = (N-S-D-I)÷ N = (H-I)÷N

Tutaj H to liczba poprawnie rozpoznanych słów. H= N-(S+D).

Obawy dotyczące bezpieczeństwa

Rozpoznawanie mowy może stać się środkiem ataku, kradzieży lub przypadkowej operacji. Na przykład słowa aktywacyjne, takie jak „Alexa”, wypowiadane w transmisji audio lub wideo, mogą spowodować, że urządzenia w domach i biurach zaczną niewłaściwie nasłuchiwać danych wejściowych lub podjąć niepożądane działanie. Urządzenia sterowane głosem są również dostępne dla odwiedzających budynek, a nawet tych na zewnątrz budynku, jeśli są słyszalne w środku. Atakujący mogą uzyskać dostęp do informacji osobistych, takich jak kalendarz, zawartość książki adresowej, prywatne wiadomości i dokumenty. Mogą również podszywać się pod użytkownika, aby wysyłać wiadomości lub dokonywać zakupów online.

Zademonstrowano dwa ataki wykorzystujące sztuczne dźwięki. Jeden transmituje ultradźwięki i próbuje wysyłać polecenia bez zauważenia pobliskich osób. Druga dodaje małe, niesłyszalne zniekształcenia do innej mowy lub muzyki, które są specjalnie stworzone, aby pomylić określony system rozpoznawania mowy z rozpoznawaniem muzyki jako mowy lub sprawić, że coś, co brzmi jak jedno polecenie, do ludzkiego dźwięku, jak inne polecenie systemu.

Dalsza informacja

Konferencje i czasopisma

Popularne konferencje rozpoznawania mowy odbywające się co roku lub dwa to SpeechTEK i SpeechTEK Europe, ICASSP , Interspeech / Eurospeech oraz IEEE ASRU. Na konferencjach z zakresu przetwarzania języka naturalnego , takich jak ACL , NAACL , EMNLP i HLT, zaczynają pojawiać się artykuły dotyczące przetwarzania mowy . Ważne czasopisma obejmują IEEE Transactions on Speech and Audio Processing (później przemianowany na IEEE Transactions on Audio, Speech and Language Processing, a od września 2014 przemianowany na IEEE /ACM Transactions on Audio, Speech and Language Processing – po połączeniu z publikacją ACM), Computer Speech oraz język i komunikacja głosowa.

Książki

Książki takie jak „Fundamentals of Speech Recognition” Lawrence'a Rabinera mogą być przydatne do zdobycia podstawowej wiedzy, ale mogą nie być w pełni aktualne (1993). Innym dobrym źródłem mogą być „Statistical Methods for Speech Recognition” Fredericka Jelinka i „Spoken Language Processing (2001)” Xuedong Huang etc., „Computer Speech” Manfreda R. Schroedera , wydanie drugie opublikowane w 2004 roku oraz „Speech Processing: A Dynamic and Optimization-Oriented Approach” opublikowanej w 2003 roku przez Li Denga i Douga O'Shaughnesseya. Zaktualizowany podręcznik Przetwarzanie mowy i języka (2008) autorstwa Jurafsky'ego i Martina przedstawia podstawy i stan wiedzy na temat ASR. Rozpoznawanie mówców również wykorzystuje te same funkcje, większość tego samego przetwarzania frontonu i technik klasyfikacji, jak w przypadku rozpoznawania mowy. Obszerny podręcznik „Podstawy rozpoznawania mówców” jest dogłębnym źródłem aktualnych szczegółów dotyczących teorii i praktyki. Dobry wgląd w techniki stosowane w najlepszych nowoczesnych systemach można uzyskać, zwracając uwagę na sponsorowane przez rząd oceny, takie jak te organizowane przez DARPA (największy projekt związany z rozpoznawaniem mowy realizowany od 2007 r. to projekt GALE, który obejmuje zarówno rozpoznawanie mowy i tłumaczenia).

Dobrym i przystępnym wprowadzeniem do technologii rozpoznawania mowy i jej historii jest książka dla szerokiej publiczności „The Voice in the Machine. Building Computers That Understand Speech” autorstwa Roberto Pieracciniego (2012).

Najnowsza książka na temat rozpoznawania mowy to Automatyczne rozpoznawanie mowy: podejście do głębokiego uczenia się (wydawca: Springer) napisana przez badaczy Microsoft D. Yu i L. Denga i opublikowana pod koniec 2014 r., zawierająca wysoce zorientowane matematycznie szczegóły techniczne na temat tego, jak głębokie uczenie się metody są tworzone i wdrażane w nowoczesnych systemach rozpoznawania mowy opartych na DNN i powiązanych metodach głębokiego uczenia. Pokrewna książka, opublikowana wcześniej w 2014 r., „Głębokie uczenie: metody i zastosowania” autorstwa L. Denga i D. Yu, zawiera mniej techniczny, ale bardziej skoncentrowany na metodologii przegląd rozpoznawania mowy opartego na DNN w latach 2009–2014, umieszczony w ogólny kontekst aplikacji głębokiego uczenia, w tym nie tylko rozpoznawanie mowy, ale także rozpoznawanie obrazów, przetwarzanie języka naturalnego, wyszukiwanie informacji, przetwarzanie multimodalne i uczenie się wielozadaniowe.

Oprogramowanie

Pod względem swobodnie dostępnych zasobów, Carnegie Mellon University „s Sphinx Toolkit jest jedno miejsce, aby zacząć uczyć się zarówno o rozpoznawanie mowy i zacząć eksperymentować. Innym źródłem (bezpłatnym, ale chronionym prawem autorskim) jest książka HTK (i towarzyszący jej zestaw narzędzi HTK). W przypadku nowszych i najnowocześniejszych technik można użyć zestawu narzędzi Kaldi . W 2017 r. Mozilla uruchomiła projekt open source o nazwie Common Voice, aby zebrać dużą bazę głosów, która pomogłaby zbudować projekt rozpoznawania mowy DeepSpeech (dostępny bezpłatnie na GitHub ), przy użyciu platformy Google o otwartym kodzie źródłowym TensorFlow . Kiedy Mozilla przekierowała finansowanie z projektu w 2020 roku, została rozwidlona przez pierwotnych programistów jako Coqui STT przy użyciu tej samej licencji open-source.

Komercyjne interfejsy API rozpoznawania mowy oparte na chmurze są szeroko dostępne w AWS, Azure, Scriptix, IBM i GCP.

Demonstracja rozpoznawania mowy on-line jest dostępna na stronie internetowej Cobalt.

Aby uzyskać więcej zasobów oprogramowania, zobacz Lista oprogramowania do rozpoznawania mowy .

Zobacz też

Bibliografia

Dalsza lektura

  • Pieracciniego, Roberto (2012). Głos w maszynie. Budowanie komputerów, które rozumieją mowę . Prasa MIT. Numer ISBN 978-0262016858.
  • Woelfel, Maciej; McDonough, John (26 maja 2009). Rozpoznawanie mowy na odległość . Wileya. Numer ISBN 978-0470517048.
  • Karat, Clare-Marie; Vergo, John; Nahamoo, Dawid (2007). „Technologie interfejsu konwersacyjnego”. W Sears, Andrew ; Jacko, Julie A. (red.). Podręcznik interakcji człowiek-komputer: podstawy, ewoluujące technologie i pojawiające się zastosowania (czynnik ludzki i ergonomia) . Lawrence Erlbaum Associates Inc. ISBN 978-0-8058-5870-9.
  • Cole'a, Ronalda; Mariani Józef ; Uszkoreit, Hans; Varile, Giovanni Battista; Zaenena, Annie; Zampolli; Zue, Victor, wyd. (1997). Przegląd stanu techniki w technologii języka ludzkiego . Studia Cambridge w przetwarzaniu języka naturalnego. XII–XIII. Wydawnictwo Uniwersytetu Cambridge. Numer ISBN 978-0-521-59277-2.
  • Junqua, JC; Haton, J.-P. (1995). Solidność w automatycznym rozpoznawaniu mowy: podstawy i zastosowania . Wydawnictwa Akademickie Kluwer. Numer ISBN 978-0-7923-9646-8.
  • Pirani, Giancarlo, wyd. (2013). Zaawansowane algorytmy i architektury do rozumienia mowy . Springer Nauka i Media Biznesowe. Numer ISBN 978-3-642-84341-9.

Zewnętrzne linki