Słowo stopa błędów - Word error rate

Stopa błędów słowo ( WER ) jest częstym metryką wykonanie rozpoznawania mowy lub tłumaczenia maszynowego systemu.

Ogólna trudność wykonania pomiaru polega na tym, że uznana sekwencja słowo może mieć różną długość od sekwencji słowo odniesienia (podobno prawidłowa). WER pochodzi od odległości Levenshteina , pracując na poziomie słowa zamiast fonemów poziomie. WER jest cennym narzędziem do porównywania różnych systemów, jak również dla oceny usprawnienia w ramach jednego systemu. Ten rodzaj pomiaru przewiduje jednak żadnych szczegółów na temat charakteru błędów tłumaczeniowych i dalsza praca jest zatem konieczne, aby zidentyfikować główne źródło (a) błędu i skupić się żadnego wysiłku badawczego.

Ten problem jest rozwiązany przez pierwsze wyrównanie rozpoznany sekwencję słów z sekwencją odniesienia (obce) słów za pomocą dynamicznego wyrównania ciągu. Badanie tego problemu jest postrzegana przez teorię zwaną moc ustawa stwierdza, że ​​korelacje między zakłopotanie i word stopy błędów.

stopa błędów słowo może być obliczana jako:

gdzie

  • S oznacza liczbę podstawień
  • D jest liczbą delecji,
  • I to liczba wstawek,
  • C jest liczbą poprawnych słów,
  • N oznacza liczbę słów odniesienia (N = S + D + C)

Intuicja za „usunięciem” i „włożenia” jest jak dostać się z odniesieniem do hipotezy. Więc jeśli mamy odniesienie „To jest wikipedia” i hipoteza „To _ wikipedii”, nazywamy go delecja.

Podczas raportowania wydajności systemu rozpoznawania mowy, czasami dokładność słowo (WACC) jest używany zamiast:

gdzie

  • H N- (S + D), liczba słów prawidłowo rozpoznanych.

JEŻELI = 0, wówczas WACC będzie równoważny absolutna (wyszukiwania informacji) stosunek prawidłowo rozpoznany słowa „H” na Całkowita liczba słów w odniesieniu „N”.

Warto zauważyć, że N jest liczbą słów w odniesieniu stopa błędów słowo może być większy niż 1,0, a tym samym dokładność słowo może być mniejsza niż 0,0.

eksperymenty

Powszechnie uważa się, że niższy wskaźnik błędu słowo pokazuje najwyższą dokładność rozpoznawania mowy, w porównaniu z wyższym poziomem błędu słowo. Jednak co najmniej jedno badanie wykazało, że to nie może być prawdą. W doświadczeniu Microsoft Research, wykazano, że jeśli ludzie zostali przeszkoleni pod „który pasuje do celu optymalizacji dla zrozumienia” (Wang, Acero i Chelba, 2003), że wykazują one większą dokładność w zrozumieniu języka niż innych ludzi, którzy wykazali niższy wskaźnik błędu słowo, pokazując, że prawdziwe zrozumienie języka mówionego polega na czymś więcej niż tylko wysoka dokładność rozpoznawania tekstu.

Inne metryki

Jednym z problemów przy użyciu ogólny wzór taki jak ten powyżej, jednak to, że nie uwzględnia efektu, że różne rodzaje błędów mogą mieć na prawdopodobieństwo pomyślnego wyniku, na przykład niektóre błędy mogą być bardziej uciążliwy niż inne, a niektóre mogą zostać skorygowane łatwiej niż inni. Czynniki te mogą być specyficzne do składnia w fazie testów. Kolejnym problemem jest to, że nawet najlepsze wyrównanie, formuła nie można odróżnić od błędów podstawienie połączonego delecji oraz wstawiania błędu.

Hunt (1990) zaproponowano zastosowanie ważonej środka dokładności wykonania, w których błędy podstawienia są ważone na jedności, ale błędy delecji i insercji oba ważone jedynie 0,5, w następujący sposób:

Jest jakaś debata, jednak, czy formuła Hunt może być odpowiednio stosowany do oceny wydajności pojedynczego systemu, ponieważ został opracowany jako środek porównując bardziej dość konkurencyjnych systemów kandydujących. Dodatkową komplikacją jest dodawana przez czy dana składnia pozwala na korekcję błędów, a jeśli tak, to jak łatwo, że proces ten jest dla użytkownika. Istnieje więc pewne zasługi do argumentu, że wskaźniki wydajności należy opracować odpowiedni dla konkretnego systemu mierzona.

Niezależnie metryczny jest używany, jednak jeden poważny problem teoretyczny oceny wydajności systemu decyduje, czy słowo zostało „mis-wyraźna”, czyli nie kłam błędu z użytkownikiem lub z funkcji rozpoznawania. Może to być szczególnie istotne w systemie, który został zaprojektowany, aby radzić sobie z non-native speakerów danego języka lub z mocnymi akcentami regionalnymi.

Tempo, w jakim słowa powinny być wypowiadane podczas procesu pomiaru jest również źródłem zmienności pomiędzy podmiotami, jak jest potrzeba tematy do odpoczynku lub złapać oddech. konieczne może być kontrolowana w jakiś sposób wszystkie te czynniki.

Dyktowanego tekstu jest powszechnie zgodzili się, że dokładność wydajność na poziomie poniżej 95% jest nie do przyjęcia, ale to nie może być ponownie składni i / lub domeny specyficzne, np czy istnieje presja czasu na użytkownikach, aby wykonać zadanie, czy istnieją alternatywne metody realizacji, i tak dalej.

Określenie „Single Słowo Error Rate” jest czasem określane jako odsetek nieprawidłowych rozpoznań dla każdego innego wyrazu w słowniku systemu.

Edycja odległość

Wskaźnik błędu słowo może być również określane jako długości znormalizowanej edycji odległości . Znormalizowany edycja odległość między X i Y d (x, y) jest określony jako minimum W (P) / l (p), gdzie p jest ścieżka Montaż pomiędzy X i Y, W (P) jest sumą Masy elementarnych operacji edycyjnych z P i L (P), to wiele z tych operacji (o długości P).

Zobacz też

Referencje

  1. ^ Klakow Dietrich; Jochen Peters (wrzesień 2002). „Testowanie korelację poziomu błędu słowa i zakłopotania” . Komunikat mowy . 38 (1-2): 19-28. Doi : 10,1016 / S0167-6393 (01) 00041-3 . ISSN  0167-6393 . Źródło 28 August 2013 .
  2. ^ Wang, Y .; Acero, A .; Chelba, C. (2003). Słowo Error Rate jest dobrym wskaźnikiem dla języka mówionego Understanding Dokładność . IEEE Workshop na automatyczne rozpoznawanie mowy i ustaleń. St. Thomas, Wyspy Dziewicze Stanów Zjednoczonych. CiteSeerX  10.1.1.89.424 .
  3. ^ Niessen i wsp. (2000)
  4. ^ Obliczanie znormalizowanego Edycja Odległość i Zastosowanie: AndrCs Marzal i Enrique Vidal