Statystyczne tłumaczenie maszynowe - Statistical machine translation

Statystyczne tłumaczenie maszynowe ( SMT ) to paradygmat tłumaczenia maszynowego, w którym tłumaczenia są generowane na podstawie modeli statystycznych, których parametry są wyprowadzane z analizy korpusów tekstów dwujęzycznych . Podejście statystyczne kontrastuje z podejściem opartym na regułach do tłumaczenia maszynowego, a także z tłumaczeniem maszynowym opartym na przykładach .

Pierwsze pomysły tłumaczenie statystyczne zostały wprowadzone przez Warren Weaver w 1949 roku, w tym idei stosowania Claude Shannon „s teoria informacji . Tłumaczenie statystyczne został ponownie wprowadzony pod koniec 1980 i na początku 1990 przez naukowców z IBM jest Thomas J. Watson Research Center i przyczyniła się do znacznego odrodzenia zainteresowania w tłumaczeniu maszynowym w ostatnich latach. Przed wprowadzeniem neuronowego tłumaczenia maszynowego była to zdecydowanie najszerzej badana metoda tłumaczenia maszynowego.

Podstawa

Idea statystycznego tłumaczenia maszynowego wywodzi się z teorii informacji . Dokument jest tłumaczony zgodnie z rozkładem prawdopodobieństwa, że ciąg w języku docelowym (na przykład angielskim) jest tłumaczeniem ciągu w języku źródłowym (na przykład francuskim).

Do problemu modelowania rozkładu prawdopodobieństwa podchodzono na wiele sposobów . Jednym z podejść, które dobrze nadaje się do implementacji komputerowej, jest zastosowanie twierdzenia Bayesa , to znaczy , że model tłumaczenia jest prawdopodobieństwem, że ciąg źródłowy jest tłumaczeniem ciągu docelowego, a model języka jest prawdopodobieństwem zobaczenia tego ciągu w języku docelowym . Ta dekompozycja jest atrakcyjna, ponieważ dzieli problem na dwa podproblemy. Znalezienie najlepszego tłumaczenia odbywa się poprzez wybranie tego, które daje największe prawdopodobieństwo:

.

Do rygorystycznej implementacji tego należałoby przeprowadzić wyczerpujące wyszukiwanie, przeglądając wszystkie ciągi w języku ojczystym. Wydajne przeprowadzenie wyszukiwania to praca dekodera tłumaczenia maszynowego, który wykorzystuje obcy ciąg, heurystykę i inne metody w celu ograniczenia przestrzeni wyszukiwania przy jednoczesnym zachowaniu akceptowalnej jakości. Ten kompromis między jakością a czasem można znaleźć również w rozpoznawaniu mowy .

Ponieważ systemy tłumaczeniowe nie są w stanie przechowywać wszystkich rodzimych ciągów i ich tłumaczeń, dokument jest zwykle tłumaczony zdanie po zdaniu, ale nawet to nie wystarcza. Modele językowe są zazwyczaj aproksymowane przez wygładzone modele n- gramowe i podobne podejście zastosowano do modeli tłumaczeniowych, ale istnieje dodatkowa złożoność ze względu na różne długości zdań i kolejność słów w językach.

Statystyczne modele translacji były początkowo oparte na słowach (Modele 1-5 od IBM Hidden Markov od Stephana Vogla i Model 6 od Franza-Josepha Ocha), ale poczyniono znaczne postępy wraz z wprowadzeniem modeli opartych na frazach . Później prace włączone składnia lub struktur quasi-składniowym.

Korzyści

Najczęściej wymieniane zalety statystycznego tłumaczenia maszynowego w porównaniu z podejściem opartym na regułach to:

  • Bardziej efektywne wykorzystanie zasobów ludzkich i danych
    • Istnieje wiele równoległych korpusów w formacie do odczytu maszynowego i jeszcze więcej danych jednojęzycznych.
    • Generalnie systemy SMT nie są dostosowane do żadnej konkretnej pary języków.
    • Systemy tłumaczeń opartych na regułach wymagają ręcznego opracowywania reguł językowych, co może być kosztowne i często nie ma zastosowania do innych języków.
  • Bardziej płynne tłumaczenia dzięki zastosowaniu modelu językowego

Niedociągnięcia

  • Tworzenie korpusu może być kosztowne.
  • Konkretne błędy są trudne do przewidzenia i naprawienia.
  • Wyniki mogą mieć powierzchowną płynność, która maskuje problemy z tłumaczeniem.
  • Statystyczne tłumaczenie maszynowe zwykle działa gorzej w przypadku par językowych o znacząco różnej kolejności słów.
  • Korzyści uzyskane z tłumaczenia między językami zachodnioeuropejskimi nie są reprezentatywne dla wyników dla innych par językowych ze względu na mniejsze korpusy szkoleniowe i większe różnice gramatyczne.

Tłumaczenie oparte na słowach

W tłumaczeniu opartym na słowach podstawową jednostką tłumaczenia jest słowo w jakimś języku naturalnym. Zazwyczaj liczba słów w przetłumaczonych zdaniach jest różna z powodu słów złożonych, morfologii i idiomów. Stosunek długości sekwencji przetłumaczonych słów nazywa się płodnością, która mówi, ile słów obcych wytwarza każde słowo rodzime. Z konieczności teoria informacji zakłada, że ​​każda z nich obejmuje to samo pojęcie. W praktyce nie jest to prawdą. Na przykład angielskie słowo corner można przetłumaczyć na hiszpański jako rincón lub esquina , w zależności od tego, czy ma oznaczać jego wewnętrzny czy zewnętrzny kąt.

Proste tłumaczenie oparte na słowach nie może tłumaczyć między językami o różnej płodności. Systemy tłumaczenia opartego na słowach można stosunkowo łatwo przystosować do radzenia sobie z wysoką płodnością, tak aby mogły odwzorować jedno słowo na wiele słów, ale nie odwrotnie. Na przykład, gdybyśmy tłumaczyli z angielskiego na francuski, każde słowo w języku angielskim mogło dawać dowolną liczbę francuskich słów – czasami wcale. Ale nie ma możliwości zgrupowania dwóch angielskich słów w jedno francuskie słowo.

Przykładem systemu tłumaczenia opartego na słowach jest ogólnodostępny pakiet GIZA++ ( GPLed ), który zawiera program szkoleniowy dla modeli IBM oraz modelu HMM i Modelu 6.

Tłumaczenie oparte na słowach nie jest dziś powszechnie używane; Systemy oparte na frazach są bardziej powszechne. Większość systemów opartych na frazach nadal używa GIZA++ do wyrównania korpusu. Wyrównania służą do wyodrębniania fraz lub wyprowadzania reguł składniowych. A dopasowywanie słów w bi-tekstie jest nadal problemem aktywnie dyskutowanym w społeczności. Ze względu na dominację GIZA++, istnieje obecnie kilka jego rozproszonych implementacji online.

Tłumaczenie fraz

W tłumaczeniu opartym na frazach celem jest zmniejszenie ograniczeń tłumaczenia opartego na słowach poprzez tłumaczenie całych sekwencji słów, których długość może się różnić. Sekwencje słów nazywane są blokami lub frazami, ale zazwyczaj nie są to frazy językowe , ale frazy znalezione za pomocą metod statystycznych z korpusów. Wykazano, że ograniczanie fraz do fraz językowych (grupy słów motywowane syntaktycznie, patrz kategorie syntaktyczne ) obniża jakość tłumaczenia.

Wybrane frazy są dalej mapowane jeden-do-jednego na podstawie tabeli tłumaczeń fraz i mogą być zmieniane. Tabeli tej można się nauczyć na podstawie wyrównania słów lub bezpośrednio z korpusu równoległego. Drugi model jest szkolony przy użyciu algorytmu maksymalizacji oczekiwań , podobnie jak model IBM oparty na słowach .

Tłumaczenie oparte na składni

Tłumaczenie oparte na składni opiera się na idei tłumaczenia jednostek składniowych , a nie pojedynczych słów lub ciągów słów (jak w przypadku MT opartego na frazach), tj. (częściowe) parsowanie drzew zdań/wypowiedzi. Pomysł tłumaczenia opartego na składni jest dość stary w MT, chociaż jego statystyczny odpowiednik nie wystartował aż do pojawienia się silnych parserów stochastycznych w latach 90. XX wieku. Przykłady tego podejścia obejmują MT oparte na DOP i, ostatnio, synchroniczne gramatyki bezkontekstowe .

Hierarchiczne tłumaczenie fraz

Hierarchiczne tłumaczenie fraz łączy w sobie zalety tłumaczenia fraz i składni. Wykorzystuje synchroniczne reguły gramatyki bezkontekstowej , ale gramatyki mogą być konstruowane przez rozszerzenie metod tłumaczenia opartego na frazach bez odniesienia do elementów składniowych motywowanych językowo. Pomysł ten został po raz pierwszy wprowadzony w systemie Hiero firmy Chiang (2005).

Modele językowe

Modelu język jest istotnym elementem każdego systemu statystycznego tłumaczenia maszynowego, który pomaga w tworzeniu tłumaczenie jako Fluent jak to możliwe. Jest to funkcja, która pobiera przetłumaczone zdanie i zwraca prawdopodobieństwo wypowiedzenia go przez native speakera. Dobry model językowy przypisze na przykład większe prawdopodobieństwo zdaniu „dom jest mały” niż zdaniu „mały jest dom”. Poza kolejnością słów modele językowe mogą również pomóc w doborze słów: jeśli słowo obce ma wiele możliwych tłumaczeń, funkcje te mogą dawać większe prawdopodobieństwo niektórych tłumaczeń w określonych kontekstach w języku docelowym.

Wyzwania związane ze statystycznym tłumaczeniem maszynowym

Problemy, z którymi musi się zmierzyć statystyczne tłumaczenie maszynowe, obejmują:

Wyrównanie zdań

W równoległych korpusach pojedyncze zdania w jednym języku można znaleźć przetłumaczone na kilka zdań w drugim i odwrotnie. Długie zdania mogą być dzielone, krótkie zdania mogą być łączone. Istnieją nawet języki, które używają systemów pisma bez wyraźnego wskazania końca zdania (na przykład tajski). Wyrównanie zdań można przeprowadzić za pomocą algorytmu wyrównywania Gale-Church . Dzięki temu i innym modelom matematycznym możliwe jest wydajne wyszukiwanie i odzyskiwanie najlepiej ocenianego dopasowania zdań.

Wyrównanie słów

Wyrównanie zdań jest zwykle dostarczane przez korpus lub uzyskiwane za pomocą wspomnianego algorytmu wyrównania Gale-Church . Aby poznać np. model tłumaczenia, musimy jednak wiedzieć, które słowa są wyrównane w parze zdań źródło-cel. Rozwiązania to modele IBM lub podejście HMM.

Jednym z przedstawionych problemów są słowa funkcyjne, które nie mają wyraźnego odpowiednika w języku docelowym. Na przykład, tłumacząc z angielskiego na niemiecki zdanie „Jan tu nie mieszka”, słowo „nie” nie ma wyraźnego dopasowania w przetłumaczonym zdaniu „John wohnt hier nicht”. Poprzez logiczne rozumowanie może być zrównane ze słowami „wohnt” (ponieważ w języku angielskim zawiera informacje gramatyczne dla słowa „live”) lub „nicht” (ponieważ pojawia się tylko w zdaniu, ponieważ jest zanegowane) lub może być niewyrównane.

Anomalie statystyczne

Zestawy szkoleniowe w świecie rzeczywistym mogą zastępować tłumaczenia, powiedzmy, rzeczowników własnych. Przykładem może być to, że „Pojechałem pociągiem do Berlina” zostanie błędnie przetłumaczony jako „Pojechałem pociągiem do Paryża” z powodu dużej ilości „pociągu do Paryża” w zestawie szkoleniowym.

Frazeologia

W zależności od użytych korpusów idiomy mogą nie być tłumaczone „idiomatycznie”. Na przykład, używając kanadyjskiego Hansarda jako korpusu dwujęzycznego, „słyszeć” może prawie zawsze być tłumaczone na „Bravo!” ponieważ w Parlamencie „Słuchaj, słuchaj!” staje się „Brawo!”.

Problem ten jest związany z wyrównaniem wyrazów, ponieważ w bardzo specyficznych kontekstach wyrażenie idiomatyczne może być wyrównane ze słowami, które dają wyraz idiomatyczny o tym samym znaczeniu w języku docelowym. Jest to jednak mało prawdopodobne, ponieważ wyrównanie zwykle nie działa w żadnym innym kontekście. Z tego powodu idiomy powinny być poddawane jedynie wyrównaniu frazowemu, ponieważ nie można ich dalej rozkładać bez utraty znaczenia. Problem ten jest zatem specyficzny dla tłumaczenia opartego na słowach.

Różne szyki słów

Kolejność słów w językach różni się. Pewnej klasyfikacji można dokonać przez nazwanie typowej kolejności podmiotu (S), czasownika (V) i dopełnienia (O) w zdaniu i można mówić np. o językach SVO lub VSO. Istnieją również dodatkowe różnice w kolejności wyrazów, na przykład, gdzie znajdują się modyfikatory rzeczowników lub gdy te same słowa są używane jako pytanie lub stwierdzenie.

W rozpoznawaniu mowy sygnał mowy i odpowiednia reprezentacja tekstowa mogą być mapowane do siebie w kolejności blokowej. Nie zawsze tak jest w przypadku tego samego tekstu w dwóch językach. W przypadku SMT tłumacz maszynowy może zarządzać tylko małymi sekwencjami słów, a projektant programu musi wziąć pod uwagę kolejność słów. Próby rozwiązania obejmowały modele zmiany kolejności, w których rozkład zmian lokalizacji dla każdego elementu tłumaczenia jest odgadywany z wyrównanego bi-tekstu. Różne zmiany lokalizacji można uszeregować za pomocą modelu językowego i wybrać najlepsze.

Ostatnio komunikator głosowy Skype zaczął testować tłumaczenie mowy. Jednak tłumaczenie maszynowe podąża za trendami technologicznymi w mowie wolniej niż rozpoznawanie mowy. W rzeczywistości niektóre pomysły z badań rozpoznawania mowy zostały przyjęte przez statystyczne tłumaczenie maszynowe.

Poza słownictwem (OOV) słowa

Systemy SMT zazwyczaj przechowują różne formy słów jako oddzielne symbole, które nie są ze sobą powiązane, a formy słów lub frazy, których nie było w danych uczących, nie mogą być tłumaczone. Może to być spowodowane brakiem danych uczących, zmianami w dziedzinie ludzkiej, w której używany jest system, lub różnicami w morfologii.

Urządzenia mobilne

Szybki wzrost mocy obliczeniowej tabletów i smartfonów , w połączeniu z szeroką dostępnością szybkiego mobilnego dostępu do Internetu , umożliwia im uruchamianie systemów tłumaczenia maszynowego. Opracowano już systemy eksperymentalne mające na celu pomoc zagranicznym pracownikom służby zdrowia w krajach rozwijających się. Podobne systemy są już dostępne na rynku. Na przykład, jabłko „s iOS 8 pozwala użytkownikom dyktować wiadomości tekstowych . Wbudowany system ASR rozpoznaje mowę, a wyniki rozpoznawania są edytowane przez system online.

Projekty takie jak Universal Speech Translation Advanced Research (U-STAR1, kontynuacja projektu A-STAR) i EU-BRIDGE2 prowadzą obecnie badania nad tłumaczeniem pełnych zdań rozpoznawanych z języka mówionego. W ostatnich latach obserwuje się rosnące zainteresowanie łączeniem rozpoznawania mowy, tłumaczenia maszynowego i syntezy mowy . Aby uzyskać tłumaczenie mowy na mowę , n-najlepszych list jest przekazywanych z ASR do statystycznego systemu tłumaczenia maszynowego. Jednak połączenie tych systemów rodzi problemy, jak osiągnąć segmentację zdań, denormalizację i przewidywanie interpunkcji potrzebne do wysokiej jakości tłumaczeń.

Systemy realizujące statystyczne tłumaczenie maszynowe

  • Tłumacz Google (rozpoczął przejście na neuronowe tłumaczenie maszynowe w 2016 r.)
  • Microsoft Translator (rozpoczęto przejście na neuronowe tłumaczenie maszynowe w 2016 r.)
  • SYSTRAN (rozpoczął przejście na neuronowe tłumaczenie maszynowe w 2016 r.)
  • Yandex.Translate (przejście na podejście hybrydowe, obejmujące neuronowe tłumaczenie maszynowe w 2017 r.)

Zobacz też

Uwagi i referencje

Linki zewnętrzne