Yarowsky algorytm - Yarowsky algorithm

W lingwistyki algorytm Yarowsky jest Uczenie Nienadzorowane algorytm za sens wyrazu dezambiguacji że wykorzystuje „pewnym sensie za kolokacja ” i „pewnym sensie za dyskursu” właściwości ludzkich języków za sens wyrazu dezambiguacji. Z obserwacji, słowa wydają się wykazywać tylko jeden sens w większości danym dyskursie iw danym kolokacji.

Podanie

Algorytm rozpoczyna się od dużego, nieotagowanego korpusu , w którym identyfikuje przykłady danego polysemous słowa i przechowuje wszystkie odpowiednie zdania jak linie. Na przykład, Yarowsky używa słowa „roślina” w jego 1995 papieru do wykazania algorytmu. Jeśli przyjąć, że istnieją dwa możliwe znaczeniach tego słowa, następnym krokiem jest zidentyfikowanie niewielką liczbę kolokacji nasienne przedstawiciela każdego sensie dać każdemu sensie etykietę (tj poczucie A i B), a następnie przypisać odpowiednią etykietę do przykłady treningowe zawierające kolokacji nasion. W tym przypadku, wyrażenie „życia” i „produkcja” jest wybrany jako początkowe kolokacji nasion na zmysły A i B, odpowiednio. Resztkowe przykłady (85% -98% w zależności Yarowsky) pozostają nieoznakowane.

Algorytm powinien początkowo wybrać przedstawiciela kolokacje nasion, które będą odróżniać sensie i B dokładnie i wydajnie. Można to zrobić poprzez wybranie słowa nasienne od A słowniku wpisu „s dla tego słowa znaczeniu. W kolokacji zwykle mają silniejsze działanie, jeżeli są one w sąsiedztwie słowa docelowego, efekt słabnie wraz z odległością. Zgodnie z kryteriami podanymi w Yarowsky (1993), ziarno słowa, które pojawiają się w najbardziej wiarygodnych collocational relacji ze słowem docelowy zostanie wybrany. Efekt jest o wiele silniejszy słów w kwantyfikatorów -argument relacji niż dla dowolnych skojarzeń w tej samej odległości do słowa docelowej, i jest znacznie silniejszy w przypadku kolokacji z treścią słów niż z funktor. Powiedziawszy to, słowo kolokacja może mieć kilka collocational relacji ze słowem docelowej w całym korpusie. To może dać Słowo różne rankingi, a nawet różne klasyfikacje. Alternatywnie, można to zrobić poprzez zidentyfikowanie pojedynczego collocate definiowania dla każdej klasy, a przy użyciu nasion tylko te konteksty zawierające jeden z tych określających słów. Publicznie dostępnej bazy danych WordNet może być stosowany jako automatyczne źródło takich warunków ograniczających. Ponadto, słowa, które pojawiają się przy słowie docelowej w wielkiej częstotliwości mogą zostać wybrane jako kolokacji nasienne przedstawiciela. Takie podejście nie jest w pełni automatyczny, człowiek sędzia musi zdecydować, które zostaną wybrane słowo dla każdego słowa znaczeniu docelowego, wyjścia będą rzetelne wskaźniki zmysłów.

Lista decyzja algorytm jest następnie wykorzystywany do identyfikacji innych wiarygodnych kolokacji. Ten algorytm uczący oblicza prawdopodobieństwo Pr (Sense | kolokacji), a lista decyzja jest wg wskaźnika log-prawdopodobieństwo:

Wygładzania Algorytm wówczas aby uniknąć 0 wartości. Algorytm decyzji lista rozwiązuje wiele problemów w dużym zestawem non-niezależnego źródła dowodowego przy użyciu tylko najbardziej wiarygodne dowód zamiast całego zestawu dopasowanie kolokacji.

Otrzymany nowy klasyfikator następnie stosuje się do całego zestawu próbek. Dodać te przykłady w reszcie , które są oznaczone jako A i B, z prawdopodobieństwem nad odpowiednim progiem do zestawów nasion. Algorytm decyzji lista i powyższy etap dodawania są stosowane iteracyjnie . Ponieważ coraz więcej nowo nauczyli kolokacji są dodawane do zestawów nasion, poczucie A lub B poczucie zestaw będzie rosnąć, a oryginalny resztkowa skurczy. Jednak te kolokacji pobyt w zbiorach nasion tylko jeśli ich prawdopodobieństwo klasyfikacji utrzymuje się powyżej wartości progowej, w przeciwnym razie są one zwracane do pozostałego do późniejszej klasyfikacji. Na końcu każdej iteracji „jeden zmysł za dyskursu” nieruchomość może być stosowany w celu zapobiegania początkowo mistagged collocates a tym samym poprawę czystości zbiorów nasion.

W celu uniknięcia silnych collocates staje wskaźników niewłaściwej klasy, próg klasy włączenie musi być losowo zmieniane. W tym samym celu, po zbieżności pośredniego algorytm należy również zwiększyć szerokość okna kontekstu.

Algorytm będzie nadal iteracyjne dopóki nie zostaną znalezione żadne bardziej niezawodne kolokacji. „Jeden zmysł za dyskursu” własność może być używany tutaj dla korekcji błędów. Przez słowo docelowej, która ma binarny partycję sens, jeśli wystąpienia sensie większościowym przekracza wielkości mniejszej sensownej B przez pewnego progu, te mniejszości będą relabeled jako A. Według Yarowsky, na jakimkolwiek sensie bycia wyraźnie dominujący, wystąpień słowa docelowego nie powinna być mniejsza niż 4.

Gdy algorytm zbiega na stabilnej resztkowej zestawie, uzyskuje się ostateczna lista decyzja słowa docelowego. Najbardziej wiarygodne kolokacji są na szczycie nowej listy zamiast oryginalnych słów nasiennych. Oryginalny nieoznakowane corpus jest następnie oznaczone etykietami sens i prawdopodobieństw. Lista ostateczna decyzja może być teraz stosowane do nowych danych, kolokacja o najwyższej randze w wykazie, jest użyty do klasyfikowania nowych danych. Na przykład, jeżeli najwyższy ranking kolokacja słowa docelowego w nowym zbiorze danych jest wyczuć, to słowo jest klasyfikowany jako cel sensie A.

Zobacz też

Referencje

  • Yarowsky, D. „Nienadzorowany Słowo Sense Ujednoznacznienia rywalizując Nadzorowane metod”. Obrady 33. dorocznym spotkaniu Association for Computational Linguistics . Cambridge, MA, str. 189-196, 1995.