Wyzwanie schematu Winograd - Winograd schema challenge

Wyzwanie schematu Winograd ( WSC ) jest test inteligencji maszyn proponowanych przez Hector Levesque , informatyk na Uniwersytecie w Toronto . Zaprojektowany jako ulepszenie testu Turinga , jest to test wielokrotnego wyboru, który wykorzystuje pytania o bardzo specyficznej strukturze: są to przykłady tak zwanych schematów Winograd, nazwanych na cześć Terry'ego Winograda , profesora informatyki na Uniwersytecie Stanforda .

Pozornie pytania schematu Winograd wymagają po prostu rozwiązania anafory : maszyna musi zidentyfikować poprzednika niejednoznacznego zaimka w wypowiedzi. To sprawia, że jest to zadanie przetwarzania języka naturalnego , ale Levesque twierdzi, że w przypadku schematów Winograd zadanie to wymaga użycia wiedzy i zdroworozsądkowego rozumowania .

Firma Nuance Communications ogłosiła w lipcu 2014 r., że będzie sponsorować coroczny konkurs MŚ, z nagrodą 25 000 USD za najlepszy system, który może dorównać ludzkiej wydajności. Jednak nagroda nie jest już oferowana.

Tło

Winograd Schema Challenge został zaproponowany w duchu testu Turinga . Zaproponowany przez Alana Turinga w 1950 roku test Turinga odgrywa kluczową rolę w filozofii sztucznej inteligencji . Turing zaproponował, że zamiast debatować, czy maszyna może myśleć, nauka o sztucznej inteligencji powinna zajmować się demonstrowaniem inteligentnych zachowań, które można przetestować. Ale dokładna natura testu proponowanego przez Turinga została poddana analizie, zwłaszcza odkąd chatbot AI o imieniu Eugene Goostman twierdził, że zdał go w 2014 roku. Jednym z głównych problemów związanych z testem Turinga jest to, że maszyna może z łatwością przejść test z brutalną siłą i/lub oszustwo, a nie prawdziwa inteligencja.

Wyzwanie schematu Winograd zostało zaproponowane częściowo w celu złagodzenia problemów, które wyszły na światło dzienne w związku z naturą programów, które dobrze wypadły w teście.

Oryginalną propozycją Turinga była to, co nazwał grą w imitację , która polega na swobodnych, nieograniczonych rozmowach w języku angielskim między ludzkimi sędziami a programami komputerowymi za pośrednictwem kanału tylko tekstowego (takiego jak dalekopis). Ogólnie rzecz biorąc, maszyna przechodzi test, jeśli przesłuchujący nie są w stanie odróżnić jej od człowieka w pięciominutowej rozmowie.

Słabe strony testu Turinga

Wydajność Eugene'a Goostmana wykazała pewne problemy z testem Turinga. Levesque identyfikuje kilka głównych problemów, podsumowanych w następujący sposób:

Oszustwo: Maszyna jest zmuszona do skonstruowania fałszywej tożsamości, która nie jest częścią inteligencji.
Rozmowa: Wiele interakcji można zakwalifikować jako „uzasadnioną rozmowę” — żarty, sprytne na marginesie, kwestie porządkowe — bez konieczności inteligentnego rozumowania.
Ocena: ludzie popełniają błędy, a sędziowie często nie zgadzają się z wynikami.

Schematy Winograd

Kluczowym czynnikiem w MRS jest specjalny format pytań, wywodzący się ze schematów Winogradu. Pytania w tej formie mogą być dostosowane do wymagań wiedzy i zdrowego rozumowania w różnych dziedzinach. Muszą być również napisane starannie, aby nie zdradzić swoich odpowiedzi ograniczeniami selekcji lub informacjami statystycznymi dotyczącymi słów w zdaniu.

Początek

Pierwszy cytowany przykład schematu Winograd (i powód jego nazwy) pochodzi od Terry'ego Winograda :

Radni miasta odmówili demonstrantom zezwolenia, ponieważ [obawiali się/popierali] przemoc.

Wybory „obawiały się” i „popierały” zmieniają schemat w dwie instancje:

Radni miasta odmówili demonstrantom zezwolenia, ponieważ obawiali się przemocy.

Radni miasta odmówili demonstrantom zezwolenia, ponieważ opowiadali się za przemocą.

Pytanie brzmi, czy zaimek „oni” odnosi się do radnych, czy do demonstrantów, a przełączanie się między dwoma instancjami schematu zmienia odpowiedź. Odpowiedź jest natychmiastowa dla ludzkiego czytelnika, ale okazuje się trudna do naśladowania w maszynach. Levesque twierdzi, że wiedza odgrywa kluczową rolę w tych problemach: odpowiedź na ten schemat wiąże się z naszym rozumieniem typowych relacji i zachowań radnych i demonstrantów.

Od czasu pierwotnej propozycji wyzwania schematu Winograd, Ernest Davis, profesor na Uniwersytecie Nowojorskim , sporządził listę ponad 140 schematów Winograd z różnych źródeł jako przykłady rodzajów pytań, które powinny pojawić się w wyzwaniu schematu Winograd.

Opis formalny

Pytanie wyzwania schematu Winograd składa się z trzech części:

Zdanie lub krótki dyskurs zawierający następujące elementy:
- Dwie frazy rzeczownikowe tej samej klasy semantycznej (męska, żeńska, nieożywiona lub grupa przedmiotów lub osób),
- Zaimek niejednoznaczny, który może odnosić się do jednego z powyższych wyrażeń rzeczownikowych oraz
- Słowo specjalne i słowo alternatywne, tak że jeśli słowo specjalne zostanie zastąpione słowem alternatywnym, zmieni się naturalna rozdzielczość zaimka.
Pytanie o tożsamość zaimka niejednoznacznego oraz
Dwa wybory odpowiedzi odpowiadające danym wyrażeniom rzeczownikowym.

Maszyna otrzyma problem w ustandaryzowanej formie, która zawiera wybór odpowiedzi, czyniąc z niego binarny problem decyzyjny .

Zalety

Wyzwanie schematu Winograd ma następujące rzekome zalety:

Do ich rozwiązania potrzebna jest wiedza i zdroworozsądkowe rozumowanie.
Można projektować schematy Winogradu o różnym stopniu trudności, obejmujące wszystko, od prostych związków przyczynowo-skutkowych po złożone narracje wydarzeń.
Mogą być skonstruowane w celu sprawdzenia zdolności rozumowania w określonych dziedzinach (np. rozumowanie społeczne/psychologiczne lub przestrzenne).
Nie potrzeba ludzkich sędziów.

Pułapki

Jedną z trudności związanych z wyzwaniem schematu Winograd jest rozwój pytań. Muszą być starannie dopasowane, aby zapewnić, że ich rozwiązanie wymaga zdroworozsądkowego rozumowania. Na przykład Levesque podaje następujący przykład tak zwanego schematu Winograd, który jest „zbyt łatwy”:

Kobiety przestały brać tabletki, ponieważ były [w ciąży/rakotwórcze]. Które osoby były [w ciąży/rakotwórcze]?

Odpowiedź na to pytanie można ustalić na podstawie ograniczeń selekcyjnych : w każdej sytuacji tabletki nie zachodzą w ciążę, kobiety tak; kobiety nie mogą być rakotwórcze, ale tabletki mogą. Tak więc odpowiedź ta mogłaby zostać wyprowadzona bez użycia rozumowania lub jakiegokolwiek zrozumienia znaczenia zdań – wszystko, co jest potrzebne, to dane na temat ograniczeń selekcji w ciąży i rakotwórczości.

Działalność

W 2016 i 2018 r. firma Nuance Communications sponsorowała konkurs, oferując nagrodę główną w wysokości 25 000 USD dla najlepszego strzelca powyżej 90% (dla porównania, ludzie poprawnie odpowiadają na 92–96% pytań MŚ). Jednak nikt nie zbliżył się do zdobycia nagrody w 2016 roku, a konkurs w 2018 roku został odwołany z powodu braku perspektyw; nagroda nie jest już oferowana.

Dwunaste międzynarodowe sympozjum na temat logicznych formalizacji rozumowania zdroworozsądkowego odbyło się w dniach 23–25 marca 2015 r. podczas wiosennej serii sympozjów AAAI na Uniwersytecie Stanforda, ze szczególnym uwzględnieniem wyzwania związanego ze schematem Winograd. W komitecie organizacyjnym znaleźli się Leora Morgenstern ( Leidos ), Theodore Patkos (Fundacja Badań i Technologii Hellas) oraz Robert Sloan ( Uniwersytet Illinois w Chicago ).

2016 Winograd Schema Challenge odbyło się 11 lipca 2016 na IJCAI-16. Było czterech zawodników. Pierwsza runda konkursu polegała na rozwiązywaniu PDPs – problemów ujednoznaczniania zaimków, zaczerpniętych ze źródeł literackich, a nie skonstruowanych jako pary zdań. Najwyższy osiągnięty wynik to 58% poprawne, według Quan Liu i wsp. z Uniwersytetu Nauki i Technologii w Chinach. W związku z tym zgodnie z regulaminem tego wyzwania nie przyznano żadnych nagród, a wyzwanie nie przeszło do drugiej rundy. Komitetem organizacyjnym w 2016 roku byli Leora Morgenstern, Ernest Davis i Charles Ortiz.

W 2017 roku neuronowy model asocjacji zaprojektowany do pozyskiwania wiedzy zdroworozsądkowej osiągnął 70% dokładność w 70 ręcznie wybranych problemach z oryginalnego zestawu danych 273 schematu Winograd. W czerwcu 2018 r. osiągnięto wynik 63,7% dokładności dla pełnego zbioru danych przy użyciu zestawu powtarzających się modeli językowych sieci neuronowych, co oznacza pierwsze użycie głębokich sieci neuronowych, które uczą się od niezależnych korpusów w celu zdobycia wiedzy zdroworozsądkowej. W 2019 r. osiągnięto wynik 90,1% na oryginalnym zestawie danych schematu Winograd poprzez dostrojenie modelu języka BERT za pomocą odpowiednich danych szkoleniowych podobnych do WSC, aby uniknąć konieczności uczenia się zdroworozsądkowego rozumowania. Ogólny model językowy GPT-3 osiągnął wynik 88,3% bez konkretnego dostrojenia w 2020 roku.

W 2019 r. zaprojektowano bardziej wymagający, kontradyktoryjny zestaw danych „Winogrande” zawierający 44 000 problemów. Ten zestaw danych składa się ze zdań w stylu wypełniania pustych miejsc, w przeciwieństwie do formatu zaimków z poprzednich zestawów danych.

Wersja wyzwania schematu Winograd jest jedną z części zbioru porównawczego wyzwań GLUE ( General Language Understanding Evaluation ) w zakresie automatycznego rozumienia języka naturalnego .

Bibliografia

Zewnętrzne linki

Strona internetowa konkursu sponsorowanego przez Nuance Communications

Languages

In other projects