AlphaGo Zero — AlphaGo Zero

AlphaGo Zero to wersja DeepMind „s Go oprogramowania AlphaGo . Zespół AlphaGo opublikował artykuł w czasopiśmie Nature w dniu 19 października 2017 r., przedstawiając AlphaGo Zero, wersję stworzoną bez użycia danych z ludzkich gier i silniejszą niż jakakolwiek poprzednia wersja. Grając przeciwko sobie, AlphaGo Zero przewyższył siłę AlphaGo Lee w trzy dni, wygrywając 100 gier do 0, osiągnął poziom AlphaGo Master w 21 dni i przekroczył wszystkie stare wersje w 40 dni.

Szkolenie sztucznej inteligencji (AI) bez zbiorów danych pochodzących od ludzkich ekspertów ma znaczące implikacje dla rozwoju sztucznej inteligencji z nadludzkimi umiejętnościami, ponieważ dane eksperckie są „często drogie, niewiarygodne lub po prostu niedostępne”. Demis Hassabis , współzałożyciel i dyrektor generalny DeepMind, powiedział, że AlphaGo Zero jest tak potężny, ponieważ „nie jest już ograniczony ograniczeniami ludzkiej wiedzy”. Co więcej, AlphaGo Zero działał lepiej niż standardowe modele głębokiego uczenia ze wzmocnieniem (takie jak implementacje DQN) dzięki integracji wyszukiwania drzewa Monte Carlo. David Silver , jeden z pierwszych autorów artykułów DeepMind opublikowanych w Nature na AlphaGo, powiedział, że możliwe jest uogólnienie algorytmów AI poprzez wyeliminowanie potrzeby uczenia się od ludzi.

Później Google opracował AlphaZero , uogólnioną wersję AlphaGo Zero, która oprócz Go może grać w szachy i Shōgi . W grudniu 2017 r. AlphaZero pokonało 3-dniową wersję AlphaGo Zero, wygrywając 60 do 40 gier, a po 8 godzinach treningu przewyższyło AlphaGo Lee w skali Elo . AlphaZero pokonał również najlepszy program szachowy ( Stockfish ) i najlepszy program Shōgi ( Elmo ).

Szkolenie

Sieć neuronowa AlphaGo Zero została przeszkolona przy użyciu TensorFlow , z 64 pracownikami GPU i 19 serwerami parametrów procesora. Do wnioskowania użyto tylko czterech TPU . Sieć neuronowa początkowo nie wiedziała nic o Go poza regułami . W przeciwieństwie do wcześniejszych wersji AlphaGo, Zero postrzegało tylko kamienie planszy, zamiast mieć kilka rzadkich, zaprogramowanych przez człowieka przypadków brzegowych, aby pomóc rozpoznać nietypowe pozycje planszy Go. Sztuczna inteligencja zaangażowała się w uczenie się przez wzmacnianie , grając przeciwko sobie, aż będzie mogła przewidzieć własne ruchy i sposób, w jaki te ruchy wpłyną na wynik gry. W ciągu pierwszych trzech dni AlphaGo Zero rozegrał 4,9 miliona gier przeciwko sobie w krótkich odstępach czasu. Wydawało się, że rozwinął umiejętności wymagane do pokonania najlepszych ludzi w ciągu zaledwie kilku dni, podczas gdy wcześniejszy AlphaGo wymagał miesięcy treningu, aby osiągnąć ten sam poziom.

Dla porównania, naukowcy przeszkolili również wersję AlphaGo Zero przy użyciu ludzkich gier, AlphaGo Master, i odkryli, że uczyła się szybciej, ale w rzeczywistości radziła sobie gorzej na dłuższą metę. DeepMind przedstawił swoje wstępne wyniki w dokumencie Nature w kwietniu 2017 r., który został następnie opublikowany w październiku 2017 r.

Koszt sprzętu

Koszt sprzętu dla pojedynczego systemu AlphaGo Zero w 2017 roku, w tym czterech TPU, wyniósł około 25 milionów dolarów.

Aplikacje

Według Hassabisa algorytmy AlphaGo prawdopodobnie przyniosą największe korzyści domenom, które wymagają inteligentnego przeszukiwania ogromnej przestrzeni możliwości, takich jak fałdowanie białek (patrz AlphaFold ) lub dokładne symulowanie reakcji chemicznych. Techniki AlphaGo są prawdopodobnie mniej przydatne w dziedzinach trudnych do symulacji, takich jak nauka prowadzenia samochodu. DeepMind stwierdził w październiku 2017 r., że rozpoczął już aktywne prace nad próbą wykorzystania technologii AlphaGo Zero do fałdowania białek i stwierdził, że wkrótce opublikuje nowe odkrycia.

Przyjęcie

AlphaGo Zero był powszechnie uważany za znaczący postęp, nawet w porównaniu z jego przełomowym poprzednikiem, AlphaGo. Oren Etzioni z Allen Institute for Artificial Intelligence nazwał AlphaGo Zero „bardzo imponującym wynikiem technicznym” w „zarówno ich zdolności do robienia tego – jak i zdolności do trenowania systemu w 40 dni na czterech TPU”. The Guardian nazwał to „wielkim przełomem dla sztucznej inteligencji”, powołując się na Eleni Vasilaki z Sheffield University i Toma Mitchella z Carnegie Mellon University , którzy nazwali to odpowiednio imponującym wyczynem i „wybitnym osiągnięciem inżynieryjnym”. Mark Pesce z Uniwersytetu w Sydney zawołał AlphaGo Zero „duży postęp technologiczny” zabierający nas na „nieodkryte terytorium”.

Gary Marcus , psycholog z New York University , ostrzegł, że z tego co wiemy, AlphaGo może zawierać „ukrytą wiedzę, jaką mają programiści na temat tego, jak konstruować maszyny do rozwiązywania problemów takich jak Go” i będzie musiała zostać przetestowana w innych dziedzinach, zanim zostanie uruchomiona. pewien, że jego podstawowa architektura jest skuteczna w znacznie więcej niż graniu w Go. W przeciwieństwie do tego, DeepMind jest przekonany, że to podejście można uogólnić na dużą liczbę domen.

W odpowiedzi na doniesienia, południowokoreański profesjonalista Go, Lee Sedol, powiedział: „Poprzednia wersja AlphaGo nie była idealna i uważam, że właśnie dlatego powstał AlphaGo Zero”. Jeśli chodzi o potencjał rozwoju AlphaGo, Lee powiedział, że będzie musiał poczekać i zobaczyć, ale powiedział również, że wpłynie to na młodych graczy Go. Mok Jin-seok , który kieruje południowokoreańską reprezentacją Go, powiedział, że świat Go już naśladuje style gry z poprzednich wersji AlphaGo i tworzy z nich nowe pomysły, i ma nadzieję, że nowe pomysły wyjdą z AlphaGo Zero . Mok dodał również, że ogólne trendy w świecie Go są teraz pod wpływem stylu gry AlphaGo. „Na początku trudno było to zrozumieć i prawie czułem się, jakbym grał przeciwko obcemu. Jednak mając duże doświadczenie, przyzwyczaiłem się do tego” – powiedział Mok. „Przeszliśmy już przez punkt, w którym dyskutujemy o przepaści między możliwościami AlphaGo a ludźmi. To jest teraz między komputerami”. Mok podobno już zaczął analizować styl gry AlphaGo Zero wraz z zawodnikami reprezentacji narodowej. „Chociaż po obejrzeniu zaledwie kilku meczów odnieśliśmy wrażenie, że AlphaGo Zero gra bardziej jak człowiek niż jego poprzednicy” – powiedział Mok. Chiński profesjonalista Go, Ke Jie, skomentował niezwykłe osiągnięcia nowego programu: „AlphaGo samouczący się jest najsilniejszy. Ludzie wydają się niepotrzebni w obliczu samodoskonalenia”.

Porównanie z poprzednikami

Konfiguracja i siła
Wersje	Sprzęt do grania	Ocena Elo	mecze
Wentylator AlphaGo	176 procesorów graficznych , rozproszonych	3144	5:0 przeciwko Fan Hui
AlphaGo Lee	48 TPU , rozproszone	3739	4:1 przeciwko Lee Sedolowi
Mistrz AlphaGo	4 TPU, pojedyncza maszyna	4,858	60:0 przeciwko profesjonalnym graczom; Przyszłość Go Summit
AlphaGo Zero (40 dni)	4 TPU, pojedyncza maszyna	5185	100:0 przeciwko AlphaGo Lee 89:11 przeciwko AlphaGo Master
AlphaZero (34 godziny)	4 TPU, pojedyncza maszyna	4430 (szac.)	60:40 przeciwko 3-dniowemu AlphaGo Zero

AlfaZero

5 grudnia 2017 r. zespół DeepMind opublikował wstępny wydruk na arXiv , wprowadzając AlphaZero, program wykorzystujący uogólnione podejście AlphaGo Zero, który osiągnął w ciągu 24 godzin nadludzki poziom gry w szachy , shogi i Go , pokonując programy mistrzów świata, Stockfisha , Elmo oraz 3-dniowa wersja AlphaGo Zero w każdym przypadku.

AlphaZero (AZ) jest bardziej uogólnioną odmianą algorytmu AlphaGo Zero (AGZ) i jest w stanie grać w shogi i szachy, a także w Go. Różnice między AZ i AGZ obejmują:

AZ ma ustalone zasady ustawiania hiperparametrów wyszukiwania .
Sieć neuronowa jest teraz stale aktualizowana.
Szachy (w przeciwieństwie do Go) mogą zakończyć się remisem; dlatego AZ może wziąć pod uwagę możliwość remisu.

Dostępny jest program open source , Leela Zero , oparty na pomysłach z artykułów AlphaGo. Wykorzystuje procesor graficzny zamiast TPU, na którym opierają się najnowsze wersje AlphaGo.

Bibliografia

Linki zewnętrzne i dalsze czytanie

Blog AlphaGo
Singh, S.; Okun, A.; Jackson, A. (2017). "AOP" . Natura . 550 (7676): 336-337. Kod Bibcode : 2017Natur.550..336S . doi : 10.1038/550336a . PMID 29052631 . S2CID 4447445 .
Srebro, Dawidzie; Schrittwieser, Julian; Simonyan, Karen; Antonoglou, Ioannis; Huang, Aja; Guez, Artur; Hubert, Tomasz; Piekarz, Lucas; Lai, Mateusz; Bolton, Adrian; Chen, Yutian; Lillicrap, Tymoteusz; Hui, wentylator; Sifre, Laurent; Van Den Driessche, George; Graepel, Thore; Hassabis, Demis (2017). „Opanowanie gry w Go bez ludzkiej wiedzy” (PDF) . Natura . 550 (7676): 354-359. Kod Bibcode : 2017Natur.550..354S . doi : 10.1038/nature24270 . PMID 29052630 . S2CID 205261034 .
Gry AlphaGo Zero
AMA na Reddicie

Languages

In other projects