Nauka wzmacniania - Reinforcement learning

Wzmacnianie uczenia ( RL ) to obszar uczenia maszynowego dotyczący tego, jak inteligentni agenci powinni podejmować działania w środowisku, aby zmaksymalizować pojęcie skumulowanej nagrody. Uczenie ze wzmocnieniem jest jednym z trzech podstawowych paradygmatów uczenia maszynowego, obok uczenia nadzorowanego i uczenia nienadzorowanego .

Uczenie się przez wzmacnianie różni się od uczenia nadzorowanego brakiem konieczności przedstawiania oznaczonych par wejścia/wyjścia oraz brakiem konieczności wyraźnej korekty działań suboptymalnych. Zamiast tego skupiamy się na znalezieniu równowagi między eksploracją (niezbadane terytorium) a eksploatacją (obecnej wiedzy). Częściowo nadzorowane algorytmy RL mogą łączyć zalety algorytmów nadzorowanych i RL.

Środowisko jest zwykle określane w postaci procesu decyzyjnego Markowa (MDP), ponieważ wiele algorytmów uczenia się przez wzmacnianie dla tego kontekstu wykorzystuje techniki programowania dynamicznego . Główna różnica między klasycznymi metodami programowania dynamicznego a algorytmami uczenia przez wzmacnianie polega na tym, że te ostatnie nie zakładają znajomości dokładnego modelu matematycznego MDP i są ukierunkowane na duże MDP, w których dokładne metody stają się niewykonalne.

Wstęp

Typowe ramy scenariusza Wzmacniania uczenia (RL): agent podejmuje działania w środowisku, które są interpretowane jako nagroda i reprezentacja stanu, które są przekazywane agentowi.

Ze względu na swoją ogólność, uczenie zbrojenie jest badany w wielu dziedzinach, takich jak teoria gier , teorii sterowania , badań operacyjnych , teorii informacji , optymalizacji symulacji opartych , systemów wieloagentowych , inteligencji roju i statystyk . W literaturze dotyczącej badań operacyjnych i kontroli uczenie ze wzmacnianiem nazywa się przybliżonym programowaniem dynamicznym lub programowaniem neurodynamicznym. Problemy zainteresowania uczeniem ze wzmacnianiem były również badane w teorii sterowania optymalnego , która dotyczy głównie istnienia i charakteryzowania optymalnych rozwiązań i algorytmów ich dokładnego obliczania, a mniej uczenia się lub aproksymacji, szczególnie w przypadku braku matematyczny model środowiska. W ekonomii i teorii gier uczenie się przez wzmacnianie może być wykorzystane do wyjaśnienia, w jaki sposób równowaga może powstać przy ograniczonej racjonalności .

Zbrojenie podstawowe jest modelowane jako proces decyzyjny Markowa (MDP) :

zbiór stanów środowiska i agentów, $S$ ;
zestaw akcji $A$ agenta;
${\ Displaystyle P_ {a} (s, s') = \ Pr (s_ {t + 1} = s '\ mid s_ {t} = s, a_ {t} = a)}$ jest prawdopodobieństwem przejścia (w czasie ) ze stanu do stanu w trakcie działania . $t$ $s$ $s'$ $a$
${\ Displaystyle R_ {a} (s, s')}$ jest natychmiastową nagrodą po przejściu z do działania . $s$ $s'$ $a$

Celem uczenia się przez wzmocnienie jest nauczenie agenta optymalnej lub prawie optymalnej polityki, która maksymalizuje „funkcję nagrody” lub inny sygnał wzmacniający dostarczony przez użytkownika, który gromadzi się z natychmiastowych nagród. Jest to podobne do procesów, które wydają się zachodzić w psychologii zwierząt. Na przykład, biologiczne mózgi są zaprogramowane tak, aby interpretować sygnały, takie jak ból i głód, jako negatywne wzmocnienia, a przyjemność i przyjmowanie pokarmu interpretować jako pozytywne wzmocnienia. W niektórych okolicznościach zwierzęta mogą nauczyć się angażować w zachowania, które optymalizują te nagrody. Sugeruje to, że zwierzęta są zdolne do uczenia się przez wzmacnianie.

Podstawowa sztuczna inteligencja agenta uczenia się wzmacniającego wchodzi w interakcję z otoczeniem w dyskretnych krokach czasowych. Za każdym razem $t$ agent otrzymuje aktualny stan i nagrodę . Następnie wybiera akcję z zestawu dostępnych akcji, która jest następnie wysyłana do środowiska. Środowisko przechodzi do nowego stanu i określana jest nagroda związana z przejściem . Celem agenta wzmacniającego uczenie się jest nauczenie się polityki : , która maksymalizuje oczekiwaną skumulowaną nagrodę. $s_{t}$ $r_{t}$ $a_{t}$ $s_{t+1}$ $r_{t+1}$ ${\ Displaystyle (s_ {t}, a_ {t}, s_ {t + 1})}$ $\pi:A\razy S\rightarrow [0,1]$ ${\ Displaystyle \ pi (a, s) = \ Pr (a_ {t} = a \ mid s_ {t} = s)}$

Formułowanie problemu jako MDP zakłada, że agent bezpośrednio obserwuje aktualny stan środowiska; w tym przypadku mówi się, że problem jest w pełni obserwowalny . Jeśli agent ma dostęp tylko do podzbioru stanów lub jeśli obserwowane stany są zniekształcone przez szum, mówi się, że agent ma częściową obserwowalność i formalnie problem musi być sformułowany jako częściowo obserwowalny proces decyzyjny Markowa . W obu przypadkach zestaw akcji dostępnych dla agenta może być ograniczony. Na przykład stan salda konta może być ograniczony do dodatniego; jeśli bieżąca wartość stanu wynosi 3, a zmiana stanu próbuje zmniejszyć wartość o 4, przejście nie będzie dozwolone.

Gdy wydajność agenta jest porównywana z wydajnością agenta, który działa optymalnie, różnica w wydajności rodzi pojęcie żalu . Aby działać blisko optymalnie, agent musi uzasadnić długoterminowe konsekwencje swoich działań (tj. zmaksymalizować przyszły dochód), chociaż natychmiastowa nagroda związana z tym może być ujemna.

Tak więc uczenie się przez wzmacnianie jest szczególnie dobrze dopasowane do problemów, które obejmują długoterminową i krótkoterminową wymianę nagrody. Został z powodzeniem zastosowany do różnych problemów, w tym sterowania robotami , planowania wind, telekomunikacji , tryktraku , warcabów i Go ( AlphaGo ).

Dwa elementy sprawiają, że uczenie się przez wzmacnianie jest potężne: użycie próbek do optymalizacji wydajności i wykorzystanie aproksymacji funkcji do radzenia sobie z dużymi środowiskami. Dzięki tym dwóm kluczowym elementom uczenie się przez wzmacnianie może być stosowane w dużych środowiskach w następujących sytuacjach:

Model środowiska jest znany, ale rozwiązanie analityczne nie jest dostępne;
Podano jedynie symulacyjny model środowiska (przedmiot optymalizacji symulacyjnej );
Jedynym sposobem zbierania informacji o środowisku jest interakcja z nim.

Pierwsze dwa z tych problemów można uznać za problemy z planowaniem (ponieważ istnieje pewna forma modelu), podczas gdy ostatni z nich można uznać za prawdziwy problem związany z uczeniem się. Jednak uczenie ze wzmocnieniem przekształca oba problemy planowania w problemy z uczeniem maszynowym .

Badanie

Kompromis między eksploracją a eksploatacją został najdokładniej zbadany poprzez problem wielorękich bandytów oraz dla MDP w skończonej przestrzeni stanowej w Burnetas i Katehakis (1997).

Uczenie się przez wzmacnianie wymaga sprytnych mechanizmów eksploracji; losowe wybieranie działań, bez odniesienia do szacowanego rozkładu prawdopodobieństwa, wykazuje słabe wyniki. Przypadek (małych) skończonych procesów decyzyjnych Markowa jest stosunkowo dobrze poznany. Jednak ze względu na brak algorytmów, które dobrze skalują się z liczbą stanów (lub skalują do problemów z nieskończonymi przestrzeniami stanów), najbardziej praktyczne są proste metody eksploracji.

Jedną z takich metod jest -greedy, gdzie jest parametrem kontrolującym ilość poszukiwań vs. eksploatację. Z prawdopodobieństwem wybiera się wyzysk, a agent wybiera działanie, które jego zdaniem ma najlepszy długoterminowy efekt (powiązania między działaniami są łamane równomiernie losowo). Alternatywnie, z prawdopodobieństwem , wybiera się eksplorację, a akcja jest wybierana jednolicie losowo. jest zwykle ustalonym parametrem, ale można go dostosować zgodnie z harmonogramem (co powoduje, że agent coraz rzadziej eksploruje) lub adaptacyjnie w oparciu o heurystyki. $\varepsilon$ $0<\varepsilon <1$ ${\ Displaystyle 1-\ varepsilon }$ $\varepsilon$ $\varepsilon$

Algorytmy do nauki sterowania

Nawet jeśli kwestia eksploracji zostanie pominięta, a nawet jeśli stan był obserwowalny (zakładany w dalszej części), pozostaje problem wykorzystania przeszłych doświadczeń, aby dowiedzieć się, które działania prowadzą do wyższych skumulowanych nagród.

Kryterium optymalności

Polityka

Wybór akcji agenta jest modelowany jako mapa o nazwie policy :

\pi:A\razy S\rightarrow [0,1]

{\ Displaystyle \ pi (a, s) = \ Pr (a_ {t} = a \ mid s_ {t} = s)}

Mapa polityki podaje prawdopodobieństwo podjęcia działania w stanie . Istnieją również polityki deterministyczne. $a$ $s$

Funkcja wartości stanu

Funkcja wartości jest zdefiniowana jako oczekiwany zwrot rozpoczynający się od stanu , tj. i sukcesywnie zgodnie z polityką . Stąd, z grubsza mówiąc, funkcja wartości szacuje „jak dobrze” jest być w danym stanie. ${\ Displaystyle V_ {\ pi} (s)}$ $s$ $s_{0}=s$ $\pi$

{\ Displaystyle V_ {\ pi} (s) = \ operatorname {E} [R \ mid s_ {0}= s] = \ operatorname {E} \ lewo [\ suma _ {t = 0} ^ {\ infty} \gamma ^{t}r_{t}\mid s_{0}=s\right],}

gdzie zmienna losowa oznacza zwrot i jest zdefiniowana jako suma przyszłych zdyskontowanych nagród: ${\ Displaystyle R}$

{\ Displaystyle R = \ suma _ {t = 0} ^ {\ infty} \ gamma ^ {t} r_ {t}}

gdzie jest nagroda w kroku , to stopa dyskontowa . Gamma jest mniejsze niż 1, więc zdarzenia w odległej przyszłości są ważone mniej niż zdarzenia w najbliższej przyszłości. $r_{t}$ $t$ ${\ Displaystyle \ gamma \ w [0,1)}$

Algorytm musi znaleźć politykę z maksymalnym oczekiwanym zwrotem. Z teorii MDPs wiadomo, że bez utraty ogólności poszukiwania można ograniczyć do zbioru tzw. polityk stacjonarnych . Polityka jest nieruchoma, jeśli zwracana przez nią dystrybucja akcji zależy tylko od ostatniego odwiedzonego stanu (z historii agenta obserwacji). Wyszukiwanie można dodatkowo ograniczyć do deterministycznych polityk stacjonarnych. Deterministyczny stacjonarny polityka deterministycznie wybiera działań w oparciu o bieżący stan. Ponieważ każda taka polityka może być identyfikowana z mapowaniem ze zbioru stanów do zbioru działań, te polityki mogą być identyfikowane z takimi mapowaniami bez utraty ogólności.

Brutalna siła

Podejście brute force obejmuje dwa kroki:

Dla każdej możliwej polityki przykładowe zwroty podczas jej przestrzegania
Wybierz polisę z największym oczekiwanym zwrotem

Jednym z problemów jest to, że liczba polityk może być duża, a nawet nieskończona. Innym jest to, że wariancja zwrotów może być duża, co wymaga wielu próbek, aby dokładnie oszacować zwrot każdej polisy.

Problemy te można złagodzić, jeśli przyjmiemy pewną strukturę i pozwolimy, aby próbki wygenerowane z jednej polityki wpływały na szacunki dokonywane dla innych. Dwa główne podejścia do osiągnięcia tego to szacowanie funkcji wartości i bezpośrednie poszukiwanie polityki .

Funkcja wartości

Podejścia oparte na funkcji wartości próbują znaleźć politykę, która maksymalizuje zwrot, utrzymując zestaw oszacowań oczekiwanych zwrotów dla niektórych polityk (zwykle albo „bieżącej” [na polisie], albo optymalnej [poza polisą]).

Metody te opierają się na teorii procesów decyzyjnych Markowa, gdzie optymalność jest zdefiniowana w sensie silniejszym niż powyższy: Politykę nazywa się optymalną, jeśli osiąga najlepszy oczekiwany zwrot z dowolnego stanu początkowego (tj. rola w tej definicji). Ponownie, optymalną politykę zawsze można znaleźć wśród polityk stacjonarnych.

Aby zdefiniować optymalność w sposób formalny, zdefiniuj wartość polityki poprzez: $\pi$

{\ Displaystyle V ^ {\ pi} (s) = E [R \ mid s \ pi]}

gdzie oznacza zwrot związany z podążaniem ze stanu początkowego . Zdefiniowanie jako maksymalnej możliwej wartości , gdzie można zmienić, ${\ Displaystyle R}$ $\pi$ $s$ ${\ Displaystyle V ^ {*} (s)}$ ${\ Displaystyle V ^ {\ pi} (s)}$ $\pi$

{\ Displaystyle V ^ {*} (s) = \ max _ {\ pi} V ^ {\ pi} (s).}

Polityka, która osiąga te optymalne wartości w każdym stanie, nazywana jest optymalną . Oczywiście, polityka, która jest optymalna w tym silnym sensie, jest również optymalna w tym sensie, że maksymalizuje oczekiwany zwrot , ponieważ , gdzie jest stanem losowo próbkowanym z rozkładu stanów początkowych (tak ). ${\ Displaystyle \ rho ^ {\ pi}}$ ${\ Displaystyle \ rho ^ {\ pi} = E [V ^ {\ pi} (S)]}$ $S$ ${\ Displaystyle \ mu}$ ${\ Displaystyle \ mu (s) = \ Pr (s_ {0} = s)}$

Chociaż wartości stanu są wystarczające do zdefiniowania optymalności, warto zdefiniować wartości akcji. Biorąc pod uwagę stan , akcję i politykę , wartość akcji z pary w ramach jest zdefiniowana przez $s$ $a$ $\pi$ $(s,a)$ $\pi$

{\ Displaystyle Q ^ {\ pi } (s, a) = \ operatorname {E} [R \ mid s a \ pi] \,}

gdzie teraz oznacza losowy zwrot związany z pierwszym wykonaniem akcji w stanie, a następnie . ${\ Displaystyle R}$ $a$ $s$ $\pi$

Teoria MDPs głosi, że jeśli jest to polityka optymalna, działamy optymalnie (podejmujemy optymalne działanie) wybierając działanie o największej wartości w każdym stanie, . Funkcja wartość działania takiej optymalnej polityki ( ) nazywana jest optymalną funkcją wartość działania i jest powszechnie oznaczana przez . Podsumowując, sama wiedza o optymalnej funkcji wartość-działanie wystarczy, aby wiedzieć, jak działać optymalnie. ${\ Displaystyle \ pi ^ {*}}$ ${\ Displaystyle Q ^ {\ pi ^ {*}} (s \ cdot)}$ $s$ ${\ Displaystyle Q ^ {\ pi ^ {*}}}$ ${\ Displaystyle Q ^ {*}}$

Zakładając pełną znajomość MDP, dwa podstawowe podejścia do obliczania optymalnej funkcji wartość-działanie to iteracja wartości i iteracja polityki . Oba algorytmy obliczają sekwencję funkcji ( ), które są zbieżne do . Obliczanie tych funkcji obejmuje oczekiwania obliczeniowe w całej przestrzeni stanów, co jest niepraktyczne w przypadku wszystkich, z wyjątkiem najmniejszych (skończonych) MDP. W metodach uczenia ze wzmocnieniem oczekiwania są przybliżane przez uśrednianie na próbkach i przy użyciu technik aproksymacji funkcji, aby poradzić sobie z potrzebą reprezentowania funkcji wartości w dużych przestrzeniach stan-działanie. ${\ Displaystyle Q_ {k}}$ $k=0,1,2,\ldots$ ${\ Displaystyle Q ^ {*}}$

Metody Monte Carlo

Metody Monte Carlo można wykorzystać w algorytmie naśladującym iterację polityki. Iteracja polityki składa się z dwóch etapów: oceny polityki i doskonalenia polityki .

Monte Carlo jest używane na etapie oceny polityki. W tym kroku, przy założonej stacjonarnej, deterministycznej polityce , celem jest obliczenie wartości funkcji (lub dobrego ich przybliżenia) dla wszystkich par stan-akcja . Zakładając (dla uproszczenia), że MDP jest skończony, że dostępna jest wystarczająca ilość pamięci, aby pomieścić wartości akcji i że problem jest epizodyczny i po każdym epizodzie nowy zaczyna się od jakiegoś losowego stanu początkowego. Następnie można obliczyć oszacowanie wartości danej pary stan-akcja, uśredniając próbkowane zwroty, które powstały w czasie. Mając wystarczająco dużo czasu, procedura ta może w ten sposób skonstruować precyzyjne oszacowanie funkcji wartość-działania . Na tym kończy się opis etapu oceny zasad. $\pi$ ${\ Displaystyle Q ^ {\ pi } (s, a)}$ $(s,a)$ $(s,a)$ $(s,a)$ $Q$ ${\ Displaystyle Q ^ {\ pi }}$

Na etapie ulepszania polityki następna polityka jest uzyskiwana przez obliczenie zachłannej polityki w odniesieniu do : Biorąc pod uwagę stan , ta nowa polityka zwraca działanie, które maksymalizuje . W praktyce leniwa ocena może odroczyć obliczenia działań maksymalizujących wtedy, gdy są one potrzebne. $Q$ $s$ $Q(s,\cdot)$

Problemy z tą procedurą obejmują:

Procedura może poświęcać zbyt dużo czasu na ocenę nieoptymalnej polityki.
Wykorzystuje próbki nieefektywnie, ponieważ długa trajektoria poprawia oszacowanie tylko jednej pary stan-działanie, która rozpoczęła trajektorię.
Gdy zwroty wzdłuż trajektorii mają dużą wariancję , konwergencja jest powolna.
Działa tylko w epizodycznych problemach ;
Działa tylko w małych, skończonych MDP.

Metody różnic czasowych

Pierwszy problem został rozwiązany poprzez umożliwienie procedurze zmiany polityki (w niektórych lub wszystkich stanach) przed ustaleniem wartości. To również może być problematyczne, ponieważ może uniemożliwić konwergencję. Większość obecnych algorytmów to robi, co daje początek klasie algorytmów uogólnionej iteracji polityki . Do tej kategorii należy wiele metod aktorsko-krytycznych .

Drugi problem można rozwiązać, pozwalając trajektoriom przyczyniać się do dowolnej pary stan-działanie w nich. Może to również pomóc w pewnym stopniu w przypadku trzeciego problemu, chociaż lepszym rozwiązaniem, gdy zwroty mają dużą wariancję , są metody różnic czasowych (TD) Suttona, które są oparte na rekurencyjnym równaniu Bellmana . Obliczenia w metodach TD mogą być przyrostowe (gdy po każdym przejściu pamięć jest zmieniana i przejście jest wyrzucane) lub wsadowe (gdy przejścia są grupowane i szacunki są obliczane jednorazowo na podstawie wsadu). Metody wsadowe, takie jak metoda najmniejszych kwadratów różnic czasowych, mogą lepiej wykorzystywać informacje zawarte w próbkach, podczas gdy metody przyrostowe są jedynym wyborem, gdy metody wsadowe są niewykonalne ze względu na ich dużą złożoność obliczeniową lub złożoność pamięci. Niektóre metody próbują połączyć te dwa podejścia. Metody oparte na różnicach czasowych również przezwyciężają czwartą kwestię.

W celu rozwiązania piątego zagadnienia stosuje się metody aproksymacji funkcji . Aproksymacja funkcji liniowej rozpoczyna się od odwzorowania, które przypisuje skończenie wymiarowy wektor do każdej pary stan-akcja. Następnie wartości akcji pary stan-akcja są otrzymywane przez liniowe połączenie składowych z pewnymi wagami : $\phi$ $(s,a)$ $\phi (s,a)$ $\theta$

{\ Displaystyle Q (s, a) = \ suma _ {i = 1} ^ {d} \ theta _ {i} \ phi _ {i} (s, a).}

Algorytmy następnie dostosowują wagi, zamiast dostosowywać wartości skojarzone z poszczególnymi parami stan-akcja. Zbadano metody oparte na pomysłach ze statystyk nieparametrycznych (które można zaobserwować w celu konstruowania własnych cech).

Iteracja wartości może być również wykorzystana jako punkt wyjścia, dając początek algorytmowi Q-learning i jego wielu wariantom.

Problem z użyciem wartości działań polega na tym, że mogą one wymagać bardzo precyzyjnych oszacowań konkurujących wartości działań, które mogą być trudne do uzyskania, gdy zwroty są hałaśliwe, chociaż problem ten jest do pewnego stopnia łagodzony przez metody różnic czasowych. Stosowanie tak zwanej metody aproksymacji funkcji zgodnych narusza ogólność i wydajność. Inny problem specyficzny dla TD wynika z ich zależności od rekurencyjnego równania Bellmana. Większość metod TD ma tak zwany parametr, który może stale interpolować między metodami Monte Carlo, które nie opierają się na równaniach Bellmana, a podstawowymi metodami TD, które opierają się całkowicie na równaniach Bellmana. Może to być skuteczne w łagodzeniu tego problemu. ${\ Displaystyle \ lambda}$ ${\ Displaystyle (0 \ leq \ lambda \ leq 1)}$

Bezpośrednie wyszukiwanie zasad

Alternatywną metodą jest przeszukiwanie bezpośrednio (w pewnym podzbiorze) przestrzeni polityki, w którym to przypadku problem staje się przypadkiem optymalizacji stochastycznej . Dwa dostępne podejścia to metody gradientowe i bezgradientowe.

Metody oparte na gradientach (metody gradientu polityk ) zaczynają się od mapowania z przestrzeni skończenie wymiarowej (parametrowej) do przestrzeni polityk: biorąc pod uwagę wektor parametrów , oznaczmy politykę powiązaną z . Definiowanie funkcji wydajności poprzez $\theta$ $\pi_{\theta}$ $\theta$

{\ Displaystyle \ rho (\ theta) = \ rho ^ {\ pi _ {\ theta}}}

w łagodnych warunkach funkcja ta będzie różniczkowalna jako funkcja wektora parametrów . Gdyby gradient był znany, można by użyć gradientowego wznoszenia . Ponieważ wyrażenie analityczne dla gradientu nie jest dostępne, dostępne jest tylko zaszumione oszacowanie. Takie oszacowanie może być skonstruowane na wiele sposobów, dając początek algorytmom takim jak metoda REINFORCE Williamsa (znana jako metoda ilorazu wiarygodności w literaturze dotyczącej optymalizacji opartej na symulacjach ). Metody wyszukiwania polityki zostały wykorzystane w kontekście robotyki . Wiele metod wyszukiwania zasad może utknąć w optimach lokalnych (ponieważ są one oparte na wyszukiwaniu lokalnym ). $\theta$ ${\ Displaystyle \ rho}$

Duża klasa metod pozwala uniknąć polegania na informacjach o gradientach. Obejmują one symulowane wyżarzanie , przeszukiwanie entropii krzyżowej lub metody obliczeń ewolucyjnych . Wiele metod bezgradientowych może osiągnąć (teoretycznie iw granicach) globalne optimum.

Metody wyszukiwania zasad mogą powoli zbliżać się do siebie, biorąc pod uwagę zaszumione dane. Na przykład dzieje się tak w przypadku problemów epizodycznych, gdy trajektorie są długie, a wariancja zwrotów duża. W tym przypadku pomocne mogą być metody oparte na funkcjach wartości, które opierają się na różnicach czasowych. W ostatnich latach zaproponowano i sprawdziły się metody aktor-krytyka w różnych problemach.

Algorytmy oparte na modelu

Wreszcie wszystkie powyższe metody można połączyć z algorytmami, które najpierw uczą modelu. Na przykład algorytm Dyna uczy się modelu z doświadczenia i wykorzystuje go, aby zapewnić bardziej modelowane przejścia dla funkcji wartości, oprócz rzeczywistych przejść. Takie metody można czasem rozszerzyć na modele nieparametryczne, na przykład gdy przejścia są po prostu zapisywane i „odtwarzane” w algorytmie uczącym.

Istnieją inne sposoby używania modeli niż aktualizacja funkcji wartości. Na przykład w przypadku sterowania predykcyjnego modelu model jest używany do bezpośredniej aktualizacji zachowania.

Teoria

Zarówno asymptotyczne, jak i skończone próby większości algorytmów są dobrze poznane. Znane są algorytmy o udowodnionej dobrej wydajności online (rozwiązujące problem eksploracji).

Efektywną eksplorację MDPs podają Burnetas i Katehakis (1997). W przypadku wielu algorytmów pojawiły się również ograniczenia wydajności w czasie skończonym, ale oczekuje się, że ograniczenia te będą raczej luźne, a zatem potrzeba więcej pracy, aby lepiej zrozumieć względne zalety i ograniczenia.

W przypadku algorytmów przyrostowych rozwiązano kwestie zbieżności asymptotycznej. Algorytmy oparte na różnicach czasowych zbiegają się w szerszym zestawie warunków niż było to wcześniej możliwe (na przykład, gdy są używane z arbitralnym, płynnym aproksymacją funkcji).

Badania

Tematy badawcze obejmują

metody adaptacyjne, które działają z mniejszą liczbą (lub bez) parametrów w dużej liczbie warunków
rozwiązanie problemu poszukiwań w dużych MDP
kombinacje z frameworkami opartymi na logice
ewaluacje empiryczne na dużą skalę
uczenie się i działanie w oparciu o częściową informację (np. za pomocą predykcyjnej reprezentacji stanu )
modułowe i hierarchiczne uczenie się ze wzmocnieniem
doskonalenie istniejących metod poszukiwania funkcji wartości i polityki
algorytmy, które działają dobrze z dużymi (lub ciągłymi) przestrzeniami akcji
transferowe uczenie się
kształcenie ustawiczne
efektywne planowanie oparte na próbach (np. w oparciu o przeszukiwanie drzewa Monte Carlo ).
wykrywanie błędów w projektach oprogramowania
Motywacja wewnętrzna, która odróżnia zachowania związane z poszukiwaniem informacji i ciekawością od zachowań ukierunkowanych na cel (zazwyczaj) poprzez wprowadzenie funkcji nagrody opartej na maksymalizacji nowych informacji
Modelowanie poznawcze z wykorzystaniem uczenia się przez wzmacnianie jest aktywnie wykorzystywane w psychologii obliczeniowej
Interesującym tematem jest wieloagentowe lub rozproszone uczenie się ze wzmocnieniem. Aplikacje się rozwijają.
Uczenie się przez aktora i krytykę ze wzmocnieniem
Wzmacniające uczenie algorytmy takie jak TD nauki są przedmiotem dochodzenia jako model dla dopaminy -na uczenia się w mózgu. W tym modelu projekcje dopaminergiczne z istoty czarnej do jąder podstawnych funkcjonują jako błąd przewidywania. Uczenie się ze wzmocnieniem zostało wykorzystane jako część modelu uczenia się umiejętności człowieka, szczególnie w odniesieniu do interakcji między uczeniem niejawnym i jawnym w nabywaniu umiejętności (pierwsza publikacja na temat tego zastosowania miała miejsce w latach 1995-1996).
Kontrola zorientowana na pasażera
Handel algorytmiczny i optymalna egzekucja
Optymalizacja zasobów obliczeniowych

Porównanie algorytmów uczenia przez wzmacnianie

Algorytm	Opis	Polityka	Pole akcji	Przestrzeń stanowa	Operator
Monte Carlo	Każda wizyta w Monte Carlo	Albo	Oddzielny	Oddzielny	Próbki-środki
Q-learning	Stan–akcja–nagroda–stan	Poza polityką	Oddzielny	Oddzielny	Wartość Q
SARSA	Państwo-akcja-nagroda-stan-akcja	Na polisie	Oddzielny	Oddzielny	Wartość Q
Q-learning - Lambda	Stan-działanie-nagroda-stan ze śladami kwalifikowalności	Poza polityką	Oddzielny	Oddzielny	Wartość Q
SARSA - Lambda	Stan-akcja-nagroda-stan-akcja ze śladami kwalifikowalności	Na polisie	Oddzielny	Oddzielny	Wartość Q
DQN	Głęboka sieć Q	Poza polityką	Oddzielny	Ciągły	Wartość Q
DDPG	Głęboki deterministyczny gradient polityki	Poza polityką	Ciągły	Ciągły	Wartość Q
A3C	Algorytm aktor-krytyczny przewagi asynchronicznej	Na polisie	Ciągły	Ciągły	Korzyść
NAF	Q-Learning ze znormalizowanymi funkcjami przewagi	Poza polityką	Ciągły	Ciągły	Korzyść
TRPO	Optymalizacja polityki regionu zaufania	Na polisie	Ciągły	Ciągły	Korzyść
PPO	Proksymalna optymalizacja polityki	Na polisie	Ciągły	Ciągły	Korzyść
TD3	Podwójny opóźniony głęboki deterministyczny gradient polityki	Poza polityką	Ciągły	Ciągły	Wartość Q
WOREK	Miękki aktor-krytyk	Poza polityką	Ciągły	Ciągły	Korzyść

Uczenie się przez asocjacyjne wzmacnianie

Zadania uczenia się przez asocjacyjne wzmacnianie łączą aspekty stochastycznych zadań automatów uczenia się i nadzorowanych zadań klasyfikacji wzorców uczenia się. W zadaniach uczenia się z asocjacyjnym wzmocnieniem system uczący się współdziała w zamkniętej pętli z otoczeniem.

Głębokie uczenie wzmacniające

Podejście to rozszerza uczenie ze wzmacnianiem dzięki wykorzystaniu głębokiej sieci neuronowej i bez wyraźnego projektowania przestrzeni stanów. Prace nad nauką gier ATARI przez Google DeepMind zwróciły uwagę na głębokie uczenie ze wzmocnieniem lub uczenie ze wzmacnianiem od końca do końca .

Odwrotne uczenie ze wzmacnianiem

W odwrotnym uczeniu ze wzmocnieniem (IRL) nie podaje się funkcji nagrody. Zamiast tego funkcja nagrody jest wywnioskowana na podstawie zaobserwowanego zachowania eksperta. Chodzi o to, aby naśladować zaobserwowane zachowanie, które często jest optymalne lub bliskie optymalnemu.

Bezpieczna nauka wzmacniania

Safe Reinforcement Learning (SRL) można zdefiniować jako proces polityki uczenia się, który maksymalizuje oczekiwany zwrot w przypadku problemów, w których ważne jest zapewnienie rozsądnej wydajności systemu i/lub przestrzeganie ograniczeń bezpieczeństwa podczas procesu uczenia się i/lub wdrażania.

Częściowo nadzorowane uczenie się zbrojenia (PSRL)

W algorytmach PSRL zalety podejścia nadzorowanego i opartego na RL są synergicznie połączone. Na przykład polityka sterowania poznana przez podejście oparte na odwrotnej sieci ANN do sterowania systemem nieliniowym może zostać udoskonalona przy użyciu RL, unikając w ten sposób kosztów obliczeniowych ponoszonych przez rozpoczęcie od losowej polityki w tradycyjnym RL. Podejścia częściowo nadzorowane mogą złagodzić zapotrzebowanie na obszerne dane szkoleniowe w uczeniu nadzorowanym, jednocześnie zmniejszając potrzebę kosztownej, wyczerpującej eksploracji losowej w czystym RL.

Zobacz też

Bibliografia

Dalsza lektura

Auera, Piotra ; Jaksch, Tomasz; Ortner, Ronald (2010). „Prawie optymalne granice żalu dla uczenia się przez wzmacnianie” . Journal of Machine Learning Research . 11 : 1563-1600.
Busoniu, Lucian; Babuska, Robert; De Schutter, Bart ; Ernst, Damien (2010). Uczenie zbrojenia i programowanie dynamiczne z wykorzystaniem aproksymatorów funkcji . Taylor & Francis CRC Press. Numer ISBN 978-1-4398-2108-4.
François-Lavet, Vincent; Hendersona, Piotra; islam, Riaszat; Bellemare, Marc G.; Pineau, Joelle (2018). „Wprowadzenie do głębokiego uczenia się zbrojenia”. Podstawy i trendy w uczeniu maszynowym . 11 (3–4): 219–354. arXiv : 1811.12560 . Kod bib : 2018arXiv181112560F . doi : 10.1561/2200000071 . S2CID 54434537 .
Powell, Warren (2007). Przybliżone programowanie dynamiczne: rozwiązywanie przekleństw wymiarowości . Wiley-Interscience. Numer ISBN 978-0-470-17155-4.
Sutton, Richard S .; Barto, Andrew G. (2018). Nauka wzmacniania: wprowadzenie (2 wyd.). MIT Naciśnij. Numer ISBN 978-0-262-03924-6.
Sutton, Richard S. (1988). „Nauka przewidywania metodą różnic czasowych” . Uczenie maszynowe . 3 : 9–44. doi : 10.1007/BF00115009 .
Szita, Istvan; Szepesvari, Csaba (2010). „Uczenie się zbrojenia oparte na modelu z prawie ścisłymi granicami złożoności eksploracji” (PDF) . ICML 2010 . Omnipress. s. 1031–1038. Zarchiwizowane z oryginału (PDF) dnia 2010-07-14.

Zewnętrzne linki

Repozytorium uczenia się o wzmocnieniu
Wzmacnianie uczenia się i sztuczna inteligencja (RLAI, laboratorium Richa Suttona na Uniwersytecie Alberty )
Autonomous Learning Laboratory (ALL, laboratorium Andrew Barto na Uniwersytecie Massachusetts w Amherst )
Hybrydowe uczenie się ze wzmocnieniem
Eksperymenty uczenia się przez wzmacnianie w świecie rzeczywistym na Uniwersytecie Technologicznym w Delft
Wykład Andrew Ng na Uniwersytecie Stanforda na temat uczenia się przez wzmacnianie
Analiza postów na blogu z serii poświęconej wzmocnieniu na temat RL z kodem Pythona

Languages

In other projects