Nauka wzmacniania - Reinforcement learning

Wzmacnianie uczenia ( RL ) to obszar uczenia maszynowego dotyczący tego, jak inteligentni agenci powinni podejmować działania w środowisku, aby zmaksymalizować pojęcie skumulowanej nagrody. Uczenie ze wzmocnieniem jest jednym z trzech podstawowych paradygmatów uczenia maszynowego, obok uczenia nadzorowanego i uczenia nienadzorowanego .

Uczenie się przez wzmacnianie różni się od uczenia nadzorowanego brakiem konieczności przedstawiania oznaczonych par wejścia/wyjścia oraz brakiem konieczności wyraźnej korekty działań suboptymalnych. Zamiast tego skupiamy się na znalezieniu równowagi między eksploracją (niezbadane terytorium) a eksploatacją (obecnej wiedzy). Częściowo nadzorowane algorytmy RL mogą łączyć zalety algorytmów nadzorowanych i RL.

Środowisko jest zwykle określane w postaci procesu decyzyjnego Markowa (MDP), ponieważ wiele algorytmów uczenia się przez wzmacnianie dla tego kontekstu wykorzystuje techniki programowania dynamicznego . Główna różnica między klasycznymi metodami programowania dynamicznego a algorytmami uczenia przez wzmacnianie polega na tym, że te ostatnie nie zakładają znajomości dokładnego modelu matematycznego MDP i są ukierunkowane na duże MDP, w których dokładne metody stają się niewykonalne.

Wstęp

Typowe ramy scenariusza Wzmacniania uczenia (RL): agent podejmuje działania w środowisku, które są interpretowane jako nagroda i reprezentacja stanu, które są przekazywane agentowi.

Ze względu na swoją ogólność, uczenie zbrojenie jest badany w wielu dziedzinach, takich jak teoria gier , teorii sterowania , badań operacyjnych , teorii informacji , optymalizacji symulacji opartych , systemów wieloagentowych , inteligencji roju i statystyk . W literaturze dotyczącej badań operacyjnych i kontroli uczenie ze wzmacnianiem nazywa się przybliżonym programowaniem dynamicznym lub programowaniem neurodynamicznym. Problemy zainteresowania uczeniem ze wzmacnianiem były również badane w teorii sterowania optymalnego , która dotyczy głównie istnienia i charakteryzowania optymalnych rozwiązań i algorytmów ich dokładnego obliczania, a mniej uczenia się lub aproksymacji, szczególnie w przypadku braku matematyczny model środowiska. W ekonomii i teorii gier uczenie się przez wzmacnianie może być wykorzystane do wyjaśnienia, w jaki sposób równowaga może powstać przy ograniczonej racjonalności .

Zbrojenie podstawowe jest modelowane jako proces decyzyjny Markowa (MDP) :

  • zbiór stanów środowiska i agentów, S ;
  • zestaw akcji A agenta;
  • jest prawdopodobieństwem przejścia (w czasie ) ze stanu do stanu w trakcie działania .
  • jest natychmiastową nagrodą po przejściu z do działania .

Celem uczenia się przez wzmocnienie jest nauczenie agenta optymalnej lub prawie optymalnej polityki, która maksymalizuje „funkcję nagrody” lub inny sygnał wzmacniający dostarczony przez użytkownika, który gromadzi się z natychmiastowych nagród. Jest to podobne do procesów, które wydają się zachodzić w psychologii zwierząt. Na przykład, biologiczne mózgi są zaprogramowane tak, aby interpretować sygnały, takie jak ból i głód, jako negatywne wzmocnienia, a przyjemność i przyjmowanie pokarmu interpretować jako pozytywne wzmocnienia. W niektórych okolicznościach zwierzęta mogą nauczyć się angażować w zachowania, które optymalizują te nagrody. Sugeruje to, że zwierzęta są zdolne do uczenia się przez wzmacnianie.

Podstawowa sztuczna inteligencja agenta uczenia się wzmacniającego wchodzi w interakcję z otoczeniem w dyskretnych krokach czasowych. Za każdym razem t agent otrzymuje aktualny stan i nagrodę . Następnie wybiera akcję z zestawu dostępnych akcji, która jest następnie wysyłana do środowiska. Środowisko przechodzi do nowego stanu i określana jest nagroda związana z przejściem . Celem agenta wzmacniającego uczenie się jest nauczenie się polityki : , która maksymalizuje oczekiwaną skumulowaną nagrodę.

Formułowanie problemu jako MDP zakłada, że ​​agent bezpośrednio obserwuje aktualny stan środowiska; w tym przypadku mówi się, że problem jest w pełni obserwowalny . Jeśli agent ma dostęp tylko do podzbioru stanów lub jeśli obserwowane stany są zniekształcone przez szum, mówi się, że agent ma częściową obserwowalność i formalnie problem musi być sformułowany jako częściowo obserwowalny proces decyzyjny Markowa . W obu przypadkach zestaw akcji dostępnych dla agenta może być ograniczony. Na przykład stan salda konta może być ograniczony do dodatniego; jeśli bieżąca wartość stanu wynosi 3, a zmiana stanu próbuje zmniejszyć wartość o 4, przejście nie będzie dozwolone.

Gdy wydajność agenta jest porównywana z wydajnością agenta, który działa optymalnie, różnica w wydajności rodzi pojęcie żalu . Aby działać blisko optymalnie, agent musi uzasadnić długoterminowe konsekwencje swoich działań (tj. zmaksymalizować przyszły dochód), chociaż natychmiastowa nagroda związana z tym może być ujemna.

Tak więc uczenie się przez wzmacnianie jest szczególnie dobrze dopasowane do problemów, które obejmują długoterminową i krótkoterminową wymianę nagrody. Został z powodzeniem zastosowany do różnych problemów, w tym sterowania robotami , planowania wind, telekomunikacji , tryktraku , warcabów i Go ( AlphaGo ).

Dwa elementy sprawiają, że uczenie się przez wzmacnianie jest potężne: użycie próbek do optymalizacji wydajności i wykorzystanie aproksymacji funkcji do radzenia sobie z dużymi środowiskami. Dzięki tym dwóm kluczowym elementom uczenie się przez wzmacnianie może być stosowane w dużych środowiskach w następujących sytuacjach:

Pierwsze dwa z tych problemów można uznać za problemy z planowaniem (ponieważ istnieje pewna forma modelu), podczas gdy ostatni z nich można uznać za prawdziwy problem związany z uczeniem się. Jednak uczenie ze wzmocnieniem przekształca oba problemy planowania w problemy z uczeniem maszynowym .

Badanie

Kompromis między eksploracją a eksploatacją został najdokładniej zbadany poprzez problem wielorękich bandytów oraz dla MDP w skończonej przestrzeni stanowej w Burnetas i Katehakis (1997).

Uczenie się przez wzmacnianie wymaga sprytnych mechanizmów eksploracji; losowe wybieranie działań, bez odniesienia do szacowanego rozkładu prawdopodobieństwa, wykazuje słabe wyniki. Przypadek (małych) skończonych procesów decyzyjnych Markowa jest stosunkowo dobrze poznany. Jednak ze względu na brak algorytmów, które dobrze skalują się z liczbą stanów (lub skalują do problemów z nieskończonymi przestrzeniami stanów), najbardziej praktyczne są proste metody eksploracji.

Jedną z takich metod jest -greedy, gdzie jest parametrem kontrolującym ilość poszukiwań vs. eksploatację. Z prawdopodobieństwem wybiera się wyzysk, a agent wybiera działanie, które jego zdaniem ma najlepszy długoterminowy efekt (powiązania między działaniami są łamane równomiernie losowo). Alternatywnie, z prawdopodobieństwem , wybiera się eksplorację, a akcja jest wybierana jednolicie losowo. jest zwykle ustalonym parametrem, ale można go dostosować zgodnie z harmonogramem (co powoduje, że agent coraz rzadziej eksploruje) lub adaptacyjnie w oparciu o heurystyki.

Algorytmy do nauki sterowania

Nawet jeśli kwestia eksploracji zostanie pominięta, a nawet jeśli stan był obserwowalny (zakładany w dalszej części), pozostaje problem wykorzystania przeszłych doświadczeń, aby dowiedzieć się, które działania prowadzą do wyższych skumulowanych nagród.

Kryterium optymalności

Polityka

Wybór akcji agenta jest modelowany jako mapa o nazwie policy :

Mapa polityki podaje prawdopodobieństwo podjęcia działania w stanie . Istnieją również polityki deterministyczne.

Funkcja wartości stanu

Funkcja wartości jest zdefiniowana jako oczekiwany zwrot rozpoczynający się od stanu , tj. i sukcesywnie zgodnie z polityką . Stąd, z grubsza mówiąc, funkcja wartości szacuje „jak dobrze” jest być w danym stanie.

gdzie zmienna losowa oznacza zwrot i jest zdefiniowana jako suma przyszłych zdyskontowanych nagród:

gdzie jest nagroda w kroku , to stopa dyskontowa . Gamma jest mniejsze niż 1, więc zdarzenia w odległej przyszłości są ważone mniej niż zdarzenia w najbliższej przyszłości.

Algorytm musi znaleźć politykę z maksymalnym oczekiwanym zwrotem. Z teorii MDPs wiadomo, że bez utraty ogólności poszukiwania można ograniczyć do zbioru tzw. polityk stacjonarnych . Polityka jest nieruchoma, jeśli zwracana przez nią dystrybucja akcji zależy tylko od ostatniego odwiedzonego stanu (z historii agenta obserwacji). Wyszukiwanie można dodatkowo ograniczyć do deterministycznych polityk stacjonarnych. Deterministyczny stacjonarny polityka deterministycznie wybiera działań w oparciu o bieżący stan. Ponieważ każda taka polityka może być identyfikowana z mapowaniem ze zbioru stanów do zbioru działań, te polityki mogą być identyfikowane z takimi mapowaniami bez utraty ogólności.

Brutalna siła

Podejście brute force obejmuje dwa kroki:

  • Dla każdej możliwej polityki przykładowe zwroty podczas jej przestrzegania
  • Wybierz polisę z największym oczekiwanym zwrotem

Jednym z problemów jest to, że liczba polityk może być duża, a nawet nieskończona. Innym jest to, że wariancja zwrotów może być duża, co wymaga wielu próbek, aby dokładnie oszacować zwrot każdej polisy.

Problemy te można złagodzić, jeśli przyjmiemy pewną strukturę i pozwolimy, aby próbki wygenerowane z jednej polityki wpływały na szacunki dokonywane dla innych. Dwa główne podejścia do osiągnięcia tego to szacowanie funkcji wartości i bezpośrednie poszukiwanie polityki .

Funkcja wartości

Podejścia oparte na funkcji wartości próbują znaleźć politykę, która maksymalizuje zwrot, utrzymując zestaw oszacowań oczekiwanych zwrotów dla niektórych polityk (zwykle albo „bieżącej” [na polisie], albo optymalnej [poza polisą]).

Metody te opierają się na teorii procesów decyzyjnych Markowa, gdzie optymalność jest zdefiniowana w sensie silniejszym niż powyższy: Politykę nazywa się optymalną, jeśli osiąga najlepszy oczekiwany zwrot z dowolnego stanu początkowego (tj. rola w tej definicji). Ponownie, optymalną politykę zawsze można znaleźć wśród polityk stacjonarnych.

Aby zdefiniować optymalność w sposób formalny, zdefiniuj wartość polityki poprzez:

gdzie oznacza zwrot związany z podążaniem ze stanu początkowego . Zdefiniowanie jako maksymalnej możliwej wartości , gdzie można zmienić,

Polityka, która osiąga te optymalne wartości w każdym stanie, nazywana jest optymalną . Oczywiście, polityka, która jest optymalna w tym silnym sensie, jest również optymalna w tym sensie, że maksymalizuje oczekiwany zwrot , ponieważ , gdzie jest stanem losowo próbkowanym z rozkładu stanów początkowych (tak ).

Chociaż wartości stanu są wystarczające do zdefiniowania optymalności, warto zdefiniować wartości akcji. Biorąc pod uwagę stan , akcję i politykę , wartość akcji z pary w ramach jest zdefiniowana przez

gdzie teraz oznacza losowy zwrot związany z pierwszym wykonaniem akcji w stanie, a następnie .

Teoria MDPs głosi, że jeśli jest to polityka optymalna, działamy optymalnie (podejmujemy optymalne działanie) wybierając działanie o największej wartości w każdym stanie, . Funkcja wartość działania takiej optymalnej polityki ( ) nazywana jest optymalną funkcją wartość działania i jest powszechnie oznaczana przez . Podsumowując, sama wiedza o optymalnej funkcji wartość-działanie wystarczy, aby wiedzieć, jak działać optymalnie.

Zakładając pełną znajomość MDP, dwa podstawowe podejścia do obliczania optymalnej funkcji wartość-działanie to iteracja wartości i iteracja polityki . Oba algorytmy obliczają sekwencję funkcji ( ), które są zbieżne do . Obliczanie tych funkcji obejmuje oczekiwania obliczeniowe w całej przestrzeni stanów, co jest niepraktyczne w przypadku wszystkich, z wyjątkiem najmniejszych (skończonych) MDP. W metodach uczenia ze wzmocnieniem oczekiwania są przybliżane przez uśrednianie na próbkach i przy użyciu technik aproksymacji funkcji, aby poradzić sobie z potrzebą reprezentowania funkcji wartości w dużych przestrzeniach stan-działanie.

Metody Monte Carlo

Metody Monte Carlo można wykorzystać w algorytmie naśladującym iterację polityki. Iteracja polityki składa się z dwóch etapów: oceny polityki i doskonalenia polityki .

Monte Carlo jest używane na etapie oceny polityki. W tym kroku, przy założonej stacjonarnej, deterministycznej polityce , celem jest obliczenie wartości funkcji (lub dobrego ich przybliżenia) dla wszystkich par stan-akcja . Zakładając (dla uproszczenia), że MDP jest skończony, że dostępna jest wystarczająca ilość pamięci, aby pomieścić wartości akcji i że problem jest epizodyczny i po każdym epizodzie nowy zaczyna się od jakiegoś losowego stanu początkowego. Następnie można obliczyć oszacowanie wartości danej pary stan-akcja, uśredniając próbkowane zwroty, które powstały w czasie. Mając wystarczająco dużo czasu, procedura ta może w ten sposób skonstruować precyzyjne oszacowanie funkcji wartość-działania . Na tym kończy się opis etapu oceny zasad.

Na etapie ulepszania polityki następna polityka jest uzyskiwana przez obliczenie zachłannej polityki w odniesieniu do : Biorąc pod uwagę stan , ta nowa polityka zwraca działanie, które maksymalizuje . W praktyce leniwa ocena może odroczyć obliczenia działań maksymalizujących wtedy, gdy są one potrzebne.

Problemy z tą procedurą obejmują:

  • Procedura może poświęcać zbyt dużo czasu na ocenę nieoptymalnej polityki.
  • Wykorzystuje próbki nieefektywnie, ponieważ długa trajektoria poprawia oszacowanie tylko jednej pary stan-działanie, która rozpoczęła trajektorię.
  • Gdy zwroty wzdłuż trajektorii mają dużą wariancję , konwergencja jest powolna.
  • Działa tylko w epizodycznych problemach ;
  • Działa tylko w małych, skończonych MDP.

Metody różnic czasowych

Pierwszy problem został rozwiązany poprzez umożliwienie procedurze zmiany polityki (w niektórych lub wszystkich stanach) przed ustaleniem wartości. To również może być problematyczne, ponieważ może uniemożliwić konwergencję. Większość obecnych algorytmów to robi, co daje początek klasie algorytmów uogólnionej iteracji polityki . Do tej kategorii należy wiele metod aktorsko-krytycznych .

Drugi problem można rozwiązać, pozwalając trajektoriom przyczyniać się do dowolnej pary stan-działanie w nich. Może to również pomóc w pewnym stopniu w przypadku trzeciego problemu, chociaż lepszym rozwiązaniem, gdy zwroty mają dużą wariancję , są metody różnic czasowych (TD) Suttona, które są oparte na rekurencyjnym równaniu Bellmana . Obliczenia w metodach TD mogą być przyrostowe (gdy po każdym przejściu pamięć jest zmieniana i przejście jest wyrzucane) lub wsadowe (gdy przejścia są grupowane i szacunki są obliczane jednorazowo na podstawie wsadu). Metody wsadowe, takie jak metoda najmniejszych kwadratów różnic czasowych, mogą lepiej wykorzystywać informacje zawarte w próbkach, podczas gdy metody przyrostowe są jedynym wyborem, gdy metody wsadowe są niewykonalne ze względu na ich dużą złożoność obliczeniową lub złożoność pamięci. Niektóre metody próbują połączyć te dwa podejścia. Metody oparte na różnicach czasowych również przezwyciężają czwartą kwestię.

W celu rozwiązania piątego zagadnienia stosuje się metody aproksymacji funkcji . Aproksymacja funkcji liniowej rozpoczyna się od odwzorowania, które przypisuje skończenie wymiarowy wektor do każdej pary stan-akcja. Następnie wartości akcji pary stan-akcja są otrzymywane przez liniowe połączenie składowych z pewnymi wagami :

Algorytmy następnie dostosowują wagi, zamiast dostosowywać wartości skojarzone z poszczególnymi parami stan-akcja. Zbadano metody oparte na pomysłach ze statystyk nieparametrycznych (które można zaobserwować w celu konstruowania własnych cech).

Iteracja wartości może być również wykorzystana jako punkt wyjścia, dając początek algorytmowi Q-learning i jego wielu wariantom.

Problem z użyciem wartości działań polega na tym, że mogą one wymagać bardzo precyzyjnych oszacowań konkurujących wartości działań, które mogą być trudne do uzyskania, gdy zwroty są hałaśliwe, chociaż problem ten jest do pewnego stopnia łagodzony przez metody różnic czasowych. Stosowanie tak zwanej metody aproksymacji funkcji zgodnych narusza ogólność i wydajność. Inny problem specyficzny dla TD wynika z ich zależności od rekurencyjnego równania Bellmana. Większość metod TD ma tak zwany parametr, który może stale interpolować między metodami Monte Carlo, które nie opierają się na równaniach Bellmana, a podstawowymi metodami TD, które opierają się całkowicie na równaniach Bellmana. Może to być skuteczne w łagodzeniu tego problemu.

Bezpośrednie wyszukiwanie zasad

Alternatywną metodą jest przeszukiwanie bezpośrednio (w pewnym podzbiorze) przestrzeni polityki, w którym to przypadku problem staje się przypadkiem optymalizacji stochastycznej . Dwa dostępne podejścia to metody gradientowe i bezgradientowe.

Metody oparte na gradientach (metody gradientu polityk ) zaczynają się od mapowania z przestrzeni skończenie wymiarowej (parametrowej) do przestrzeni polityk: biorąc pod uwagę wektor parametrów , oznaczmy politykę powiązaną z . Definiowanie funkcji wydajności poprzez

w łagodnych warunkach funkcja ta będzie różniczkowalna jako funkcja wektora parametrów . Gdyby gradient był znany, można by użyć gradientowego wznoszenia . Ponieważ wyrażenie analityczne dla gradientu nie jest dostępne, dostępne jest tylko zaszumione oszacowanie. Takie oszacowanie może być skonstruowane na wiele sposobów, dając początek algorytmom takim jak metoda REINFORCE Williamsa (znana jako metoda ilorazu wiarygodności w literaturze dotyczącej optymalizacji opartej na symulacjach ). Metody wyszukiwania polityki zostały wykorzystane w kontekście robotyki . Wiele metod wyszukiwania zasad może utknąć w optimach lokalnych (ponieważ są one oparte na wyszukiwaniu lokalnym ).

Duża klasa metod pozwala uniknąć polegania na informacjach o gradientach. Obejmują one symulowane wyżarzanie , przeszukiwanie entropii krzyżowej lub metody obliczeń ewolucyjnych . Wiele metod bezgradientowych może osiągnąć (teoretycznie iw granicach) globalne optimum.

Metody wyszukiwania zasad mogą powoli zbliżać się do siebie, biorąc pod uwagę zaszumione dane. Na przykład dzieje się tak w przypadku problemów epizodycznych, gdy trajektorie są długie, a wariancja zwrotów duża. W tym przypadku pomocne mogą być metody oparte na funkcjach wartości, które opierają się na różnicach czasowych. W ostatnich latach zaproponowano i sprawdziły się metody aktor-krytyka w różnych problemach.

Algorytmy oparte na modelu

Wreszcie wszystkie powyższe metody można połączyć z algorytmami, które najpierw uczą modelu. Na przykład algorytm Dyna uczy się modelu z doświadczenia i wykorzystuje go, aby zapewnić bardziej modelowane przejścia dla funkcji wartości, oprócz rzeczywistych przejść. Takie metody można czasem rozszerzyć na modele nieparametryczne, na przykład gdy przejścia są po prostu zapisywane i „odtwarzane” w algorytmie uczącym.

Istnieją inne sposoby używania modeli niż aktualizacja funkcji wartości. Na przykład w przypadku sterowania predykcyjnego modelu model jest używany do bezpośredniej aktualizacji zachowania.

Teoria

Zarówno asymptotyczne, jak i skończone próby większości algorytmów są dobrze poznane. Znane są algorytmy o udowodnionej dobrej wydajności online (rozwiązujące problem eksploracji).

Efektywną eksplorację MDPs podają Burnetas i Katehakis (1997). W przypadku wielu algorytmów pojawiły się również ograniczenia wydajności w czasie skończonym, ale oczekuje się, że ograniczenia te będą raczej luźne, a zatem potrzeba więcej pracy, aby lepiej zrozumieć względne zalety i ograniczenia.

W przypadku algorytmów przyrostowych rozwiązano kwestie zbieżności asymptotycznej. Algorytmy oparte na różnicach czasowych zbiegają się w szerszym zestawie warunków niż było to wcześniej możliwe (na przykład, gdy są używane z arbitralnym, płynnym aproksymacją funkcji).

Badania

Tematy badawcze obejmują

  • metody adaptacyjne, które działają z mniejszą liczbą (lub bez) parametrów w dużej liczbie warunków
  • rozwiązanie problemu poszukiwań w dużych MDP
  • kombinacje z frameworkami opartymi na logice
  • ewaluacje empiryczne na dużą skalę
  • uczenie się i działanie w oparciu o częściową informację (np. za pomocą predykcyjnej reprezentacji stanu )
  • modułowe i hierarchiczne uczenie się ze wzmocnieniem
  • doskonalenie istniejących metod poszukiwania funkcji wartości i polityki
  • algorytmy, które działają dobrze z dużymi (lub ciągłymi) przestrzeniami akcji
  • transferowe uczenie się
  • kształcenie ustawiczne
  • efektywne planowanie oparte na próbach (np. w oparciu o przeszukiwanie drzewa Monte Carlo ).
  • wykrywanie błędów w projektach oprogramowania
  • Motywacja wewnętrzna, która odróżnia zachowania związane z poszukiwaniem informacji i ciekawością od zachowań ukierunkowanych na cel (zazwyczaj) poprzez wprowadzenie funkcji nagrody opartej na maksymalizacji nowych informacji
  • Modelowanie poznawcze z wykorzystaniem uczenia się przez wzmacnianie jest aktywnie wykorzystywane w psychologii obliczeniowej
  • Interesującym tematem jest wieloagentowe lub rozproszone uczenie się ze wzmocnieniem. Aplikacje się rozwijają.
  • Uczenie się przez aktora i krytykę ze wzmocnieniem
  • Wzmacniające uczenie algorytmy takie jak TD nauki są przedmiotem dochodzenia jako model dla dopaminy -na uczenia się w mózgu. W tym modelu projekcje dopaminergiczne z istoty czarnej do jąder podstawnych funkcjonują jako błąd przewidywania. Uczenie się ze wzmocnieniem zostało wykorzystane jako część modelu uczenia się umiejętności człowieka, szczególnie w odniesieniu do interakcji między uczeniem niejawnym i jawnym w nabywaniu umiejętności (pierwsza publikacja na temat tego zastosowania miała miejsce w latach 1995-1996).
  • Kontrola zorientowana na pasażera
  • Handel algorytmiczny i optymalna egzekucja
  • Optymalizacja zasobów obliczeniowych

Porównanie algorytmów uczenia przez wzmacnianie

Algorytm Opis Polityka Pole akcji Przestrzeń stanowa Operator
Monte Carlo Każda wizyta w Monte Carlo Albo Oddzielny Oddzielny Próbki-środki
Q-learning Stan–akcja–nagroda–stan Poza polityką Oddzielny Oddzielny Wartość Q
SARSA Państwo-akcja-nagroda-stan-akcja Na polisie Oddzielny Oddzielny Wartość Q
Q-learning - Lambda Stan-działanie-nagroda-stan ze śladami kwalifikowalności Poza polityką Oddzielny Oddzielny Wartość Q
SARSA - Lambda Stan-akcja-nagroda-stan-akcja ze śladami kwalifikowalności Na polisie Oddzielny Oddzielny Wartość Q
DQN Głęboka sieć Q Poza polityką Oddzielny Ciągły Wartość Q
DDPG Głęboki deterministyczny gradient polityki Poza polityką Ciągły Ciągły Wartość Q
A3C Algorytm aktor-krytyczny przewagi asynchronicznej Na polisie Ciągły Ciągły Korzyść
NAF Q-Learning ze znormalizowanymi funkcjami przewagi Poza polityką Ciągły Ciągły Korzyść
TRPO Optymalizacja polityki regionu zaufania Na polisie Ciągły Ciągły Korzyść
PPO Proksymalna optymalizacja polityki Na polisie Ciągły Ciągły Korzyść
TD3 Podwójny opóźniony głęboki deterministyczny gradient polityki Poza polityką Ciągły Ciągły Wartość Q
WOREK Miękki aktor-krytyk Poza polityką Ciągły Ciągły Korzyść

Uczenie się przez asocjacyjne wzmacnianie

Zadania uczenia się przez asocjacyjne wzmacnianie łączą aspekty stochastycznych zadań automatów uczenia się i nadzorowanych zadań klasyfikacji wzorców uczenia się. W zadaniach uczenia się z asocjacyjnym wzmocnieniem system uczący się współdziała w zamkniętej pętli z otoczeniem.

Głębokie uczenie wzmacniające

Podejście to rozszerza uczenie ze wzmacnianiem dzięki wykorzystaniu głębokiej sieci neuronowej i bez wyraźnego projektowania przestrzeni stanów. Prace nad nauką gier ATARI przez Google DeepMind zwróciły uwagę na głębokie uczenie ze wzmocnieniem lub uczenie ze wzmacnianiem od końca do końca .

Odwrotne uczenie ze wzmacnianiem

W odwrotnym uczeniu ze wzmocnieniem (IRL) nie podaje się funkcji nagrody. Zamiast tego funkcja nagrody jest wywnioskowana na podstawie zaobserwowanego zachowania eksperta. Chodzi o to, aby naśladować zaobserwowane zachowanie, które często jest optymalne lub bliskie optymalnemu.

Bezpieczna nauka wzmacniania

Safe Reinforcement Learning (SRL) można zdefiniować jako proces polityki uczenia się, który maksymalizuje oczekiwany zwrot w przypadku problemów, w których ważne jest zapewnienie rozsądnej wydajności systemu i/lub przestrzeganie ograniczeń bezpieczeństwa podczas procesu uczenia się i/lub wdrażania.

Częściowo nadzorowane uczenie się zbrojenia (PSRL)

W algorytmach PSRL zalety podejścia nadzorowanego i opartego na RL są synergicznie połączone. Na przykład polityka sterowania poznana przez podejście oparte na odwrotnej sieci ANN do sterowania systemem nieliniowym może zostać udoskonalona przy użyciu RL, unikając w ten sposób kosztów obliczeniowych ponoszonych przez rozpoczęcie od losowej polityki w tradycyjnym RL. Podejścia częściowo nadzorowane mogą złagodzić zapotrzebowanie na obszerne dane szkoleniowe w uczeniu nadzorowanym, jednocześnie zmniejszając potrzebę kosztownej, wyczerpującej eksploracji losowej w czystym RL.

Zobacz też

Bibliografia

Dalsza lektura

Zewnętrzne linki