Aktywne uczenie się (uczenie maszynowe) - Active learning (machine learning)

Aktywne uczenie to szczególny przypadek uczenia maszynowego, w którym algorytm uczenia może interaktywnie wysyłać zapytania do użytkownika (lub innego źródła informacji) w celu oznaczenia nowych punktów danych żądanymi danymi wyjściowymi. W literaturze statystycznej bywa też nazywany optymalnym projektem eksperymentalnym . Źródło informacji nazywane jest również nauczycielem lub wyrocznią .

Są sytuacje, w których nieoznakowanych danych jest dużo, ale ręczne etykietowanie jest drogie. W takim scenariuszu algorytmy uczące mogą aktywnie wysyłać zapytania do użytkownika/nauczyciela o etykiety. Ten rodzaj iteracyjnego nadzorowanego uczenia się nazywa się uczeniem aktywnym. Ponieważ uczeń wybiera przykłady, liczba przykładów do nauczenia się pojęcia może często być znacznie mniejsza niż liczba wymagana w normalnym uczeniu nadzorowanym. Przy takim podejściu istnieje ryzyko, że algorytm zostanie przytłoczony mało informacyjnymi przykładami. Najnowsze osiągnięcia są poświęcone aktywnemu uczeniu się z wieloma etykietami, hybrydowemu aktywnemu uczeniu się i aktywnemu uczeniu się w kontekście jednoprzebiegowym (on-line), łącząc koncepcje z dziedziny uczenia maszynowego (np. konflikt i ignorancja) z adaptacyjnymi, przyrostowymi politykami uczenia się w dziedzina uczenia maszynowego online .

Definicje

Niech T będzie całkowitym zbiorem wszystkich rozważanych danych. Na przykład, w problemie inżynierii białek, T obejmowałoby wszystkie białka, o których wiadomo, że mają pewną interesującą aktywność i wszystkie dodatkowe białka, które można by chcieć przetestować pod kątem tej aktywności.

Podczas każdej iteracji i , T dzieli się na trzy podzbiory

  1. : Punkty danych, w których znana jest etykieta .
  2. : Punkty danych, w których etykieta jest nieznana .
  3. : Podzbiór T U,i, który jest wybrany do opisania.

Większość obecnych badań nad aktywnym uczeniem się dotyczy najlepszej metody wyboru punktów danych dla T C,i .

Scenariusze

  • Synteza zapytań o członkostwo : W tym miejscu uczący się generuje własną instancję z podstawowej dystrybucji naturalnej. Na przykład, jeśli zbiór danych zawiera zdjęcia ludzi i zwierząt, uczeń może wysłać nauczycielowi obcięty obraz nogi i zapytać, czy ten wyrostek należy do zwierzęcia czy człowieka. Jest to szczególnie przydatne, gdy zestaw danych jest mały.
  • Próbkowanie oparte na puli : W tym scenariuszu instancje są pobierane z całej puli danych i przypisywane są im oceny ufności, będące miarą tego, jak dobrze uczący się „rozumie” dane. Następnie system wybiera przypadki, w których jest najmniej pewny i pyta nauczyciela o etykiety.
  • Selektywne próbkowanie oparte na strumieniu : tutaj każdy nieoznaczony punkt danych jest sprawdzany pojedynczo, a maszyna ocenia informacyjność każdego elementu w odniesieniu do jego parametrów zapytania. Uczeń sam decyduje, czy przypisać etykietę, czy zapytać nauczyciela o każdy punkt danych.

Strategie zapytań

Algorytmy określające, które punkty danych należy oznaczyć etykietami, można podzielić na kilka różnych kategorii, w zależności od ich przeznaczenia:

  • Równowaga eksploracji i eksploatacji : wybór przykładów do oznaczenia jest postrzegany jako dylemat między eksploracją i eksploatacją nad reprezentacją przestrzeni danych. Ta strategia zarządza tym kompromisem, modelując problem aktywnego uczenia się jako kontekstowy problem bandytów. Na przykład Bouneffouf i in. zaproponować sekwencyjny algorytm o nazwie Active Thompson Sampling (ATS), który w każdej rundzie przypisuje rozkład próbkowania w puli, pobiera jeden punkt z tej dystrybucji i wysyła zapytanie do wyroczni o tę etykietę punktu próbkowania.
  • Oczekiwana zmiana modelu : oznacz te punkty, które najbardziej zmienią bieżący model.
  • Oczekiwana redukcja błędu : oznacz te punkty, które w największym stopniu zmniejszyłyby błąd uogólnienia modelu .
  • Eksploracja wykładniczego gradientu dla aktywnego uczenia się : W tym artykule autor proponuje sekwencyjny algorytm zwany wykładniczym gradientem (EG)-aktywny, który może ulepszyć dowolny algorytm aktywnego uczenia się poprzez optymalną losową eksplorację.
  • Próbkowanie niepewne : oznacz te punkty, dla których bieżący model jest najmniej pewny co do tego, jaki powinien być prawidłowy wynik.
  • Zapytanie przez komisję : różne modele są szkolone na bieżących danych oznaczonych etykietami i głosują na dane wyjściowe dla danych nieoznakowanych; oznacz te punkty, z którymi „komitet” nie zgadza się najbardziej
  • Wykonywanie zapytań z różnych podprzestrzeni lub partycji : Gdy model bazowy jest lasem drzew, węzły liści mogą reprezentować (nakładające się) partycje oryginalnej przestrzeni funkcji . Daje to możliwość wybrania do etykietowania instancji z nienakładających się lub minimalnie nakładających się partycji.
  • Redukcja wariancji : oznacz te punkty, które minimalizują wariancję wyjściową, która jest jednym ze składników błędu.
  • Predyktory konformalne : ta metoda przewiduje, że nowy punkt danych będzie miał etykietę podobną do starych punktów danych w pewien określony sposób, a stopień podobieństwa w starych przykładach jest używany do oszacowania ufności prognozy.
  • Niezgodność-pierwsze najdalsze-przejście : głównym kryterium wyboru jest niezgodność predykcji między bieżącym modelem a predykcją najbliższego sąsiedztwa. Celuje w błędnie przewidywane punkty danych. Drugim kryterium wyboru jest odległość do wcześniej wybranych danych, najdalsza pierwsza. Ma na celu optymalizację różnorodności wybranych danych.

Przebadano szeroką gamę algorytmów, które należą do tych kategorii.

Chociaż tradycyjne strategie AL mogą osiągnąć niezwykłe wyniki, często trudno jest przewidzieć z góry, która strategia jest najbardziej odpowiednia w konkretnej sytuacji. W ostatnich latach algorytmy metauczenia zyskują na popularności. Niektóre z nich zostały zaproponowane w celu rozwiązania problemu uczenia się strategii AL zamiast polegać na ręcznie zaprojektowanych strategiach.

Minimalna hiperpłaszczyzna brzeżna

Niektóre algorytmy aktywnego uczenia są zbudowane na maszynach z wektorem wsparcia (SVM) i wykorzystują strukturę SVM w celu określenia, które punkty danych należy oznaczyć. Takie metody zwykle obliczają margines , W , każdego nieoznaczonego układu odniesienia w T U,i i traktują W jako n- wymiarową odległość od tego układu odniesienia do oddzielającej hiperpłaszczyzny.

Metody Minimum Marginal Hyperplane zakładają, że dane o najmniejszym W to te, co do których SVM jest najbardziej niepewny i dlatego powinny być umieszczone w TC ,i w celu oznaczenia. Inne podobne metody, takie jak Maximum Marginal Hyperplane, wybierają dane o największym W . Kompromis metody wyboru mieszanki najmniejszych i największych W. s.

Zobacz też

Uwagi