Nauka wielozadaniowa - Multi-task learning

Uczenie wielozadaniowe (MTL) to poddziedzina uczenia maszynowego, w której wiele zadań uczenia się jest rozwiązywanych w tym samym czasie, przy jednoczesnym wykorzystaniu podobieństw i różnic między zadaniami. Może to skutkować lepszą wydajnością uczenia się i dokładnością przewidywania dla modeli specyficznych dla zadania w porównaniu z osobnym szkoleniem modeli. Wczesne wersje MTL nazywano „podpowiedziami”.

W szeroko cytowanym artykule z 1997 r. Rich Caruana przedstawił następującą charakterystykę:

Uczenie wielozadaniowe to podejście do transferu indukcyjnego, które poprawia uogólnianie poprzez wykorzystanie informacji dziedzinowych zawartych w sygnałach szkoleniowych powiązanych zadań jako błędu indukcyjnego . Robi to poprzez równoległe uczenie się zadań przy użyciu wspólnej reprezentacji ; to, czego się nauczymy dla każdego zadania, może pomóc w lepszym nauczeniu się innych zadań.

W kontekście klasyfikacji MTL ma na celu poprawę wydajności wielu zadań klasyfikacyjnych poprzez ich wspólne uczenie się. Jednym z przykładów jest filtr spamu, który może być traktowany jako odrębne, ale powiązane zadania klasyfikacyjne dla różnych użytkowników. Aby uczynić to bardziej konkretnym, weź pod uwagę, że różne osoby mają różne rozkłady funkcji, które odróżniają wiadomości spamowe od legalnych, na przykład osoba mówiąca po angielsku może uznać, że wszystkie wiadomości e-mail w języku rosyjskim są spamem, a nie rosyjskojęzyczne. Jednak w tym zadaniu klasyfikacji istnieje wyraźna cecha wspólna dla użytkowników, na przykład jedną wspólną cechą może być tekst związany z transferem pieniężnym. Wspólne rozwiązanie problemu klasyfikacji spamu każdego użytkownika za pośrednictwem MTL może pozwolić rozwiązaniom na wzajemne informowanie się i poprawę wydajności. Dalsze przykłady ustawienia MTL obejmują multiclass klasyfikacji i klasyfikacji wieloklasowej etykiety .

Uczenie wielozadaniowe działa, ponieważ regularyzacja wywołana wymaganiem, aby algorytm dobrze wykonywał powiązane zadanie, może być lepszy od regularyzacji, która zapobiega nadmiernemu dopasowaniu poprzez jednolitą karę dla całej złożoności. Jedną z sytuacji, w której MTL może być szczególnie pomocny, jest sytuacja, w której zadania mają istotne cechy wspólne i są na ogół nieznacznie niedostatecznie próbkowane. Jednak, jak omówiono poniżej, wykazano również, że MTL jest korzystny w przypadku uczenia się niepowiązanych zadań.

Metody

Grupowanie zadań i nakładanie się

W ramach paradygmatu MTL informacje mogą być udostępniane w ramach niektórych lub wszystkich zadań. W zależności od struktury powiązania zadań, można chcieć udostępniać informacje selektywnie w ramach zadań. Na przykład zadania mogą być pogrupowane lub istnieć w hierarchii lub być powiązane według jakiejś ogólnej metryki. Załóżmy, jak opisano bardziej formalnie poniżej, że wektor parametrów modelujący każde zadanie jest kombinacją liniową pewnej podstawowej podstawy. Podobieństwo w zakresie tej podstawy może wskazywać na pokrewieństwo zadań. Na przykład w przypadku sparsity nakładanie się niezerowych współczynników w zadaniach wskazuje na wspólność. Grupowanie zadań odpowiada wtedy zadaniom leżącym w podprzestrzeni generowanej przez pewien podzbiór elementów bazowych, gdzie zadania w różnych grupach mogą być rozłączne lub arbitralnie nakładać się na swoje podstawy. Powiązanie zadań można narzucić a priori lub nauczyć się na podstawie danych. Hierarchiczne powiązanie zadań można również wykorzystać pośrednio, bez jawnego zakładania a priori wiedzy lub relacji uczenia się. Na przykład można przeprowadzić bezpośrednie uczenie się o trafności próby w różnych zadaniach, aby zagwarantować skuteczność wspólnego uczenia się w wielu dziedzinach.

Wykorzystywanie niepowiązanych zadań

Można podjąć próbę uczenia się grupy zadań głównych, wykorzystując grupę zadań pomocniczych, niezwiązanych z zadaniami głównymi. W wielu aplikacjach korzystne może być wspólne uczenie się niepowiązanych ze sobą zadań, które wykorzystują te same dane wejściowe. Powodem jest to, że wcześniejsza wiedza na temat powiązania zadań może prowadzić do rzadszych i bardziej pouczających reprezentacji dla każdej grupy zadań, zasadniczo poprzez odsiewanie specyfiki dystrybucji danych. Zaproponowano nowatorskie metody, które opierają się na wcześniejszej metodologii wielozadaniowej, faworyzując wspólną, niskowymiarową reprezentację w ramach każdej grupy zadań. Programista może nałożyć karę na zadania z różnych grup, co zachęca obie reprezentacje do bycia ortogonalnym . Eksperymenty na danych syntetycznych i rzeczywistych wykazały, że włączenie niepowiązanych ze sobą zadań może skutkować znaczną poprawą w stosunku do standardowych wielozadaniowych metod uczenia się.

Transfer wiedzy

Z uczeniem wielozadaniowym wiąże się koncepcja transferu wiedzy. Podczas gdy tradycyjna nauka wielozadaniowa implikuje, że wspólna reprezentacja jest rozwijana równolegle w ramach zadań, transfer wiedzy implikuje sekwencyjnie dzieloną reprezentację. Projekty uczenia maszynowego na dużą skalę, takie jak głęboka, splotowa sieć neuronowa GoogLeNet , klasyfikator obiektów oparty na obrazach, mogą tworzyć solidne reprezentacje, które mogą być przydatne do dalszego uczenia algorytmów zadań związanych z uczeniem się. Na przykład wstępnie wytrenowany model może być używany jako ekstraktor cech do wykonywania wstępnego przetwarzania dla innego algorytmu uczenia. Lub wstępnie wytrenowany model może być użyty do zainicjowania modelu o podobnej architekturze, który jest następnie dostrajany w celu nauczenia się innego zadania klasyfikacji.

Grupowe uczenie adaptacyjne online

Tradycyjnie uczenie się wielozadaniowe i transfer wiedzy są stosowane w stacjonarnych ustawieniach uczenia się. Ich rozszerzenie na środowiska niestacjonarne jest określane jako grupowe uczenie się adaptacyjne online (GOAL). Dzielenie się informacjami może być szczególnie przydatne, jeśli uczący się działają w ciągle zmieniającym się środowisku, ponieważ uczący się może skorzystać z wcześniejszych doświadczeń innego ucznia, aby szybko przystosować się do nowego środowiska. Takie adaptacyjne uczenie się grup ma wiele zastosowań, od przewidywania finansowych szeregów czasowych, przez systemy rekomendacji treści, po wizualne zrozumienie adaptacyjnych agentów autonomicznych.

Matematyka

Odwzorowanie przestrzeni Hilberta funkcji o wartościach wektorowych (RKHSvv)

Problem MTL można odlewać w kontekście RKHSvv (a całkowitego przestrzeni wewnętrznej produktów z funkcjami o wartościach wektorowych wyposażonych w jądrze odtwarzającego ). W szczególności ostatnio skupiono się na przypadkach, w których strukturę zadań można zidentyfikować za pomocą oddzielnego jądra, opisanego poniżej. Prezentacja tutaj pochodzi od Ciliberto i in., 2015.

Koncepcje RKHSvv

Załóżmy, że zestaw danych uczących to , z , , gdzie t indeksuje zadanie i . Niech . W tym ustawieniu istnieje spójna przestrzeń wejścia i wyjścia oraz ta sama funkcja strat dla każdego zadania: . Powoduje to uregulowany problem uczenia maszynowego:

 

 

 

 

( 1 )

gdzie jest wektorem odtwarzającym przestrzeń Hilberta jądra z funkcjami posiadającymi komponenty .

Jądro odtwarzające dla przestrzeni funkcji jest symetryczną funkcją o wartościach macierzowych , taką, że zachodzi następująca własność odtwarzania:

 

 

 

 

( 2 )

Z jądra odtwarzającego powstaje twierdzenie o reprezentatorze, pokazujące, że każde rozwiązanie równania 1 ma postać:

 

 

 

 

( 3 )

Oddzielne jądra

Forma jądra Γ indukuje zarówno reprezentację przestrzeni cech, jak i strukturyzuje dane wyjściowe w różnych zadaniach. Naturalnym uproszczeniem jest wybór jądra separowalnego, które uwzględnia oddzielne jądra w przestrzeni wejściowej X i zadaniach . W tym przypadku jądro odnoszące skalarne składników i jest przez . Dla funkcji o wartościach wektorowych możemy napisać , gdzie k jest skalarnym jądrem odtwarzającym, a A jest symetryczną dodatnią macierzą półokreśloną. Odtąd oznaczają .

Ta właściwość faktoryzacji, separowalność, oznacza, że ​​reprezentacja wejściowej przestrzeni cech nie różni się w zależności od zadania. Oznacza to, że nie ma interakcji między jądrem wejściowym a jądrem zadaniowym. Strukturę zadań reprezentuje wyłącznie A . Metody dla ziarniaków nierozdzielnych Γ to aktualny obszar badań.

W przypadku rozdzielnym twierdzenie o reprezentacji sprowadza się do . Wynikiem modelu danych uczących jest wtedy KCA , gdzie K jest empiryczną macierzą jądra z wpisami , a C jest macierzą wierszy .

W jądrze separowalnym równanie 1 można przepisać jako

 

 

 

 

( P )

gdzie V jest (ważoną) średnią L stosowaną w ujęciu wejściowym do Y i KCA . (Waga wynosi zero, jeśli brakuje obserwacji).

Zauważ, że drugi termin w P można wyprowadzić w następujący sposób:

Znana struktura zadań

Reprezentacje struktury zadań

Istnieją trzy w dużej mierze równoważne sposoby reprezentowania struktury zadań: za pomocą regulatora; przez metrykę wyjściową i przez mapowanie danych wyjściowych.

Regularizer  —  W przypadku jądra separowalnego można pokazać (poniżej), że , gdzie jest elementem pseudoodwrotności , i jest RKHS opartym na jądrze skalarnym , oraz . To sformułowanie pokazuje, że kontroluje wagę kary związanej z . (Zauważ, że pochodzi z .)

Dowód  —

Metryka wyjściowa  —  alternatywna metryka wyjściowa może być wywołana przez produkt wewnętrzny . W przypadku straty kwadratowej istnieje równoważność między dającymi się oddzielić jądrami w ramach metryki alternatywnej i , w ramach metryki kanonicznej.

Mapowanie danych wyjściowych  — dane  wyjściowe można mapować jako przestrzeń wyższego wymiaru w celu kodowania złożonych struktur, takich jak drzewa, wykresy i ciągi znaków. Dla odwzorowań liniowych L , przy odpowiednim doborze jądra separowalnego, można wykazać, że .

Przykłady struktury zadań

Za pomocą formuły regularyzatora można łatwo reprezentować różne struktury zadań.

  • Pozwalanie (gdzie jest macierzą jednostkową T x T , a jest macierzą jedności T x T ) jest równoznaczne z pozwoleniem Γ na kontrolowanie wariancji zadań od ich średniej . Na przykład, poziomy niektórych biomarkerów we krwi mogą być mierzone u pacjentów T w punktach czasowych w ciągu dnia, a zainteresowanie może leżeć w uregulowaniu wariancji przewidywań u pacjentów.
  • Pozwalanie , gdzie jest równoznaczne z pozwoleniem na kontrolowanie wariancji mierzonej względem średniej grupy: . (Tutaj liczność grupy r, i jest funkcją wskaźnika). Na przykład ludzie z różnych partii (grup) politycznych mogą być uregulowani razem w odniesieniu do przewidywania oceny przychylności polityka. Zauważ, że ta kara zmniejsza się do pierwszej, gdy wszystkie zadania znajdują się w tej samej grupie.
  • Letting , gdzie jest Laplace'em dla grafu z macierzą sąsiedztwa M podającą parami podobieństwa zadań. Jest to równoznaczne z nałożeniem większej kary za odległość dzielącą zadania t i s, gdy są one bardziej do siebie podobne (według wagi ,), czyli regularyzuje .
  • Wszystkie powyższe wybory A wywołują również dodatkowy termin regularyzacyjny, który szerzej karze złożoność w f.

Zadania uczenia się wraz z ich strukturą

Problem uczenia się P można uogólnić, aby przyjąć macierz zadań uczenia się A w następujący sposób:

 

 

 

 

( P )

Wybór musi mieć na celu poznanie macierzy A danego typu. Zobacz „Przypadki specjalne” poniżej.

Optymalizacja Q

Ograniczając się do przypadku ubytków wypukłych i kar przymusowych Ciliberto et al. wykazali, że chociaż Q nie jest wspólnie wypukłe w C i A, powiązany problem jest wspólnie wypukły.

W szczególności na wypukłym zestawie , równoważny problem

 

 

 

 

( R )

jest wypukły o tej samej wartości minimalnej. A jeśli jest minimalizatorem dla R, to jest minimalizatorem dla Q .

R można rozwiązać metodą barierową na zbiorze domkniętym, wprowadzając następujące zaburzenie:

 

 

 

 

( S )

Zaburzenie przez barierę wymusza, aby funkcje celu były równe na granicy .

S można rozwiązać za pomocą metody opadania współrzędnych blokowych, naprzemiennie w C i A. Powoduje to sekwencję minimalizatoróww S, która zbiega się do rozwiązania w R jako, a zatem daje rozwiązanie Q .

Przypadki specjalne

Kary spektralne - Dinnuzo i wsp. zasugerowali ustalenie F jako normy Frobeniusa. Zoptymalizowali Q bezpośrednio za pomocą opadania współrzędnych bloku, nie biorąc pod uwagę trudności na granicy.

Nauka zadań skupionych – Jacob i wsp. zasugerowali, aby uczyć się A w sytuacji, w której zadania T są zorganizowane w klastry R rozłączne. W tym przypadku niech będzie macierz z . Ustawienie , i , macierz zadań może być sparametryzowana jako funkcja : , z terminami, które karzą średnią, odpowiednio wariancji między skupieniami i wariancji wewnątrz skupień, odpowiednio od przewidywań zadania. M nie jest wypukły, ale występuje wypukła relaksacja . W tym sformułowaniu .

Uogólnienia

Kary niewypukłe — kary mogą być skonstruowane w taki sposób, że A jest ograniczone do grafu Laplace'a lub że A ma niską faktoryzację rang. Jednak kary te nie są wypukłe, a analiza metody barierowej zaproponowana przez Ciliberto i in. nie przechodzi w takich przypadkach.

Jądra nierozłączne - Jądra rozłączne są ograniczone, w szczególności nie uwzględniają struktur w przestrzeni interakcji między domenami wejściowymi i wyjściowymi łącznie. Potrzebne są dalsze prace, aby opracować modele dla tych jąder.

Aplikacje

Filtrowanie spamu

Korzystając z zasad MTL, zaproponowano techniki wspólnego filtrowania spamu, które ułatwiają personalizację. W wielkoskalowych systemach e-mail z otwartym członkostwem większość użytkowników nie nadaje etykietom wystarczającej liczby wiadomości, aby pojedynczy lokalny klasyfikator był skuteczny, a dane są zbyt zaszumione, aby można je było wykorzystać do globalnego filtrowania wśród wszystkich użytkowników. Hybrydowy globalny/indywidualny klasyfikator może skutecznie absorbować wpływ użytkowników, którzy bardzo pilnie oznaczają wiadomości e-mail od ogółu społeczeństwa. Można to osiągnąć, zapewniając jednocześnie wystarczającą jakość użytkownikom z niewielką liczbą oznaczonych wystąpień.

wyszukiwarka internetowa

Używając wzmocnionych drzew decyzyjnych , można umożliwić niejawne udostępnianie i regulowanie danych. Ta metoda uczenia się może być używana w zestawach danych rankingu wyszukiwania w sieci. Jednym z przykładów jest wykorzystanie zestawów danych rankingowych z kilku krajów. W tym przypadku nauka wielozadaniowa jest szczególnie pomocna, ponieważ zbiory danych z różnych krajów różnią się znacznie pod względem wielkości ze względu na koszt ocen redakcyjnych. Wykazano, że wspólne uczenie się różnych zadań może prowadzić do znacznej poprawy wydajności przy zaskakującej niezawodności.

Pakiet oprogramowania

Pakiet Matlab Multi-Task Learning via StructurAl Regularization (MALSAR) implementuje następujące wielozadaniowe algorytmy uczenia:

  • Uczenie wielozadaniowe uregulowane na podstawie średniej
  • Nauka wielozadaniowa z wyborem funkcji wspólnych
  • Solidna nauka funkcji wielozadaniowych
  • Usystematyzowana wielozadaniowa nauka według Trace-Norm
  • Naprzemienna optymalizacja strukturalna
  • Niespójna nauka niskiej rangi i rzadka
  • Solidna nauka wielozadaniowa niskiej rangi
  • Klastrowa nauka wielozadaniowa
  • Nauka wielozadaniowa ze strukturami grafowymi

Zobacz też

Bibliografia

Linki zewnętrzne

Oprogramowanie