Nauka nienadzorowana — Unsupervised learning
Część serii na |
Uczenie maszynowe i eksploracja danych |
---|
Uczenie nienadzorowane to rodzaj uczenia maszynowego, w którym algorytm nie ma żadnych wstępnie przypisanych etykiet ani ocen dla danych uczących . W rezultacie nienadzorowane algorytmy uczenia muszą najpierw samodzielnie wykryć wszelkie naturalnie występujące wzorce w tym zestawie danych szkoleniowych. Typowe przykłady to klastrowanie , w którym algorytm automatycznie grupuje przykłady uczące w kategorie o podobnych cechach, oraz analizę głównych komponentów , w której algorytm znajduje sposoby kompresji zestawu danych uczących, identyfikując, które cechy są najbardziej przydatne do rozróżniania różnych przykładów uczących, oraz odrzucając resztę. Kontrastuje to z uczeniem nadzorowanym, w którym dane uczące zawierają wstępnie przypisane etykiety kategorii (często przez człowieka lub z wyników nieuczącego się algorytmu klasyfikacji). Inne pośrednie poziomy w spektrum nadzoru obejmują uczenie ze wzmocnieniem , gdzie dla każdego przykładu szkolenia dostępne są tylko wyniki liczbowe zamiast szczegółowych tagów, oraz uczenie częściowo nadzorowane, w którym tylko część danych treningowych została otagowana.
Zalety uczenia się nienadzorowanego obejmują minimalne nakłady pracy związane z przygotowaniem i audytem zestawu szkoleniowego, w przeciwieństwie do technik uczenia nadzorowanego, w których do przypisania i weryfikacji początkowych tagów wymagana jest znaczna ilość pracy ludzkiej ekspertów, a także większa swoboda w identyfikowaniu i wykorzystywaniu wcześniej niewykrytych wzorców co mogło nie zostać zauważone przez „ekspertów”. Często dzieje się to kosztem nienadzorowanych technik wymagających większej ilości danych uczących i wolniej zbieżnych do akceptowalnej wydajności, zwiększonych wymagań obliczeniowych i pamięciowych podczas procesu eksploracyjnego oraz potencjalnie większej podatności na artefakty lub anomalie w danych uczących, które mogą być oczywiście nieistotne lub uznane przez człowieka za błędne, ale algorytm uczenia nienadzorowanego przypisuje im nadmierne znaczenie.
Podejścia
Typowe rodziny algorytmów stosowanych w uczeniu nienadzorowanym obejmują: (1) grupowanie, (2) wykrywanie anomalii, (3) sieci neuronowe (należy zauważyć, że nie wszystkie sieci neuronowe są nienadzorowane; mogą być trenowane przez osoby nadzorowane, nienadzorowane, częściowo nadzorowane lub metody zbrojenia) oraz (4) modele zmiennych latentnych.
- Metody grupowania obejmują klastrowanie hierarchiczne , k-średnie , modele mieszane , DBSCAN i algorytm OPTICS
- Metody wykrywania anomalii obejmują lokalny czynnik odstający i las izolacji
- Podejścia uczenia ukryte modele zmiennych obejmują algorytmu maksymalizacji oczekiwania , w sposób chwilach i rozdzielania sygnału ślepy techniki ( analizy składowych głównych , analiza składowych niezależnych , nieujemnej faktoryzacji macierzy , rozkład wartości liczby pojedynczej )
- Metody sieci neuronowych obejmują autokodery , sieci głębokich przekonań , uczenie Hebbowskie , generatywne sieci kontradyktoryjne (GAN) i mapy samoorganizujące się
Metoda momentów
Jednym z podejść statystycznych do uczenia nienadzorowanego jest metoda momentów . W metodzie momentów nieznane parametry będące przedmiotem zainteresowania modelu są powiązane z momentami jednej lub większej liczby zmiennych losowych. Momenty te są oceniane empirycznie na podstawie dostępnych próbek danych i wykorzystywane do obliczania najbardziej prawdopodobnych rozkładów wartości dla każdego parametru. Wykazano, że metoda momentów jest skuteczna w uczeniu parametrów modeli zmiennych latentnych , gdzie oprócz obserwowanych zmiennych dostępnych w zbiorach danych uczących i wejściowych zakłada się również istnienie szeregu nieobserwowanych zmiennych latentnych i określanie kategoryzacji każdego takiego samego. Jednym z praktycznych przykładów modeli zmiennych ukrytych w uczeniu maszynowym jest modelowanie tematów , które jest modelem statystycznym do przewidywania słów (zmiennych obserwowanych) w dokumencie na podstawie tematu (zmiennej ukrytej) dokumentu. Wykazano, że metoda momentów (techniki dekompozycji tensorowej) konsekwentnie odtwarza parametry dużej klasy modeli zmiennych latentnych przy pewnych założeniach.
Algorytm oczekiwanie-maksymalizacja to kolejna praktyczna metoda uczenia ukryte modele zmiennych. Może jednak utknąć w lokalnych optimach i nie ma gwarancji, że zbiegnie się z prawdziwymi nieznanymi parametrami modelu. W przeciwieństwie do tego, stosując metodę momentów, globalna zbieżność jest gwarantowana pod pewnymi warunkami.
Sieci neuronowe
Następne pięć podrozdziałów zawiera materiał podstawowy. Więcej materiałów na poziomie średniozaawansowanym podąża za nim w Porównanie sieci i określonych sieci. Zaawansowane materiały mają własne wpisy w Wikipedii.
Zadania a metody
Tradycyjnie metody nadzorowane są używane do zadań rozpoznawania, a metody nienadzorowane są używane do zadań generatywnych. W miarę postępu, niektóre zadania wykorzystują obie metody, a niektóre zadania zmieniają się z jednej metody na drugą. Na przykład rozpoznawanie obrazów rozpoczęło się jako silnie nadzorowane, ale stało się hybrydowe dzięki zastosowaniu nienadzorowanego treningu wstępnego, a następnie ponownie przeszło w kierunku superwizji wraz z pojawieniem się wskaźników rezygnacji, relu i adaptacyjnego uczenia się.
Szkolenie
Podczas fazy uczenia się, nienadzorowana sieć próbuje naśladować dane, które otrzymuje i wykorzystuje błąd w naśladowanym wyjściu, aby poprawić się (tj. poprawić swoje wagi i błędy systematyczne). Przypomina to zachowanie mimikry dzieci podczas nauki języka. Czasami błąd wyrażany jest jako małe prawdopodobieństwo wystąpienia błędnego wyjścia lub może być wyrażany jako niestabilny stan wysokiej energii w sieci.
W przeciwieństwie do dominującego zastosowania propagacji wstecznej w metodzie nadzorowanej, metody nienadzorowane wykorzystują różne algorytmy uczenia, w tym: regułę uczenia Hopfielda, regułę uczenia Boltzmanna, rozbieżność kontrastową, czuwanie, wnioskowanie wariacyjne, maksymalne A posteriori, próbkowanie Gibbsa, propagację wsteczną błędu rekonstrukcji lub propagację wsteczną reparametryzacja stanu ukrytego. Zobacz poniższą tabelę, aby uzyskać więcej informacji.
Energia
W maszynach Boltzmanna energia pełni rolę funkcji kosztu. Funkcja energii jest makroskopową miarą stanu sieci. Ta analogia z fizyką jest inspirowana analizą Ludwiga Boltzmanna makroskopowej energii gazu z mikroskopowych prawdopodobieństw ruchu cząstek p e E/kT , gdzie k jest stałą Boltzmanna, a T jest temperaturą. W sieci RBM relacja jest p = e -E / Z, gdzie p & E zmienia się w każdym możliwym wzorcu aktywacji i Z = e -E(wzór) . Mówiąc dokładniej, p(a) = e -E(a) / Z, gdzie a jest wzorcem aktywacji wszystkich neuronów (widocznych i ukrytych). Stąd wczesne sieci neuronowe noszą nazwę Boltzmann Machine. Paul Smolensky nazywa -E Harmonią. Sieć poszukuje niskiej energii, która jest wysoką harmonią.
Sieci
Ta tabela przedstawia schematy połączeń różnych sieci nienadzorowanych, których szczegóły zostaną podane w rozdziale Porównanie sieci. Spośród sieci noszących nazwiska ludzi tylko Hopfield pracował bezpośrednio z sieciami neuronowymi. Boltzmann i Helmholtz żyli przed wynalezieniem sztucznych sieci neuronowych, ale zainspirowali zastosowane metody analityczne.
Hopfield | Boltzmanna | RBM | Helmholtz | Autokoder | VAE |
---|---|---|---|---|---|
Historia
1969 | Perceptrons Minsky & Papert pokazuje, że perceptron bez ukrytych warstw nie działa na XOR |
lata 70. | (daty przybliżone) AI zima I |
1974 | Model magnetyczny Isinga zaproponowany przez WA Little dla poznania |
1980 | Fukushima wprowadza neokognitron, który później nazywa się splotową siecią neuronową. Jest używany głównie w SL, ale tutaj zasługuje na wzmiankę. |
1982 | Ising wariant sieci Hopfielda opisany jako CAM i klasyfikatory przez Johna Hopfielda. |
1983 | Wariant Isinga Maszyna Boltzmanna z neuronami probabilistycznymi opisana przez Hintona i Sejnowskiego za pracą Sheringtona i Kirkpatricka z 1975 roku. |
1986 | Paul Smolensky publikuje teorię harmonii, która jest RBM z praktycznie taką samą funkcją energii Boltzmanna. Smoleński nie przedstawił programu szkolenia praktycznego. Hinton zrobił w połowie 2000 roku |
1995 | Schmidthuber wprowadza neuron LSTM dla języków. |
1995 | Dayan & Hinton przedstawia maszynę Helmholtz |
1995-2005 | (daty przybliżone) AI zima II |
2013 | Kingma, Rezende i spółka wprowadzono autoenkodery wariacyjne jako bayesowskie graficzne sieci prawdopodobieństwa, z sieciami neuronowymi jako komponentami. |
Określone sieci
Tutaj podkreślamy niektóre cechy każdej sieci. Ferromagnetyzm zainspirował sieci Hopfielda, maszyny Boltzmanna i RBM. Neuron odpowiada domenie żelaznej z binarnymi momentami magnetycznymi w górę i w dół, a połączenia neuronowe odpowiadają wzajemnemu wpływowi domeny. Symetryczne połączenia umożliwiają formułowanie globalnej energii. Podczas wnioskowania sieć aktualizuje każdy stan przy użyciu standardowej funkcji kroku aktywacji. Wagi symetryczne gwarantują zbieżność do stabilnego wzorca aktywacji.
- Hopfield
- sieci są używane jako CAM i gwarantują pewien wzorzec. Bez symetrycznych wag sieć jest bardzo trudna do analizy. Przy odpowiedniej funkcji energetycznej sieć będzie się zbiegać.
- Maszyny Boltzmanna
- Są to stochastyczne siatki Hopfielda. Ich wartość stanu jest próbkowana z tego pliku PDF w następujący sposób: załóżmy, że neuron binarny odpala z prawdopodobieństwem Bernoulliego p(1) = 1/3 i zatrzymuje się przy p(0) = 2/3. Pobieramy z niej próbkę, biorąc losową liczbę y o rozkładzie JEDNOLITYM i wstawiając ją do funkcji odwróconego skumulowanego rozkładu, która w tym przypadku jest funkcją kroku z progiem 2/3. Funkcja odwrotna = { 0 jeśli x <= 2/3, 1 jeśli x > 2/3 }
- Helmholtz
- To są wczesne inspiracje dla Variational Auto Encoders. To dwie sieci połączone w jedną — wagi do przodu obsługują rozpoznawanie, a wagi wsteczne działają na wyobraźnię. Jest to prawdopodobnie pierwsza sieć, która robi obie te rzeczy. Helmholtz nie zajmował się uczeniem maszynowym, ale zainspirował pogląd „statystycznego silnika wnioskowania, którego funkcją jest wnioskowanie prawdopodobnych przyczyn danych sensorycznych” (3). stochastyczny neuron binarny wyprowadza prawdopodobieństwo, że jego stan wynosi 0 lub 1. Dane wejściowe zwykle nie są uważane za warstwę, ale w trybie generowania maszyny Helmholtza warstwa danych otrzymuje dane wejściowe z warstwy środkowej ma w tym celu oddzielne wagi, więc jest uważany za warstwę. Stąd ta sieć ma 3 warstwy.
- Autokoder wariacyjny
- Są one inspirowane maszynami Helmholtza i łączą sieć prawdopodobieństwa z sieciami neuronowymi. Autoencoder to 3-warstwowa sieć CAM, w której warstwa środkowa ma być wewnętrzną reprezentacją wzorców wejściowych. Koder sieć neuronowa jest rozkład prawdopodobieństwa P φ (Z podane x) i sieć dekodera P θ (X, zakładając, Z). Wagi są nazywane phi & theta, a nie W i V, jak u Helmholtza – różnica kosmetyczna. Te 2 sieci mogą być w pełni połączone lub korzystać z innego schematu NN.
Porównanie sieci
Hopfield | Boltzmanna | RBM | Helmholtz | Autokoder | VAE | |
---|---|---|---|---|---|---|
użycie i uwagi | CAM, problem komiwojażera | KRZYWKA. Swoboda połączeń sprawia, że sieć ta jest trudna do analizy. | rozpoznawanie wzorców (MNIST, rozpoznawanie mowy) | wyobraźnia, mimikra | język: kreatywne pisanie, tłumaczenie. Wizja: poprawa rozmazanych obrazów | generować realistyczne dane |
neuron | deterministyczny stan binarny. Aktywacja = { 0 (lub -1) jeśli x jest ujemne, 1 w przeciwnym razie } | stochastyczny neuron binarny Hopfielda | stochastyczny binarny. Rozszerzony do wartości rzeczywistych w połowie 2000 roku | stochastyczny, binarny, sigmoidalny | język: LSTM. wizja: lokalne pola receptywne. zwykle realnie wyceniana aktywacja relu. | Neurony warstwy środkowej kodują średnie i wariancje dla Gaussa. W trybie wykonywania (wnioskowanie) dane wyjściowe warstwy środkowej są próbkowanymi wartościami z Gaussa. |
znajomości | 1-warstwowa o symetrycznych gramaturach. Brak połączeń wewnętrznych. | 2-warstwowe. 1-ukryty i 1-widoczny. symetryczne wagi. | <-- to samo. brak połączeń bocznych w warstwie. |
3-warstwowe: ciężarki asymetryczne. 2 sieci połączone w 1. | 3-warstwowe. Dane wejściowe są uważane za warstwę, mimo że nie mają wag przychodzących. warstwy rekurencyjne dla NLP. sprzężenia wyprzedzające dla widzenia. wejście i wyjście mają taką samą liczbę neuronów. | 3-warstwowe: wejście, koder, dekoder próbnika dystrybucji. próbnik nie jest uważany za warstwę (e) |
wnioskowanie i energia | energia jest dana miarą prawdopodobieństwa Gibbsa : | ← to samo | ← to samo | zminimalizować rozbieżność KL | wnioskowanie jest tylko informacją zwrotną. poprzednie sieci UL biegły do przodu I do tyłu | Minimalizuj błąd = błąd rekonstrukcji - KLD |
szkolenie | Δw ij = s i *s j , dla +1/-1 neuron | Δw ij = e*(p ij - p' ij ). Wynika to z minimalizacji KLD. e = wskaźnik uczenia się, p' = przewidywany i p = rzeczywisty rozkład. | dywergencja kontrastowa z próbkowaniem Gibbsa | Trening budzenia-snu 2 fazy | wstecz propagować błąd rekonstrukcji | ponownie sparametryzować stan ukryty dla backprop |
siła | przypomina układy fizyczne, więc dziedziczy ich równania | <--- to samo. ukryte neurony działają jako wewnętrzna reprezentacja świata zewnętrznego | szybszy, bardziej praktyczny program szkoleniowy niż maszyny Boltzmann | umiarkowanie anatomiczny. analizowalne z teorią informacji i mechaniką statystyczną | ||
słabość | ciężko trenować ze względu na połączenia boczne |
Hebbian Learning, ART, SOM
Klasycznym przykładem nienadzorowanego uczenia się w badaniu sieci neuronowych jest zasada Donalda Hebba , to znaczy neurony, które razem aktywują się, łączą się ze sobą. W uczeniu Hebbowskim połączenie jest wzmacniane niezależnie od błędu, ale jest wyłącznie funkcją zbieżności potencjałów czynnościowych między dwoma neuronami. Podobna wersja, która modyfikuje wagi synaptyczne, uwzględnia czas między potencjałami czynnościowymi ( plastyczność zależna od czasu skoku lub STDP). Postawiono hipotezę, że uczenie Hebbowskie leży u podstaw szeregu funkcji poznawczych, takich jak rozpoznawanie wzorców i uczenie się przez doświadczenie.
Wśród modeli sieci neuronowych w algorytmach uczenia nienadzorowanego powszechnie stosuje się mapę samoorganizującą się (SOM) i adaptacyjną teorię rezonansu (ART). SOM jest organizacją topograficzną, w której pobliskie lokalizacje na mapie reprezentują dane wejściowe o podobnych właściwościach. Model ART umożliwia zmianę liczby klastrów w zależności od wielkości problemu i pozwala użytkownikowi kontrolować stopień podobieństwa między członkami tych samych klastrów za pomocą zdefiniowanej przez użytkownika stałej zwanej parametrem czujności. Sieci ART są wykorzystywane do wielu zadań rozpoznawania wzorców, takich jak automatyczne rozpoznawanie celu i przetwarzanie sygnałów sejsmicznych.
Zobacz też
- Zautomatyzowane uczenie maszynowe
- Analiza skupień
- Wykrywanie anomalii
- Algorytm oczekiwania-maksymalizacji
- Generacyjna mapa topograficzna
- Metanauka (informatyka)
- Analiza wielowymiarowa
- Radialna sieć funkcji bazowej
- Słaby nadzór
Bibliografia
Dalsza lektura
- Bukiet, O.; von Luxburg, U.; Raetsch, G., wyd. (2004). Zaawansowane wykłady z uczenia maszynowego . Springer-Verlag. Numer ISBN 978-3540231226.
- Duda, Richard O. ; Hart, Peter E .; Bocian, David G. (2001). „Nienadzorowane uczenie się i klastrowanie”. Klasyfikacja wzorców (wyd. 2). Wileya. Numer ISBN 0-471-05669-3.
- Pośpiesz się, Trevor; Tibshirani, Robert (2009). Elementy uczenia się statystycznego: eksploracja danych, wnioskowanie i przewidywanie . Nowy Jork: Springer. s. 485-586. doi : 10.1007/978-0-387-84858-7_14 . Numer ISBN 978-0-387-84857-0.
- Hinton, Geoffrey ; Sejnowski, Terrence J. , wyd. (1999). Nauka nienadzorowana: podstawy obliczeń neuronowych . MIT Naciśnij . Numer ISBN 0-262-58168-X.(Ta książka skupia się na nienadzorowanym uczeniu się w sieciach neuronowych )