Ograniczona maszyna Boltzmanna - Restricted Boltzmann machine

Schemat ograniczonej maszyny Boltzmanna z trzema widocznymi jednostkami i czterema ukrytymi jednostkami (bez jednostek stronniczości).

Ograniczony maszyna Boltzmanna ( RBM ) jest generatywna stochastyczny sztuczne sieci neuronowe , które mogą nauczyć się rozkład prawdopodobieństwa nad swoim zestawem wejść.

RBM zostały początkowo wynalezione pod nazwą Harmonium przez Paula Smolensky'ego w 1986 roku i zyskały na znaczeniu po tym, jak Geoffrey Hinton i jego współpracownicy wymyślili dla nich algorytmy szybkiego uczenia się w połowie 2000 roku. RBM znalazły zastosowanie w redukcji wymiarów , klasyfikacji , filtrowaniu grupowym , uczeniu cech , modelowaniu tematów , a nawet w wielu mechanikach kwantowych ciała . Mogą być szkoleni w sposób nadzorowany lub nienadzorowany , w zależności od zadania.

Jak sama nazwa wskazuje, RBM są odmianą maszyn Boltzmanna , z zastrzeżeniem, że ich neurony muszą tworzyć graf dwudzielny : parę węzłów z każdej z dwóch grup jednostek (powszechnie określanych jako „widoczne” i „ukryte” jednostki odpowiednio) mogą mieć symetryczne połączenie między nimi; i nie ma połączeń między węzłami w grupie. Natomiast „nieograniczone” maszyny Boltzmanna mogą mieć połączenia między ukrytymi jednostkami . To ograniczenie pozwala na bardziej wydajne algorytmy treningowe niż dostępne dla ogólnej klasy maszyn Boltzmanna, w szczególności oparty na gradientowym algorytmie kontrastowej dywergencji .

Ograniczone maszyny Boltzmann mogą być również używane w sieciach głębokiego uczenia . W szczególności, głębokie sieci przekonań mogą być tworzone przez „układanie w stos” RBM i opcjonalnie dostrajanie wynikowej głębokiej sieci z gradientem opadania i wstecznej propagacji .

Struktura

Standardowy typ RBM ma ukryte i widoczne jednostki binarne ( Boolean ) i składa się z macierzy wag o rozmiarze . Każdy element wagi macierzy jest powiązany z połączeniem jednostki widocznej (wejściowej) z jednostką ukrytą . Ponadto istnieją wagi odchylenia (przesunięcia) dla i dla . Biorąc pod uwagę wagi i błędy systematyczne, energia konfiguracji (pary wektorów binarnych) ( v , h ) jest zdefiniowana jako

lub w notacji macierzowej,

Ta funkcja energii jest analogiczna do funkcji sieci Hopfielda . Podobnie jak w przypadku ogólnych maszyn Boltzmanna, łączny rozkład prawdopodobieństwa dla widocznych i ukrytych wektorów jest zdefiniowany w kategoriach funkcji energii w następujący sposób:

gdzie jest funkcją podziału zdefiniowaną jako suma wszystkich możliwych konfiguracji, którą można interpretować jako stałą normalizującą, aby zapewnić, że prawdopodobieństwa sumują się do 1. Prawdopodobieństwo krańcowe widzialnego wektora jest sumą wszystkich możliwych konfiguracji warstw ukrytych,

,

i wzajemnie. Ponieważ podstawowa struktura wykresu RBM jest dwudzielna (co oznacza, że ​​nie ma połączeń wewnątrzwarstwowych), aktywacje ukrytych jednostek są wzajemnie niezależne, biorąc pod uwagę aktywacje widocznych jednostek. I odwrotnie, widoczne aktywacje jednostek są od siebie niezależne, biorąc pod uwagę aktywacje ukrytych jednostek. Oznacza to, że dla m jednostek widocznych i n jednostek ukrytych prawdopodobieństwo warunkowe konfiguracji jednostek widocznych v przy danej konfiguracji jednostek ukrytych h wynosi

.

Odwrotnie, warunkowe prawdopodobieństwo h przy danym v wynosi

.

Indywidualne prawdopodobieństwa aktywacji podane są przez:

oraz

gdzie oznacza sigmoid logistyczny .

Widoczne jednostki Restricted Boltzmann Machine mogą być wielomianowe , chociaż ukryte jednostki to Bernoulli . W tym przypadku funkcję logistyczną dla widocznych jednostek zastępuje funkcja softmax

gdzie K jest liczbą dyskretnych wartości, które mają widoczne wartości. Stosowane są w systemach modelowania tematów i rekomendacji .

Stosunek do innych modeli

Ograniczone maszyny Boltzmanna są szczególnym przypadkiem maszyn Boltzmanna i pól losowych Markowa . Ich model graficzny odpowiada modelowi analizy czynnikowej .

Algorytm treningowy

Ograniczone maszyny Boltzmanna są uczone tak, aby zmaksymalizować iloczyn prawdopodobieństw przypisanych do jakiegoś zbioru uczącego (macierz, której każdy wiersz jest traktowany jako widoczny wektor ),

lub równoważnie, aby zmaksymalizować oczekiwane prawdopodobieństwo logarytmiczne próby uczącej wybranej losowo z :

Algorytm najczęściej używanym do trenowania RBM, czyli do optymalizacji wektora wagowego , jest algorytm rozbieżności kontrastowej (CD) autorstwa Hintona , pierwotnie opracowany do trenowania modeli PoE ( produkt ekspertów ). Algorytm wykonuje próbkowanie Gibbsa i jest używany w procedurze gradientu (podobnie jak propagacja wsteczna jest używana w takiej procedurze podczas uczenia sieci neuronowych ze sprzężeniem do przodu) do obliczania aktualizacji wagi.

Podstawową, jednoetapową procedurę kontrastywnej dywergencji (CD-1) dla pojedynczej próbki można podsumować w następujący sposób:

  1. Weź próbkę treningową v , oblicz prawdopodobieństwa ukrytych jednostek i próbuj ukryty wektor aktywacji h z tego rozkładu prawdopodobieństwa.
  2. Oblicza zewnętrzną produkt o v i h i nazywają to dodatni gradient .
  3. Z h , próbkuj rekonstrukcję v' widocznych jednostek, a następnie ponownie próbkuj ukryte aktywacje h' z tego. (Krok próbkowania Gibbsa)
  4. Oblicza zewnętrzną produkt o v „ i h” i nazywają to ujemny gradient .
  5. Niech aktualizacja macierzy wag będzie równa gradientowi dodatniemu minus gradientowi ujemnemu pomnożonemu przez pewną szybkość uczenia się: .
  6. Aktualizować uprzedzeń i b analogicznie: , .

Praktyczny przewodnik po szkoleniach RBM napisany przez Hintona można znaleźć na jego stronie internetowej.

Literatura

  • Fischera, Asji; Igel, Christian (2012), „Wprowadzenie do ograniczonych maszyn Boltzmanna” , Postęp w rozpoznawaniu wzorców, analiza obrazu , widzenie komputerowe i aplikacje , Berlin, Heidelberg: Springer Berlin Heidelberg, s. 14-36 , pobrane 19.09.2021

Zobacz też

Bibliografia

Zewnętrzne linki