Algorytm oczekiwania-maksymalizacji - Expectation–maximization algorithm

W statystykach , oczekiwanie-maksymalizacja ( EM ) algorytm jest iteracyjny sposób znaleźć (lokalne) maksymalne prawdopodobieństwo lub maksimum a posteriori (MAP) oszacowania parametrów w modelach statystycznych , gdzie model zależy od niedostrzegalnych zmiennych ukrytych . Iteracja EM naprzemiennie wykonuje krok oczekiwania (E), który tworzy funkcję oczekiwania logarytmicznego prawdopodobieństwa ocenionego przy użyciu bieżącego oszacowania parametrów oraz krok maksymalizacji (M), który oblicza parametry maksymalizujące oczekiwany logarytm. prawdopodobieństwo znaleźć na E kroku. Te oszacowania parametrów są następnie wykorzystywane do określenia rozkładu zmiennych ukrytych w następnym etapie E.

Grupowanie EM danych dotyczących erupcji Old Faithful . Do obserwowanych danych pasuje losowy model początkowy (który ze względu na różne skale osi wydaje się być dwiema bardzo płaskimi i szerokimi sferami). W pierwszych iteracjach model zmienia się znacząco, ale potem zbiega się do dwóch trybów gejzeru . Wizualizacja za pomocą ELKI .

Historia

Algorytm EM został wyjaśniony i nazwany w klasycznym artykule z 1977 roku autorstwa Arthura Dempstera , Nan Laird i Donalda Rubina . Wskazywali, że metoda ta była „wielokrotnie proponowana w szczególnych okolicznościach” przez wcześniejszych autorów. Jedną z najwcześniejszych jest metoda zliczania genów do szacowania częstości alleli Cedrica Smitha . Bardzo szczegółowe omówienie metody EM dla rodzin wykładniczych zostało opublikowane przez Rolfa Sundberga w swojej pracy magisterskiej i kilku pracach po jego współpracy z Perem Martinem-Löfem i Andersem Martinem-Löfem . Artykuł Dempstera-Lairda-Rubina z 1977 roku uogólnił metodę i naszkicował analizę zbieżności dla szerszej klasy problemów. Artykuł Dempstera-Lairda-Rubina ustanowił metodę EM jako ważne narzędzie analizy statystycznej.

Analiza zbieżności algorytmu Dempstera-Lairda-Rubina była błędna, a poprawna analiza zbieżności została opublikowana przez CF Jeff Wu w 1983 roku. Dowód Wu ustalił zbieżność metody EM poza rodziną wykładniczą , jak twierdzi Dempster-Laird-Rubin.

Wstęp

Algorytm EM służy do znajdowania (lokalnych) parametrów największej wiarygodności modelu statystycznego w przypadkach, gdy równania nie mogą być rozwiązane bezpośrednio. Zazwyczaj modele te obejmują zmienne latentne oprócz nieznanych parametrów i znanych obserwacji danych. Oznacza to, że albo wśród danych istnieją brakujące wartości , albo model można sformułować w prostszy sposób, zakładając istnienie dalszych nieobserwowanych punktów danych. Na przykład model mieszaniny można opisać w prostszy sposób, zakładając, że każdy obserwowany punkt danych ma odpowiedni nieobserwowany punkt danych lub zmienną utajoną, określającą składnik mieszaniny, do którego należy każdy punkt danych.

Znalezienie maksymalnego prawdopodobieństwa rozwiązania zazwyczaj wymagają podjęcia pochodne o funkcji prawdopodobieństwa , w odniesieniu do każdego z nieznanych wartości, parametrów i zmiennych utajonych i jednocześnie rozwiązanie uzyskanego równań. W modelach statystycznych ze zmiennymi latentnymi jest to zwykle niemożliwe. Zamiast tego wynikiem jest zazwyczaj zestaw powiązanych równań, w których rozwiązanie parametrów wymaga wartości zmiennych ukrytych i odwrotnie, ale zastąpienie jednego zestawu równań drugim daje nierozwiązywalne równanie.

Algorytm EM wychodzi z obserwacji, że istnieje sposób na numeryczne rozwiązanie tych dwóch zestawów równań. Można po prostu wybrać dowolne wartości dla jednego z dwóch zestawów niewiadomych, użyć ich do oszacowania drugiego zestawu, a następnie użyć tych nowych wartości, aby znaleźć lepsze oszacowanie pierwszego zestawu, a następnie kontynuować naprzemiennie między nimi, aż do uzyskania obu wartości. zbiegają się do stałych punktów. Nie jest oczywiste, że to zadziała, ale można to udowodnić w tym kontekście. Dodatkowo można wykazać, że pochodna prawdopodobieństwa jest w tym punkcie (arbitralnie bliska) zeru, co z kolei oznacza, że ​​punkt ten jest albo lokalnym maksimum, albo punktem siodłowym . Ogólnie rzecz biorąc, może wystąpić wiele maksimów, bez gwarancji, że zostanie znalezione maksimum globalne. Niektóre prawdopodobieństwa również mają w sobie osobliwości , tj. bezsensowne maksima. Na przykład jedno z rozwiązań, które może znaleźć EM w modelu mieszanym, polega na ustawieniu jednego ze składników tak, aby miał zerową wariancję, a parametr średni dla tego samego składnika był równy jednemu z punktów danych.

Opis

Ze względu na model statystyczny , który generuje zestaw obserwowanych danych, zestaw niedotrzymanego danych utajonego lub brakujących wartości , oraz wektorem nieznanych parametrów wraz z funkcji prawdopodobieństwa The oszacowanie największej wiarygodności (MLE) nieznanych parametrów, wyznacza się poprzez maksymalizację marginalny prawdopodobieństwo obserwowanego danych

Jednak ta ilość jest często niemożliwa do opanowania, ponieważ nie jest obserwowana, a rozkład jest nieznany przed osiągnięciem .

Algorytm EM stara się znaleźć MLE marginalnego prawdopodobieństwa poprzez iteracyjne zastosowanie tych dwóch kroków:

Krok oczekiwanie (etap E) : Zdefiniuj jako wartości oczekiwanej dziennika funkcji prawdopodobieństwa w odniesieniu do aktualnego rozkładu warunkowego o podane i obecnych szacunków parametrów :
Krok maksymalizacji (krok M) : Znajdź parametry, które maksymalizują tę ilość:

Typowe modele, do których stosuje się EM, wykorzystują jako zmienną ukrytą wskazującą przynależność do jednej z grup:

  1. Obserwowane punkty danych mogą być dyskretne (przyjmujące wartości w skończonym lub przeliczalnie nieskończonym zbiorze) lub ciągłe (przyjmujące wartości w nieprzeliczalnie nieskończonym zbiorze). Z każdym punktem danych może wiązać się wektor obserwacji.
  2. Te brakujące wartości (aka zmienne utajone ) są dyskretne , sporządzony z określonej liczby wartości oraz z jednego utajonego zmiennej za obserwowaną urządzenia.
  3. Parametry są ciągłe i są dwojakiego rodzaju: Parametry, które są powiązane ze wszystkimi punktami danych i te związane z określoną wartością zmiennej ukrytej (tj. powiązane ze wszystkimi punktami danych, którym odpowiadająca zmienna ukryta ma tę wartość).

Jednak możliwe jest zastosowanie EM do innych rodzajów modeli.

Motywacja jest następująca. Jeśli wartość parametrów jest znana, zwykle wartość zmiennych ukrytych można znaleźć, maksymalizując logarytm prawdopodobieństwa dla wszystkich możliwych wartości , albo po prostu przez iterację lub przez algorytm, taki jak algorytm Bauma-Welcha dla ukrytego Markowa modele . I odwrotnie, jeśli znamy wartość ukrytych zmiennych , możemy dość łatwo znaleźć oszacowanie parametrów , zazwyczaj po prostu grupując obserwowane punkty danych według wartości powiązanej ukrytej zmiennej i uśredniając wartości lub jakąś funkcję wartości punktów w każdej grupie. Sugeruje to algorytm iteracyjny w przypadku, gdy oba i są nieznane:

  1. Najpierw zainicjuj parametry do pewnych losowych wartości.
  2. Oblicz prawdopodobieństwo każdej możliwej wartości podanej .
  3. Następnie użyj właśnie obliczonych wartości , aby obliczyć lepsze oszacowanie parametrów .
  4. Powtarzaj kroki 2 i 3 aż do zbieżności.

Algorytm opisany powyżej monotonicznie zbliża się do lokalnego minimum funkcji kosztu.

Nieruchomości

Mówienie o kroku oczekiwania (E) jest trochę mylące . W pierwszym kroku obliczane są stałe, zależne od danych parametry funkcji Q . Gdy parametry Q są znane, jest ono w pełni określone i maksymalizowane w drugim (M) kroku algorytmu EM.

Chociaż iteracja EM zwiększa obserwowane dane (tj. marginalną) funkcję wiarygodności, nie ma gwarancji, że sekwencja zbiega się do estymatora największej wiarygodności . W przypadku rozkładów multimodalnych oznacza to, że algorytm EM może być zbieżny do lokalnego maksimum obserwowanej funkcji wiarygodności danych, w zależności od wartości początkowych. Istnieją różne podejścia heurystyczne lub metaheurystyczne , aby uniknąć lokalnego maksimum, takie jak wspinanie się pod górę z losowym ponownym startem (zaczynając od kilku różnych losowych wstępnych szacunków θ ( t ) ) lub stosowanie metod symulowanego wyżarzania .

EM jest szczególnie przydatne, gdy prawdopodobieństwo jest rodziną wykładniczą : krok E staje się sumą oczekiwań wystarczających statystyk , a krok M obejmuje maksymalizację funkcji liniowej. W takim przypadku zwykle możliwe jest wyprowadzenie aktualizacji wyrażeń w formie zamkniętej dla każdego kroku przy użyciu formuły Sundberga (opublikowanej przez Rolfa Sundberga przy użyciu niepublikowanych wyników Per Martin-Löf i Anders Martin-Löf ).

Metoda EM została zmodyfikowana w celu obliczenia maksimum a posteriori (MAP) oszacowań dla wnioskowania bayesowskiego w oryginalnej pracy Dempstera, Lairda i Rubina.

Istnieją inne metody, aby znaleźć maksymalne szacunki prawdopodobieństwa takich jak metoda gradientu prostego , sprzężonego gradientu lub warianty algorytmu Gaussa-Newtona . W przeciwieństwie do EM, takie metody zazwyczaj wymagają oceny pierwszej i/lub drugiej pochodnej funkcji wiarygodności.

Dowód poprawności

Maksymalizacja oczekiwań ma na celu poprawę, a nie bezpośrednią poprawę . Tutaj pokazano, że ulepszenia pierwszego oznaczają ulepszenia drugiego.

Dla dowolnego z niezerowym prawdopodobieństwem możemy napisać

Bierzemy oczekiwanie na możliwe wartości nieznanych danych w ramach bieżącego oszacowania parametru , mnożąc obie strony przez i sumując (lub całkując) przez . Lewa strona to oczekiwanie stałej, więc otrzymujemy:

gdzie jest określone przez zanegowaną sumę, którą zastępuje. To ostatnie równanie obowiązuje dla każdej wartości zawierającej ,

i odjęcie tego ostatniego równania od poprzedniego daje

Jednak nierówność Gibbsa mówi nam, że , więc możemy stwierdzić, że

Słowem, decyzja o poprawie powoduje przynajmniej taką samą poprawę.

Jako procedura maksymalizacji – maksymalizacji

Algorytm EM może być postrzegany jako dwa naprzemienne kroki maksymalizacji, czyli jako przykład opadania współrzędnych . Rozważ funkcję:

gdzie q jest dowolnym rozkładem prawdopodobieństwa na nieobserwowanych danych z, a H(q) jest entropią rozkładu q . Ta funkcja może być zapisana jako

gdzie jest warunkowym rozkładem danych nieobserwowanych przy danych obserwowanych i jest dywergencją Kullbacka-Leiblera .

Następnie kroki w algorytmie EM można traktować jako:

Krok oczekiwania : Wybierz, aby zmaksymalizować :
Krok maksymalizacji : Wybierz, aby zmaksymalizować :

Aplikacje

EM jest często używany do szacowania parametrów modeli mieszanych , zwłaszcza w genetyce ilościowej .

W psychometrii EM jest ważnym narzędziem do szacowania parametrów pozycji i ukrytych zdolności modeli teorii odpowiedzi na pozycje .

Dzięki możliwości radzenia sobie z brakującymi danymi i obserwowania niezidentyfikowanych zmiennych, EM staje się użytecznym narzędziem do wyceny i zarządzania ryzykiem portfela.

Algorytm EM (i jego szybszy wariant maksymalizacji uporządkowanych podzbiorów ) jest również szeroko stosowany w rekonstrukcji obrazów medycznych , zwłaszcza w pozytonowej tomografii emisyjnej , tomografii komputerowej z emisją pojedynczych fotonów i rentgenowskiej tomografii komputerowej . Zobacz poniżej inne szybsze warianty EM.

W inżynierii budowlanej algorytm Structural Identification using Expectation Maximization (STRIDE) jest metodą wyjściową do identyfikowania właściwości drgań własnych systemu konstrukcyjnego przy użyciu danych z czujników (patrz Operacyjna analiza modalna ).

EM jest również używany do grupowania danych . W przetwarzaniu języka naturalnego dwa główne przykłady tego algorytmu to algorytm Bauma-Welcha dla ukrytych modeli Markowa oraz algorytm inside-outside do nienadzorowanej indukcji probabilistycznych gramatyk bezkontekstowych .

Filtrowanie i wygładzanie algorytmów EM

Filtr Kalmana jest zwykle stosowany do oceny stanu on-line i gładszą minimalnej wariancji można stosować off-line lub estymacji stanu wsadowego. Jednak te rozwiązania o minimalnej wariancji wymagają oszacowania parametrów modelu w przestrzeni stanów. Algorytmy EM mogą być wykorzystywane do rozwiązywania problemów szacowania stanu i parametrów złączy.

Algorytmy filtrowania i wygładzania EM powstają poprzez powtórzenie tej dwuetapowej procedury:

E-krok
Obsługuj filtr Kalmana lub wygładzacz o minimalnej wariancji zaprojektowany z bieżącymi oszacowaniami parametrów, aby uzyskać zaktualizowane oszacowania stanu.
M-krok
Użyj filtrowanych lub wygładzonych oszacowań stanu w ramach obliczeń maksymalnego prawdopodobieństwa, aby uzyskać zaktualizowane oszacowania parametrów.

Załóżmy, że filtr Kalmana lub wygładzacz o minimalnej wariancji działa na pomiarach systemu z jednym wejściem i jednym wyjściem, które posiadają addytywny biały szum. Zaktualizowaną ocenę wariancji szumu pomiarowego można uzyskać z obliczenia maksymalnego prawdopodobieństwa

gdzie są skalarnymi estymatami wyjściowymi obliczonymi przez filtr lub wygładzanie z N pomiarów skalarnych . Powyższą aktualizację można również zastosować do aktualizacji natężenia szumu pomiaru Poissona. Podobnie, dla procesu autoregresyjnego pierwszego rzędu, zaktualizowaną ocenę wariancji szumu procesu można obliczyć za pomocą:

gdzie i są oszacowaniami stanu skalarnego obliczonymi przez filtr lub wygładzacz. Zaktualizowane oszacowanie współczynnika modelu uzyskuje się poprzez

Zbieżność szacunków parametrów, takich jak te powyżej, jest dobrze zbadana.

Warianty

Zaproponowano szereg metod przyspieszających czasami powolną zbieżność algorytmu EM, takich jak metody wykorzystujące gradient sprzężony i zmodyfikowane metody Newtona (Newtona-Raphsona). Ponadto EM można stosować z metodami estymacji z ograniczeniami.

Algorytm maksymalizacji oczekiwań z parametrami rozszerzonymi (PX-EM) często zapewnia przyspieszenie poprzez „stosowanie „dostosowania kowariancji” w celu skorygowania analizy kroku M, wykorzystując dodatkowe informacje przechwycone w przypisanych pełnych danych”.

Maksymalizację oczekiwań warunkowy (ECM) Następnie każdy etap M z sekwencją maksymalizacji warunkowego (cm) etapy, w których każdy parametr θ I jest zmaksymalizowane indywidualnie warunkowo innych parametrów pozostała stała. Sama może zostać rozszerzona do algorytmu warunkowej maksymalizacji oczekiwań (ECME) .

Idea ta jest dalej rozszerzona w algorytmie uogólnionej maksymalizacji oczekiwań (GEM) , w którym poszukuje się tylko zwiększenia funkcji celu F zarówno dla kroku E, jak i kroku M, jak opisano w sekcji As a procedura maksymalizacji . GEM jest dalej rozwijany w środowisku rozproszonym i wykazuje obiecujące wyniki.

Można również traktować algorytm EM jako podklasę algorytmu MM (Majorize/Minimalize lub Minorize/Maximize, w zależności od kontekstu), a zatem użyć dowolnej maszyny opracowanej w bardziej ogólnym przypadku.

Algorytm α-EM

Funkcja Q używana w algorytmie EM opiera się na logarytmicznym prawdopodobieństwie prawdopodobieństwa. Dlatego jest uważany za algorytm log-EM. Wykorzystanie logarytmicznej wiarygodności można uogólnić do ilorazu wiarygodności α-log. Następnie współczynnik wiarygodności α-log obserwowanych danych można dokładnie wyrazić jako równość za pomocą funkcji Q współczynnika wiarygodności α-log i dywergencji α. Uzyskanie tej funkcji Q jest uogólnionym krokiem E. Jego maksymalizacja jest uogólnionym krokiem M. Ta para nazywa się algorytmem α-EM, który zawiera algorytm log-EM jako swoją podklasę. Zatem algorytm α-EM autorstwa Yasuo Matsuyamy jest dokładnym uogólnieniem algorytmu log-EM. Nie jest potrzebne obliczanie gradientu ani macierzy Hessian. α-EM wykazuje szybszą zbieżność niż algorytm log-EM poprzez wybór odpowiedniego α. Algorytm α-EM prowadzi do szybszej wersji algorytmu estymacji modelu ukrytego Markowa α-HMM.

Związek z wariacyjnymi metodami Bayesa

EM jest częściowo niebayesowską metodą największej wiarygodności. Jego końcowy wynik daje rozkład prawdopodobieństwa nad zmiennymi latentnymi (w stylu bayesowskim) wraz z oszacowaniem punktowym dla θ (albo oszacowanie największego prawdopodobieństwa, albo tryb a posteriori). Może być potrzebna w pełni bayesowska wersja tego, dająca rozkład prawdopodobieństwa na θ i zmienne latentne. Bayesowskie podejście do wnioskowania polega po prostu na traktowaniu θ jako kolejnej zmiennej latentnej. W tym paradygmacie znika rozróżnienie między krokami E i M. Jeśli używasz aproksymacji współczynnika Q, jak opisano powyżej ( wariacyjne Bayesa ), rozwiązywanie może iterować po każdej zmiennej latentnej (teraz włączając θ ) i optymalizować je pojedynczo. Teraz potrzebne jest k kroków na iterację, gdzie k jest liczbą zmiennych ukrytych. W przypadku modeli graficznych jest to łatwe do wykonania, ponieważ nowe Q każdej zmiennej zależy tylko od jej koca Markowa , więc lokalne przekazywanie komunikatów może być użyte do wydajnego wnioskowania.

Interpretacja geometryczna

W geometrii informacji krok E i krok M są interpretowane jako rzuty w ramach podwójnych połączeń afinicznych , zwanych połączeniem e i połączeniem m; dywergencja Kullback-Leiblera można również rozumieć w tych warunkach.

Przykłady

Mieszanka Gaussa

Porównanie k-średnich i EM na sztucznych danych wizualizowanych za pomocą ELKI . Wykorzystując wariancje, algorytm EM może dokładnie opisać rozkłady normalne, podczas gdy k-średnie dzieli dane w komórkach Voronoia. Środek skupiska jest oznaczony jaśniejszym, większym symbolem.
Animacja przedstawiająca algorytm EM dopasowujący dwuskładnikowy model mieszaniny Gaussa do zbioru danych Old Faithful . Algorytm przechodzi od losowej inicjalizacji do zbieżności.

Niech będzie próbą niezależnych obserwacji z mieszaniny dwóch wielowymiarowych rozkładów normalnych wymiaru i niech będzie zmiennymi latentnymi, które określają składnik, z którego pochodzi obserwacja.

oraz

gdzie

oraz

Celem jest oszacowanie nieznanych parametrów reprezentujących wartość mieszania między Gaussami oraz średnimi i kowariancjami każdego z nich:

gdzie funkcja prawdopodobieństwa niekompletnych danych to

a funkcja prawdopodobieństwa pełnych danych to

lub

gdzie jest funkcją wskaźnika i jest funkcją gęstości prawdopodobieństwa wielowymiarowej normalnej.

W ostatniej równości, dla każdego i jeden wskaźnik jest równy zero, a jeden wskaźnik jest równy jeden. W ten sposób suma wewnętrzna redukuje się do jednego terminu.

E krok

Biorąc pod uwagę nasze obecne oszacowanie parametrów θ ( t ) , rozkład warunkowy Z i jest określony przez twierdzenie Bayesa jako proporcjonalna wysokość normalnej gęstości ważonej przez τ :

Są one nazywane „prawdopodobieństwami członkostwa”, które są zwykle uważane za wynik kroku E (chociaż nie jest to funkcja Q opisana poniżej).

Ten krok E odpowiada ustawieniu tej funkcji dla Q:

Oczekiwanie wewnątrz sumy jest brane z uwzględnieniem funkcji gęstości prawdopodobieństwa , która może być inna dla każdego zbioru uczącego. Wszystko w kroku E jest znane przed wykonaniem kroku z wyjątkiem , które jest obliczane zgodnie z równaniem na początku sekcji kroku E.

To pełne warunkowe oczekiwanie nie musi być obliczane w jednym kroku, ponieważ τ i μ / Σ pojawiają się w oddzielnych terminach liniowych i dlatego mogą być maksymalizowane niezależnie.

M krok

Q ( θ  |  θ ( t ) ) mające postać kwadratową oznacza, że ​​wyznaczenie maksymalizacji wartości θ jest stosunkowo proste. Również τ , ( μ 1 , Σ 1 ) i ( μ 2 , Σ 2 ) mogą być wszystkie maksymalizowane niezależnie, ponieważ wszystkie pojawiają się w oddzielnych kategoriach liniowych.

Na początek rozważmy τ , które ma ograniczenie τ 1 + τ 2 =1:

Ma taką samą postać jak MLE dla rozkładu dwumianowego , więc

Dla następnych szacunków ( μ 11 ):

Ma to taką samą postać jak ważony MLE dla rozkładu normalnego, więc

oraz

i przez symetrię,

oraz

Zakończenie

Zakończ proces iteracyjny, jeśli wartość jest niższa od ustalonego progu.

Uogólnienie

Przedstawiony powyżej algorytm można uogólnić dla mieszanin więcej niż dwóch wielowymiarowych rozkładów normalnych .

Skrócona i ocenzurowana regresja

Algorytm EM został zaimplementowany w przypadku, gdy istnieje podstawowy model regresji liniowej wyjaśniający zmienność pewnej wielkości, ale gdzie faktycznie obserwowane wartości są cenzurowanymi lub skróconymi wersjami tych przedstawionych w modelu. Szczególne przypadki tego modelu obejmują obserwacje ocenzurowane lub obcięte z jednego rozkładu normalnego .

Alternatywy

EM zazwyczaj zbiega się do lokalnego optimum, niekoniecznie globalnego, bez ogólnego ograniczenia szybkości zbieżności. Możliwe, że może być dowolnie ubogi w dużych wymiarach i może istnieć wykładnicza liczba optymów lokalnych. W związku z tym istnieje zapotrzebowanie na alternatywne metody gwarantowanego uczenia się, zwłaszcza w środowisku wielowymiarowym. Istnieją alternatywy dla EM dające lepsze gwarancje spójności, które określa się mianem podejścia opartego na momentach lub tak zwanych technik spektralnych . Podejścia oparte na momencie do uczenia się parametrów modelu probabilistycznego cieszą się ostatnio coraz większym zainteresowaniem, ponieważ mają takie gwarancje, jak globalna konwergencja w pewnych warunkach, w przeciwieństwie do EM, który często jest nękany problemem utknięcia w lokalnych optimach. Algorytmy z gwarancjami uczenia się można wyprowadzić dla wielu ważnych modeli, takich jak modele mieszane, HMM itp. W przypadku tych metod spektralnych nie występują żadne fałszywe optyma lokalne, a rzeczywiste parametry można konsekwentnie oszacować w pewnych warunkach regularności.

Zobacz też

Bibliografia

Dalsza lektura

  • Hogg, Robert; McKeana, Józefa; Craig, Allen (2005). Wprowadzenie do statystyki matematycznej . Upper Saddle River, NJ: Pearson Prentice Hall. s. 359-364.
  • Dellaert, Frank (2002). „Algorytm maksymalizacji oczekiwań”. CiteSeerX  10.1.1.1.9735 . Czasopismo|journal= cytowania wymaga ( help ) łatwiejszego wyjaśnienia algorytmu EM w zakresie maksymalizacji dolnej granicy.
  • Biskup, Christopher M. (2006). Rozpoznawanie wzorców i uczenie maszynowe . Skoczek. Numer ISBN 978-0-387-31073-2.
  • Gupta, MR; Chen, Y. (2010). „Teoria i zastosowanie algorytmu EM”. Podstawy i trendy w przetwarzaniu sygnałów . 4 (3): 223–296. CiteSeerX  10.1.1.219.6830 . doi : 10.1561/2000000034 . Dobrze napisana krótka książka o EM, zawierająca szczegółowe wyprowadzenie EM dla GMM, HMM i Dirichleta.
  • Bilmes, Jeff (1998). „Delikatny samouczek algorytmu EM i jego zastosowanie do szacowania parametrów dla mieszanin Gaussa i ukrytych modeli Markowa”. CiteSeerX  10.1.1.28.613 . Cite journal wymaga |journal=( help ) zawiera uproszczone wyprowadzenie równań EM dla mieszanin gaussowskich i ukrytych modeli Markowa dla mieszanin gaussowskich.
  • McLachlan, Geoffrey J.; Krishnan, Triyambakam (2008). Algorytm EM i rozszerzenia (wyd. 2). Hoboken: Wiley. Numer ISBN 978-0-471-20170-0.

Zewnętrzne linki