Model mieszany - Mixture model

W statystycznych , A modelu mieszaniny stanowi model probabilistyczny za reprezentujący obecność subpopulacji w ogólnej populacji, bez wymogu, aby obserwowana zestaw danych powinien określać sub-populacji, do której jednostka obserwację należy. Formalnie model mieszaniny odpowiada rozkładowi mieszaniny, który reprezentuje rozkład prawdopodobieństwa obserwacji w całej populacji. Jednak podczas gdy problemy związane z „rozkładami mieszanek” dotyczą wyprowadzania właściwości całej populacji z właściwości subpopulacji, „modele mieszane” są wykorzystywane do wnioskowania statystycznego na temat właściwości podpopulacji na podstawie jedynie obserwacji dotyczących populacja zbiorcza, bez informacji o tożsamości subpopulacji.

Modele mieszanina nie powinna być mylona z modeli dla danych dotyczących składu , czyli danych, których składniki są ograniczone do sumy na wartość stałą (1, 100%, etc.). Jednak modele kompozycyjne można traktować jako modele mieszane, w których członkowie populacji są wybierani losowo. Odwrotnie, modele mieszane można traktować jako modele kompozycyjne, w których całkowita populacja odczytu została znormalizowana do 1.

Struktura

Ogólny model mieszanki

Typowy skończenie wymiarowy model mieszaniny to model hierarchiczny składający się z następujących elementów:

  • N obserwuje się zmienne losowe, z których każda jest rozłożona według mieszaniny składników K , ze składnikami należącymi do tej samej rodziny rozkładów parametrycznych (np. wszystkie normalne , wszystkie Zipfian itp.), ale o różnych parametrach
  • N losowych zmiennych latentnych określających tożsamość składnika mieszaniny każdej obserwacji, każda rozłożona zgodnie z K- wymiarowym rozkładem kategorycznym
  • Zbiór wag mieszanin K , które są prawdopodobieństwami, które sumują się do 1.
  • Zestaw parametrów K , z których każdy określa parametr odpowiedniego składnika mieszaniny. W wielu przypadkach każdy „parametr” jest w rzeczywistości zestawem parametrów. Na przykład, jeśli składniki mieszaniny są rozkładami Gaussa , dla każdego składnika będzie średnia i wariancja . Jeżeli składniki mieszaniny są rozkładami kategorycznymi (np. gdy każda obserwacja jest tokenem ze skończonego alfabetu o rozmiarze V ), będzie wektor prawdopodobieństw V sumujących się do 1.

Ponadto w ustawieniu bayesowskim wagi i parametry mieszanin będą same w sobie zmiennymi losowymi, a nad zmiennymi zostaną umieszczone wcześniejsze rozkłady . W takim przypadku wagi są zazwyczaj postrzegane jako K- wymiarowy losowy wektor wylosowany z rozkładu Dirichleta ( sprzężony wcześniejszy rozkład kategoryczny), a parametry zostaną rozłożone zgodnie z ich odpowiednimi sprzężonymi uprzednimi.

Matematycznie podstawowy model mieszaniny parametrycznej można opisać w następujący sposób:

W ustawieniu bayesowskim wszystkie parametry są powiązane ze zmiennymi losowymi w następujący sposób:

Ta charakterystyka wykorzystuje F i H do opisania arbitralnych rozkładów odpowiednio w obserwacjach i parametrach. Zazwyczaj H będą sprzężone, przed od F . Dwa najczęstsze wybory F to Gaussian, czyli „ normalny ” (dla obserwacji o wartościach rzeczywistych) i kategoryczny (dla obserwacji dyskretnych). Inne powszechne możliwości dystrybucji składników mieszaniny to:

  • Rozkład dwumianowy dla liczby „pozytywnych wystąpień” (np. sukcesów, głosów „tak” itp.) przy ustalonej łącznej liczbie wystąpień
  • Rozkład wielomianowy , podobny do rozkładu dwumianowego, ale dla liczby wystąpień wielomianowych (np. tak/nie/być może w ankiecie)
  • Ujemny rozkład dwumianowy , dla obserwacji typu dwumianowego, ale gdzie interesującą wielkością jest liczba niepowodzeń przed wystąpieniem określonej liczby sukcesów
  • Rozkład Poissona , dla liczby wystąpień zdarzenia w danym okresie czasu, dla zdarzenia charakteryzującego się stałą częstością występowania
  • Rozkład wykładniczy , dla czasu przed wystąpieniem kolejnego zdarzenia, dla zdarzenia charakteryzującego się stałą częstością występowania
  • Rozkład logarytmiczno-normalny , dla dodatnich liczb rzeczywistych, co do których zakłada się wykładniczy wzrost, takich jak dochody lub ceny
  • Wielowymiarowy rozkład normalny (inaczej wielowymiarowy rozkład Gaussa), dla wektorów skorelowanych wyników, które są indywidualnie rozłożone Gaussa
  • Wielowymiarowy rozkład t- Studenta , dla wektorów skorelowanych wyników gruboogonowych
  • Wektor wartości rozłożonych przez Bernoulliego , odpowiadający np. obrazowi czarno-białemu, przy czym każda wartość reprezentuje piksel; patrz poniższy przykład rozpoznawania pisma ręcznego

Konkretne przykłady

Model mieszaniny Gaussa

Niebayesowski model mieszaniny Gaussa z wykorzystaniem notacji płytowej . Mniejsze kwadraty oznaczają stałe parametry; większe kółka oznaczają zmienne losowe. Wypełnione kształty wskazują znane wartości. Oznaczenie [K] oznacza wektor o wielkości K .

Typowy niebayesowski model mieszaniny Gaussa wygląda tak:

Bayesowski model mieszaniny gaussowskiej z wykorzystaniem notacji płytowej . Mniejsze kwadraty oznaczają stałe parametry; większe kółka oznaczają zmienne losowe. Wypełnione kształty wskazują znane wartości. Oznaczenie [K] oznacza wektor o wielkości K .

Bayesowska wersja modelu mieszaniny Gaussa wygląda następująco:

Animacja procesu grupowania danych jednowymiarowych przy użyciu modelu Bayesa Gaussa, w którym rozkłady normalne są pobierane z procesu Dirichleta . Histogramy gromad są pokazane w różnych kolorach. W trakcie procesu estymacji parametrów tworzone są nowe klastry i rosną na danych. Legenda przedstawia kolory klastra i liczbę punktów danych przypisanych do każdego klastra.

Wielowymiarowy model mieszaniny Gaussa

Bayesowski model mieszaniny gaussowskiej jest powszechnie rozszerzany w celu dopasowania do wektora nieznanych parametrów (oznaczonych pogrubioną czcionką) lub wielowymiarowych rozkładów normalnych. W rozkładzie wielowymiarowym (tj. modelującym wektor z N zmiennymi losowymi) można modelować wektor parametrów (takich jak kilka obserwacji sygnału lub plam na obrazie) przy użyciu modelu mieszaniny Gaussa uprzedniego rozkładu na wektorze oszacowań podanych przez

gdzie i- ty składnik wektora charakteryzuje rozkłady normalne z wagami , średnimi i macierzami kowariancji . Aby włączyć ten priorytet do estymacji bayesowskiej, należy go mnożyć przez znany rozkład danych uwarunkowany parametrami, które mają zostać oszacowane. W tym sformułowaniu rozkład a posteriori jest również modelem mieszaniny gaussowskiej postaci

z nowymi parametrami i które są aktualizowane za pomocą algorytmu EM . Chociaż aktualizacje parametrów oparte na EM są dobrze ugruntowane, dostarczanie wstępnych szacunków dla tych parametrów jest obecnie obszarem aktywnych badań. Należy zauważyć, że ten preparat daje rozwiązanie w postaci zamkniętej dla pełnego rozkładu tylnego. Oszacowania zmiennej losowej można uzyskać za pomocą jednego z kilku estymatorów, takich jak średnia lub maksimum rozkładu a posteriori.

Takie rozkłady są przydatne na przykład przy zakładaniu łatkowych kształtów obrazów i klastrów. W przypadku reprezentacji obrazu, każdy gaussowski może być pochylony, rozszerzony i wypaczony zgodnie z macierzami kowariancji . Do każdej plamki (zwykle o rozmiarze 8x8 pikseli) na obrazie dopasowywany jest jeden rozkład Gaussa zestawu. Warto zauważyć, że każdy rozkład punktów wokół klastra (patrz k -średnie ) może być dokładnie przypisany do wystarczającej liczby składowych Gaussa, ale niewiele ponad K =20 składowych jest potrzebnych do dokładnego modelowania danego rozkładu obrazu lub klastra danych.

Model mieszaniny kategorycznej

Niebayesowski model mieszaniny kategorycznej z wykorzystaniem notacji płytowej . Mniejsze kwadraty oznaczają stałe parametry; większe kółka oznaczają zmienne losowe. Wypełnione kształty wskazują znane wartości. Oznaczenie [K] oznacza wektor o rozmiarze K ; podobnie dla [V].

Typowy niebayesowski model mieszaniny z obserwacjami kategorycznymi wygląda tak:

  • jak wyżej
  • jak wyżej
  • jak wyżej
  • wymiar obserwacji kategorycznych, np. wielkość słownictwa wyrazów
  • prawdopodobieństwo dla składnika obserwowanego elementu
  • wektor wymiaru złożony z musi sumować się do 1

Zmienne losowe:


Bayesowski model mieszaniny jakościowej z wykorzystaniem notacji płytowej . Mniejsze kwadraty oznaczają stałe parametry; większe kółka oznaczają zmienne losowe. Wypełnione kształty wskazują znane wartości. Oznaczenie [K] oznacza wektor o rozmiarze K ; podobnie dla [V].

Typowy model mieszaniny bayesowskiej z obserwacjami kategorycznymi wygląda tak:

  • jak wyżej
  • jak wyżej
  • jak wyżej
  • wymiar obserwacji kategorycznych, np. wielkość słownictwa wyrazów
  • prawdopodobieństwo dla składnika obserwowanego elementu
  • wektor wymiaru złożony z musi sumować się do 1
  • wspólny hiperparametr stężenia dla każdego składnika
  • hiperparametr stężenia

Zmienne losowe:


Przykłady

Model finansowy

Rozkład normalny jest wykreślany przy użyciu różnych średnich i wariancji

Zwroty finansowe często zachowują się inaczej w normalnych sytuacjach iw czasach kryzysu. Rozsądny wydaje się model mieszany danych zwrotów. Czasami używanym modelem jest model skokowo-dyfuzyjny lub połączenie dwóch rozkładów normalnych. Zobacz Ekonomia finansowa # Wyzwania i krytyka dla dalszego kontekstu.

ceny domów

Załóżmy, że obserwujemy ceny N różnych domów. Różne rodzaje domów w różnych dzielnicach będą miały bardzo różne ceny, ale cena określonego rodzaju domu w określonej dzielnicy (np. dom z trzema sypialniami w umiarkowanie ekskluzywnej dzielnicy) będzie raczej skupiać się dość blisko średniej. Jednym z możliwych modeli takich cen byłoby założenie, że ceny są dokładnie opisane przez model mieszany z K różnych składników, z których każdy ma rozkład normalny o nieznanej średniej i wariancji, przy czym każdy składnik określa konkretną kombinację typu domu/sąsiedztwa. Dopasowanie tego modelu do obserwowanych cen, np. przy użyciu algorytmu maksymalizacji oczekiwań , doprowadziłoby do grupowania cen według typu domu/sąsiedztwa i ujawnienia rozrzutu cen w każdym typie/sąsiedztwie. (Zauważ, że dla wartości, takich jak ceny lub dochody, które są gwarantowane jako dodatnie i które mają tendencję do wykładniczego wzrostu , rozkład logarytmiczno-normalny może być w rzeczywistości lepszym modelem niż rozkład normalny.)

Tematy w dokumencie

Załóżmy, że dokument składa się z N różnych słów z całego słownika o rozmiarze V , gdzie każde słowo odpowiada jednemu z K możliwych tematów. Rozkład takich słów może być modelowany jako mieszanina K różnych V- wymiarowych rozkładów kategorialnych . Model tego rodzaju jest powszechnie nazywany modelem tematycznym . Należy zauważyć, że maksymalizacja oczekiwań zastosowana do takiego modelu zazwyczaj nie daje realistycznych wyników (między innymi) z powodu nadmiernej liczby parametrów . Aby uzyskać dobre wyniki, zazwyczaj konieczne są pewne dodatkowe założenia. Zazwyczaj do modelu dodawane są dwa rodzaje dodatkowych komponentów:

  1. Przed rozkład umieszcza się parametrów opisujących rozkład tematów, przy użyciu Dirichleta rozkładu z parametrem stężenia , który jest ustawiony znacznie poniżej 1, tak aby sprzyjać rozkład rzadkich (w których tylko niewielka liczba słów znacząco niezerowe prawdopodobieństwa).
  2. Tożsamości tematyczne słów nakłada się na pewien rodzaj dodatkowego ograniczenia, aby wykorzystać naturalne grupowanie.
  • Na przykład łańcuch Markowa mógłby zostać umieszczony na tożsamościach tematów (tj. zmiennych latentnych określających składnik mieszaniny każdej obserwacji), co odpowiada faktowi, że pobliskie słowa należą do podobnych tematów. (Skutkuje to ukrytym modelem Markowa , w szczególności takim, w którym wcześniejszy rozkład jest umieszczany nad przejściami stanów, które faworyzują przejścia pozostające w tym samym stanie.)
  • Inną możliwością jest ukryty model alokacji Dirichleta , który dzieli słowa na D różnych dokumentów i zakłada, że ​​w każdym dokumencie występuje tylko niewielka liczba tematów z dowolną częstotliwością.

Rozpoznawanie pisma odręcznego

Poniższy przykład jest oparty na przykładzie w Christopher M. Bishop , Rozpoznawanie wzorców i uczenie maszynowe .

Wyobraź sobie, że otrzymujemy czarno-biały obraz N × N, o którym wiadomo, że jest skanem ręcznie zapisanej cyfry z zakresu od 0 do 9, ale nie wiemy, która cyfra została zapisana. Można utworzyć model mieszaninie z różnych składników, przy czym każdy składnik jest wektor o wymiarach od rozkładu Bernoulliego (po jednym na piksel). Taki model można wytrenować za pomocą algorytmu maksymalizacji oczekiwań na nieoznakowanym zestawie odręcznych cyfr i skutecznie grupuje obrazy zgodnie z zapisywaną cyfrą. Ten sam model można następnie wykorzystać do rozpoznania cyfry innego obrazu, po prostu utrzymując stałe parametry, obliczając prawdopodobieństwo nowego obrazu dla każdej możliwej cyfry (proste obliczenie) i zwracając cyfrę, która wygenerowała największe prawdopodobieństwo.

Ocena dokładności pocisku (aka prawdopodobny błąd kołowy, CEP)

Modele mieszane mają zastosowanie w problemie kierowania wielu pocisków na cel (jak w zastosowaniach obrony powietrznej, lądowej lub morskiej), gdzie fizyczne i/lub statystyczne właściwości pocisków różnią się w obrębie wielu pocisków. Przykładem mogą być strzały z wielu rodzajów amunicji lub strzały z wielu miejsc, skierowane w jeden cel. Kombinację typów pocisków można scharakteryzować jako model mieszaniny Gaussa. Ponadto dobrze znaną miarą dokładności dla grupy pocisków jest prawdopodobny błąd kołowy (CEP), który jest liczbą R taką, że średnio połowa grupy pocisków znajduje się w okręgu o promieniu R wokół celu. punkt. Model mieszaniny można wykorzystać do określenia (lub oszacowania) wartości R . Model mieszanki prawidłowo wychwytuje różne rodzaje pocisków.

Zastosowania bezpośrednie i pośrednie

Powyższy przykład finansowy to jedno bezpośrednie zastosowanie modelu mieszanego, sytuacja, w której zakładamy mechanizm bazowy, tak że każda obserwacja należy do jednego z kilku różnych źródeł lub kategorii. Ten podstawowy mechanizm może, ale nie musi być obserwowalny. W tej postaci mieszanki każde ze źródeł jest opisane funkcją gęstości prawdopodobieństwa składnika, a jego waga mieszanki jest prawdopodobieństwem, że obserwacja pochodzi z tego składnika.

W pośrednim zastosowaniu modelu mieszaniny nie zakładamy takiego mechanizmu. Model mieszaniny jest po prostu używany ze względu na jego matematyczną elastyczność. Na przykład mieszanina dwóch rozkładów normalnych o różnych średnich może skutkować gęstością o dwóch trybach , która nie jest modelowana przez standardowe rozkłady parametryczne. Innym przykładem jest możliwość modelowania rozkładów mieszanin do modelowania ogonów grubszych niż podstawowe gaussowskie, tak aby być kandydatem do modelowania bardziej ekstremalnych zdarzeń. W połączeniu z dynamiczną spójnością podejście to zostało zastosowane do wyceny pochodnych instrumentów finansowych w obecności uśmiechu zmienności w kontekście lokalnych modeli zmienności . To definiuje naszą aplikację.

Konserwacja predykcyjna

Grupowanie oparte na modelu mieszanym jest również wykorzystywane głównie do identyfikacji stanu maszyny w ramach konserwacji predykcyjnej . Wykresy gęstości są używane do analizy gęstości obiektów wielowymiarowych. Jeżeli obserwuje się gęstości wielomodelowe, to zakłada się, że skończony zbiór gęstości jest tworzony przez skończony zbiór normalnych mieszanin. Wielowymiarowy model mieszaniny Gaussa służy do grupowania danych cech w k grup, gdzie k reprezentuje każdy stan maszyny. Stan maszyny może być stanem normalnym, stanem wyłączenia lub stanem wadliwym. Każdy utworzony klaster można zdiagnozować za pomocą technik takich jak analiza spektralna. W ostatnich latach jest to również szeroko stosowane w innych obszarach, takich jak wczesne wykrywanie usterek.

Rozmyta segmentacja obrazu

Przykład mieszaniny Gaussa w segmentacji obrazu z szarym histogramem

W przetwarzaniu obrazu i wizji komputerowej tradycyjne modele segmentacji obrazu często przypisują jednemu pikselowi tylko jeden wyjątkowy wzór. W rozmytej lub miękkiej segmentacji każdy wzór może mieć pewną „własność” nad dowolnym pojedynczym pikselem. Jeśli wzorce są gaussowskie, segmentacja rozmyta naturalnie skutkuje mieszaninami gaussowskimi. W połączeniu z innymi narzędziami analitycznymi lub geometrycznymi (np. przejściami fazowymi nad granicami dyfuzyjnymi) takie przestrzennie uregulowane modele mieszanin mogą prowadzić do bardziej realistycznych i wydajnych obliczeniowo metod segmentacji.

Rejestracja zestawu punktów

Probabilistyczne modele mieszanin, takie jak modele mieszanin Gaussa (GMM), są wykorzystywane do rozwiązywania problemów z rejestracją zbiorów punktów w przetwarzaniu obrazu i polach widzenia komputerowego. W przypadku rejestracji zbioru punktów w parach , jeden zbiór punktów jest traktowany jako centroidy modeli mieszanin, a drugi zbiór punktów jest traktowany jako punkty danych (obserwacje). Najnowocześniejsze metody to np. koherentny dryft punktowy (CPD) i modele mieszanin rozkładu t-Studenta (TMM). Wyniki ostatnich badań wykazują wyższość modeli mieszanin hybrydowych (np. połączenie rozkładu t-Studenta i rozkładu Watsona/ Binghama w celu oddzielnego modelowania pozycji przestrzennych i orientacji osi) w porównaniu z modelami CPD i TMM pod względem wrodzonej odporności, dokładności i zdolności dyskryminacyjnej .

Identyfikowalność

Identyfikowalność odnosi się do istnienia unikalnej charakterystyki każdego z modeli w rozważanej klasie (rodzinie). Procedury estymacji mogą nie być dobrze zdefiniowane, a teoria asymptotyczna może się nie sprawdzić, jeśli model nie jest identyfikowalny.

Przykład

Niech J będzie klasą wszystkich rozkładów dwumianowych z n = 2 . Wtedy mieszanka dwóch członków J miałaby

i p 2 = 1 − p 0p 1 . Oczywiście, przy danych p 0 i p 1 , nie jest możliwe jednoznaczne określenie powyższego modelu mieszaniny, ponieważ do wyznaczenia są trzy parametry ( π , θ 1 , θ 2 ).

Definicja

Rozważ mieszankę rozkładów parametrycznych tej samej klasy. Pozwolić

być klasą wszystkich dystrybucji komponentów. Wtedy wypukła powłoka K z J określa klasę wszystkich skończonych mieszanin rozkładów w J :

Mówi się, że K jest identyfikowalny, jeśli wszystkie jego elementy są niepowtarzalne, to znaczy, mając dwa elementy p i p′ w K , będące mieszaninami k rozkładów i k′ rozkładów odpowiednio w J , mamy p = p′ wtedy i tylko wtedy, gdy, po pierwsze, k = k′, a po drugie możemy zmienić kolejność sumowania tak, że a i = a i oraz ƒ i = ƒ i dla wszystkich i .

Estymacja parametrów i identyfikacja systemu

Modele mieszanin parametrycznych są często używane, gdy znamy rozkład Y i możemy próbkować z X , ale chcielibyśmy wyznaczyć wartości a i oraz θ i . Takie sytuacje mogą wystąpić w badaniach, w których pobieramy próbki z populacji składającej się z kilku odrębnych subpopulacji.

Powszechnie uważa się, że modelowanie mieszaniny prawdopodobieństwa to problem brakujących danych. Jednym ze sposobów zrozumienia tego jest założenie, że rozważane punkty danych mają „przynależność” do jednej z dystrybucji, których używamy do modelowania danych. Kiedy zaczynamy, to członkostwo jest nieznane lub brakuje. Zadaniem estymacji jest opracowanie odpowiednich parametrów dla wybranych przez nas funkcji modelu, przy czym powiązanie z punktami danych jest reprezentowane jako ich przynależność do poszczególnych rozkładów modelu.

Zaproponowano różne podejścia do problemu rozkładu mieszaniny, z których wiele koncentruje się na metodach największego prawdopodobieństwa, takich jak maksymalizacja oczekiwań (EM) lub estymacja maksimum a posteriori (MAP). Generalnie metody te rozpatrują oddzielnie kwestie identyfikacji systemu i estymacji parametrów; metody określania liczby i postaci funkcjonalnej składników w mieszaninie różnią się od metod szacowania odpowiednich wartości parametrów. Niektóre godne uwagi odejścia to metody graficzne opisane w Tarter i Lock, a ostatnio techniki minimalnej długości wiadomości (MML), takie jak Figueiredo i Jain oraz, do pewnego stopnia, procedury analizy wzorców dopasowania momentów sugerowane przez McWilliam i Loh (2009).

Maksymalizacja oczekiwań (EM)

Maksymalizacja oczekiwań (EM) jest pozornie najpopularniejszą techniką stosowaną do wyznaczania parametrów mieszaniny o określonej a priori liczbie składników. Jest to szczególny sposób implementacji szacowania maksymalnego prawdopodobieństwa dla tego problemu. EM jest szczególnie atrakcyjna dla skończonych mieszanin normalnych, w których możliwe są wyrażenia w formie zamkniętej, tak jak w następującym algorytmie iteracyjnym autorstwa Dempstera i in. (1977)

z prawdopodobieństwami a posteriori

Zatem na podstawie aktualnego oszacowania parametrów określa się prawdopodobieństwo warunkowe dla danej obserwacji x ( t ) generowanej ze stanu s dla każdego t = 1, …, N  ; N to wielkość próbki. Parametry są następnie aktualizowane w taki sposób, że nowe wagi składników odpowiadają średniemu prawdopodobieństwu warunkowemu, a każda średnia i kowariancja każdego składnika jest średnią ważoną danego składnika ze średniej i kowariancji całej próby.

Dempster wykazał również, że każda kolejna iteracja EM nie zmniejszy prawdopodobieństwa, czego nie mają inne techniki maksymalizacji oparte na gradientach. Co więcej, EM w naturalny sposób zawiera w sobie ograniczenia na wektor prawdopodobieństwa, a dla wystarczająco dużych liczebności próby dodatnia określoność kowariancji iteruje. Jest to kluczowa zaleta, ponieważ metody jawnie ograniczone wiążą się z dodatkowymi kosztami obliczeniowymi w celu sprawdzenia i utrzymania odpowiednich wartości. Teoretycznie EM jest algorytmem pierwszego rzędu i jako taki zbliża się powoli do rozwiązania stałoprzecinkowego. Redner i Walker (1984) dokonują tego, opowiadając się za superliniowymi i metodami Newtona drugiego rzędu i quasi-Newtona oraz donosząc o powolnej zbieżności w EM na podstawie ich testów empirycznych. Przyznają, że zbieżność prawdopodobieństwa była szybka, nawet jeśli zbieżność samych wartości parametrów nie była. Względne zalety EM i innych algorytmów w odniesieniu do konwergencji zostały omówione w innej literaturze.

Innymi częstymi zastrzeżeniami do stosowania EM są skłonność do fałszywego identyfikowania lokalnych maksimów, a także wykazywanie wrażliwości na wartości początkowe. Można rozwiązać te problemy, oceniając EM w kilku początkowych punktach w przestrzeni parametrów, ale jest to obliczeniowo kosztowne i inne podejścia, takie jak metoda wyżarzania EM Udea i Nakano (1998) (w której początkowe składniki są zasadniczo zmuszone do nakładania się, zapewnienie mniej heterogenicznej podstawy do wstępnych domysłów), może być preferowane.

Figueiredo i Jain zauważają, że zbieżność do „bezsensownych” wartości parametrów uzyskanych na granicy (tam, gdzie załamują się warunki regularności, np. Ghosh i Sen (1985)) jest często obserwowana, gdy liczba elementów modelu przekracza optymalną/prawdziwą. Na tej podstawie proponują ujednolicone podejście do estymacji i identyfikacji, w którym początkowe n jest wybierane tak, aby znacznie przekraczało oczekiwaną wartość optymalną. Ich procedura optymalizacji opiera się na kryterium minimalnej długości wiadomości (MML), które skutecznie eliminuje składnik kandydujący, jeśli nie ma wystarczających informacji, aby go wspierać. W ten sposób można usystematyzować redukcje n i wspólnie rozważyć estymację i identyfikację.

Algorytm Oczekiwanie Maksymalizacja może być używany do obliczania parametrów parametrycznego model dystrybucji mieszaniny (w A ı i θ I ). Jest to algorytm iteracyjny składający się z dwóch kroków: kroku oczekiwania i kroku maksymalizacji . Praktyczne przykłady EM i Mixture Modeling są zawarte w demonstracjach SOCR .

Krok oczekiwania

Przy początkowych domysłach dotyczących parametrów naszego modelu mieszaniny, „częściowe członkostwo” każdego punktu danych w każdym rozkładzie składników jest obliczane przez obliczenie wartości oczekiwanych dla zmiennych przynależności każdego punktu danych. Oznacza to, że dla każdego punktu danych x j i rozkładu Y i , wartość przynależności y i , j wynosi:

Krok maksymalizacji

Mając pod ręką wartości oczekiwane dla członkostwa w grupie, oszacowania wtyczek są ponownie obliczane dla parametrów dystrybucji.

Współczynniki mieszania a iśrednimi wartościami przynależności dla N punktów danych.

Parametry modelu składowego θ i są również obliczane przez maksymalizację oczekiwań przy użyciu punktów danych x j , które zostały zważone przy użyciu wartości przynależności. Na przykład, jeśli θ jest średnią μ

Z nowych szacunkach a I a θ i ' s, krok oczekiwanie jest powtarzany do przeliczyć nowe wartości członkostwa. Cała procedura jest powtarzana aż do zbieżności parametrów modelu.

Łańcuch Markowa Monte Carlo

Jako alternatywę dla algorytmu EM, parametry modelu mieszaniny można wyprowadzić za pomocą próbkowania a posteriori, zgodnie z twierdzeniem Bayesa . Jest to nadal uważane za problem niekompletnych danych, w którym brakami danych jest członkostwo w punktach danych. Można zastosować dwuetapową procedurę iteracyjną znaną jako próbkowanie Gibbsa .

Poprzedni przykład mieszaniny dwóch rozkładów Gaussa może zademonstrować, jak działa ta metoda. Tak jak poprzednio, dokonuje się wstępnych przypuszczeń parametrów dla modelu mieszanki. Zamiast obliczać przynależności częściowe dla każdego rozkładu elementarnego, wartość przynależności dla każdego punktu danych jest pobierana z rozkładu Bernoulliego (czyli zostanie przypisana do pierwszego lub drugiego Gaussa). Parametr Bernoulliego θ jest wyznaczany dla każdego punktu danych na podstawie jednego z rozkładów składowych. Rysunki z dystrybucji generują skojarzenia członkostwa dla każdego punktu danych. Estymatory typu plug-in można następnie wykorzystać, tak jak w kroku M EM, do wygenerowania nowego zestawu parametrów modelu mieszaniny i powtórzyć krok rysowania dwumianowego.

Dopasowanie momentu

Metoda dopasowywania chwili jest jedną z najstarszych technik określania parametrów mieszanki datowany na przełomowej pracy Karla Pearsona w 1894 roku w tym podejściu parametry mieszaniny są zdecydowane tak, że dystrybucja kompozyt ma chwile pasujących trochę daną wartość. W wielu przypadkach ekstrakcja rozwiązań równań chwilowych może stwarzać nietrywialne problemy algebraiczne lub obliczeniowe. Co więcej, analiza numeryczna Daya wykazała, że ​​takie metody mogą być nieefektywne w porównaniu z EM. Niemniej jednak powróciło zainteresowanie tą metodą, np. Craigmile i Titterington (1998) oraz Wang.

McWilliam i Loh (2009) rozważają charakterystykę hiperprostopadłościennej kopuły normalnej mieszaniny w układach wielkowymiarowych, dla których EM byłoby obliczeniowo niemożliwe. Tutaj procedura analizy wzorców jest używana do generowania wielowymiarowych zależności ogona zgodnych z zestawem jednowymiarowych i (w pewnym sensie) dwuwymiarowych momentów. Wydajność tej metody jest następnie oceniana przy użyciu danych logarytmicznych zysków ze statystykami testu Kołmogorowa-Smirnowa sugerujących dobre dopasowanie opisowe.

Metoda spektralna

Niektóre problemy związane z estymacją modeli mieszanin można rozwiązać za pomocą metod spektralnych . W szczególności staje się to przydatne, jeśli punkty danych x i są punktami w wysokowymiarowej przestrzeni rzeczywistej , a ukryte rozkłady są znane jako wklęsłe logarytmicznie (takie jak rozkład Gaussa lub rozkład wykładniczy ).

Spektralne metody uczenia modeli mieszanin opierają się na wykorzystaniu Singular Value Decomposition macierzy zawierającej punkty danych. Pomysł polega na rozważeniu k górnych wektorów osobliwych, gdzie k jest liczbą rozkładów, których należy się nauczyć. Rzut każdego punktu danych na podprzestrzeń liniową rozpiętą przez te wektory grupuje punkty pochodzące z tego samego rozkładu bardzo blisko siebie, podczas gdy punkty z różnych rozkładów pozostają daleko od siebie.

Cechą wyróżniającą metodę spektralną jest to, że pozwala ona wykazać, że jeśli rozkłady spełniają określone warunki separacji (np. nie są zbyt bliskie), to oszacowana mieszanina będzie z dużym prawdopodobieństwem bardzo zbliżona do rzeczywistej.

Metody graficzne

Tarter i Lock opisują graficzne podejście do identyfikacji mieszaniny, w którym funkcja jądra jest stosowana do empirycznego wykresu częstotliwości, aby zmniejszyć wariancję wewnątrzskładnikową. W ten sposób można łatwiej zidentyfikować komponenty mające różne środki. Chociaż ta metoda λ nie wymaga wcześniejszej znajomości liczby lub postaci funkcjonalnej komponentów, jej sukces zależy od wyboru parametrów jądra, które w pewnym stopniu implicite zawierają założenia dotyczące struktury komponentów.

Inne metody

Niektóre z nich prawdopodobnie mogą nawet nauczyć się mieszanek rozkładów z grubymi ogonami, w tym tych o nieskończonej wariancji (patrz linki do artykułów poniżej). W tym ustawieniu metody oparte na EM nie będą działać, ponieważ etap Oczekiwania będzie rozbieżny ze względu na obecność wartości odstających .

Symulacja

Aby zasymulować próbkę o rozmiarze N, która pochodzi z mieszaniny rozkładów F i , i =1 do n , z prawdopodobieństwami p i (suma=  p i  = 1):

  1. Wygeneruj N liczb losowych z kategorycznego rozkładu wielkości n i prawdopodobieństw p i dla i = 1= do  n . Mówią one, z której z F i każda z wartości N będzie pochodzić. Oznacz przez m i ilość liczb losowych przyporządkowanych do i- tej kategorii.
  2. Dla każdego I , generowanie m : i liczb losowych z F ı dystrybucji.

Rozszerzenia

W ustawieniu bayesowskim do modelu graficznego definiującego model mieszany można dodać dodatkowe poziomy . Na przykład we wspólnym ukrytym modelu tematów alokacji Dirichleta obserwacje są zestawami słów zaczerpniętymi z różnych dokumentów D, a składniki mieszaniny K reprezentują tematy, które są wspólne dla wszystkich dokumentów. Każdy dokument ma inny zestaw wag mieszanin, które określają tematy dominujące w tym dokumencie. Wszystkie zestawy wag mieszanin mają wspólne hiperparametry .

Bardzo powszechnym rozszerzeniem jest łączenie zmiennych latentnych definiujących tożsamości składników mieszaniny w łańcuch Markowa , zamiast zakładania, że ​​są one niezależnymi zmiennymi losowymi o identycznym rozkładzie . Powstały model jest nazywany ukrytym modelem Markowa i jest jednym z najczęstszych sekwencyjnych modeli hierarchicznych. Opracowano liczne rozszerzenia ukrytych modeli Markowa; zobacz powstały artykuł, aby uzyskać więcej informacji.

Historia

Rozkłady mieszanek i problem rozkładu mieszanki, czyli identyfikacja jej składowych składników i ich parametrów, były cytowane w literaturze już w 1846 r. (Quetelet za McLachlan, 2000), chociaż powszechnie odwołuje się do pracy Karla Pearson (1894) jako pierwszy autor, który wyraźnie zajął się problemem rozkładu w charakterystyce nienormalnych atrybutów stosunku czoła do długości ciała w populacjach samic krabów brzegowych. Motywację do tej pracy dostarczył zoolog Walter Frank Raphael Weldon, który w 1893 roku spekulował (w Tarter i Lock), że asymetria histogramu tych stosunków może sygnalizować rozbieżność ewolucyjną. Podejście Pearsona polegało na dopasowaniu do danych jednowymiarowej mieszaniny dwóch normalnych poprzez wybór pięciu parametrów mieszaniny tak, aby momenty empiryczne pasowały do ​​modelu.

Chociaż jego praca zakończyła się sukcesem w identyfikacji dwóch potencjalnie odrębnych podpopulacji i wykazaniu elastyczności mieszanin jako narzędzia dopasowywania momentów, sformułowanie wymagało rozwiązania wielomianu 9 stopnia (nieonicznego), który w tamtym czasie stanowił znaczne wyzwanie obliczeniowe.

Kolejne prace koncentrowały się na rozwiązaniu tych problemów, ale dopiero pojawienie się nowoczesnego komputera i spopularyzowanie technik parametryzacji maksymalnego prawdopodobieństwa (MLE) dało początek badaniom. Od tego czasu przeprowadzono wiele badań na ten temat obejmujących takie dziedziny jak: rybołówstwo , rolnictwo , botanika , ekonomia , medycyna , genetyka , psychologia , paleontologia , elektroforeza , finanse , geologia i zoologia .

Zobacz też

Mieszanina

Modele hierarchiczne

Wykrywanie wartości odstających

Bibliografia

Dalsza lektura

Książki o modelach mieszanek

Zastosowanie modeli mieszanin Gaussa

  1. Reynoldsa, DA; Róża, RC (styczeń 1995). „Solidna, niezależna od tekstu identyfikacja głośników przy użyciu modeli głośników z mieszanką Gaussa”. Transakcje IEEE dotyczące przetwarzania mowy i dźwięku . 3 (1): 72–83. doi : 10.1109/89.365379 .
  2. Permuter, H.; Francos, J.; Jermyna, IH (2003). Modele mieszanki Gaussa tekstury i koloru do wyszukiwania bazy danych obrazów . Międzynarodowa konferencja IEEE na temat akustyki, mowy i przetwarzania sygnałów , 2003. Proceedings (ICASSP '03). doi : 10.1109/ICASSP.2003.1199538 .
  3. Lemkego, Wolfganga (2005). Modelowanie i estymacja struktury terminowej w ramach przestrzeni państwowej . Springer Verlag. Numer ISBN 978-3-540-28342-3.
  4. Brigo, Damiano ; Mercurio, Fabio (2001). Dyfuzje przemieszczone i mieszane dla analitycznie przetwarzalnych modeli uśmiechu . Finanse matematyczne – Bachelier Congress 2000. Postępowanie. Springer Verlag.
  5. Brigo, Damiano; Mercurio, Fabio (czerwiec 2002). „Dynamika log-normal-mieszaniny i kalibracja do uśmiechów zmienności rynkowej”. Międzynarodowy Czasopismo Finansów Teoretycznych i Stosowanych . 5 (4): 427. CiteSeerX  10.1.1.210.4165 . doi : 10.1142/S0219024902001511 .
  6. Spall, JC; Maryak, JL (1992). „Wykonalny estymator bayesowski kwantyli dla dokładności pocisku z danych innych niż iid”. Dziennik Amerykańskiego Towarzystwa Statystycznego . 87 (419): 676-681. doi : 10.1080/01621459.1992.10475269 . JSTOR  2290205 .
  7. Alexander, Carol (grudzień 2004). „Normalna dyfuzja mieszaniny o niepewnej lotności: Modelowanie krótko- i długoterminowych efektów uśmiechu” (PDF) . Dziennik Bankowości i Finansów . 28 (12): 2957–80. doi : 10.1016/j.jbankfin.2003.10.017 .
  8. Stylianou, Yannis; Pantazi, Yannis; Calderero, Felipe; Larroy, Pedro; Severin, Francois; Schimke, Sascha; Bonal, Rolando; Matta, Federico; Valsamakis, Atanasios (2005). Multimodalna weryfikacja biometryczna oparta na GMM (PDF) .
  9. Chen, J.; Adebomi, 0.E.; Olusayo, OS; Kulesza, W. (2010). Ocena hipotezy prawdopodobieństwa mieszaniny Gaussa Podejście gęstości do śledzenia wielu celów . Międzynarodowa konferencja IEEE nt. systemów i technik obrazowania , 2010. doi : 10.1109/IST.2010.5548541 .

Zewnętrzne linki