Niezależna analiza składników - Independent component analysis

W przetwarzaniu sygnału , analiza składowych niezależnych ( ICA ), to obliczeniowy metody rozdzielania wielowymiarowego sygnału do dodatkowych składowych. Odbywa się to przy założeniu, że podkomponenty są potencjalnie sygnałami niegaussowskimi i są statystycznie niezależne od siebie. ICA to szczególny przypadek ślepej separacji źródeł . Typowym przykładem zastosowania jest „ problem koktajlowy ” polegający na podsłuchiwaniu wypowiedzi jednej osoby w głośnym pomieszczeniu.

Wstęp

ICA na czterech losowo mieszanych filmach. U góry: oryginalne filmy źródłowe. Środek: cztery losowe mieszaniny używane jako dane wejściowe do algorytmu. Na dole: zrekonstruowane filmy.

Analiza niezależnych komponentów próbuje rozłożyć sygnał wielowymiarowy na niezależne sygnały niegaussowskie. Przykładowo dźwięk jest zwykle sygnałem, który składa się z liczbowego dodawania za każdym razem t sygnałów z kilku źródeł. Powstaje zatem pytanie, czy możliwe jest oddzielenie tych przyczyniających się źródeł od obserwowanego sygnału całkowitego. Przy poprawnym założeniu statystycznej niezależności, bardzo dobre wyniki daje ślepa separacja ICA sygnału mieszanego. Jest również używany do sygnałów, które nie powinny być generowane przez miksowanie do celów analizy.

Prostym zastosowaniem ICA jest „ problem przyjęć koktajlowych ”, w którym podstawowe sygnały mowy są oddzielone od przykładowych danych składających się z osób rozmawiających jednocześnie w pokoju. Zwykle problem upraszcza się, zakładając brak opóźnień czasowych lub echa. Należy zauważyć, że odfiltrowany i opóźniony sygnał jest kopią składnika zależnego, a zatem założenie statystycznej niezależności nie jest naruszone.

Wagi mieszania do budowy obserwowanych sygnałów ze składników można umieścić w macierzy. Ważną rzeczą do rozważenia jest to, że jeśli źródła są obecne, potrzebne są przynajmniej obserwacje (np. mikrofony, jeśli obserwowany sygnał jest audio), aby odzyskać oryginalne sygnały. W przypadku równej liczby obserwacji i sygnałów źródłowych macierz miksowania jest kwadratowa ( ). Inne przypadki niedoszacowania ( ) i nadmiernie określonego ( ) zostały zbadane.

To, że separacja ICA zmiksowanych sygnałów daje bardzo dobre wyniki, opiera się na dwóch założeniach i trzech efektach miksowania sygnałów źródłowych. Dwa założenia:

  1. Sygnały źródłowe są od siebie niezależne.
  2. Wartości w każdym sygnale źródłowym mają rozkłady niegaussowskie.

Trzy efekty miksowania sygnałów źródłowych:

  1. Niezależność: Zgodnie z założeniem 1 sygnały źródłowe są niezależne; jednak ich mieszanki sygnałowe nie są. Dzieje się tak, ponieważ mieszanki sygnałów współdzielą te same sygnały źródłowe.
  2. Normalność: Zgodnie z Centralnym Twierdzeniem Granicznym rozkład sumy niezależnych zmiennych losowych ze skończoną wariancją zmierza w kierunku rozkładu Gaussa.
    Mówiąc ogólnie, suma dwóch niezależnych zmiennych losowych ma zwykle rozkład bliższy gaussowskiemu niż którakolwiek z dwóch pierwotnych zmiennych. Tutaj traktujemy wartość każdego sygnału jako zmienną losową.
  3. Złożoność: Złożoność czasowa dowolnej mieszanki sygnału jest większa niż jej najprostszego składowego sygnału źródłowego.

Zasady te przyczyniają się do podstawowego ustanowienia ICA. Jeżeli sygnały wyodrębnione z zestawu mieszanin są niezależne i mają histogramy niegaussowskie lub mają niską złożoność, muszą być sygnałami źródłowymi.

Definiowanie niezależności komponentów

ICA znajduje niezależne składniki (nazywane również czynnikami, zmiennymi latentnymi lub źródłami), maksymalizując statystyczną niezależność szacowanych składników. Możemy wybrać jeden z wielu sposobów zdefiniowania pełnomocnika niezależności, a ten wybór rządzi formą algorytmu ICA. Dwie najszersze definicje niezależności ICA to:

  1. Minimalizacja wzajemnych informacji
  2. Maksymalizacja niegaussowości

Rodzina algorytmów ICA Minimization-of- Mutual Information (MMI) wykorzystuje miary, takie jak rozbieżność Kullbacka-Leiblera i maksymalna entropia . Rodzina niegaussowskich algorytmów ICA, motywowana centralnym twierdzeniem granicznym , wykorzystuje kurtozę i negentropię .

Typowe algorytmy ICA wykorzystują centrowanie (odejmowanie średniej, aby utworzyć zerowy sygnał średni), wybielanie (zwykle z rozkładem wartości własnych ) i redukcję wymiarowości jako etapy przetwarzania wstępnego w celu uproszczenia i zmniejszenia złożoności problemu dla rzeczywistego algorytmu iteracyjnego. Wybielanie i redukcję wymiarów można osiągnąć za pomocą analizy głównych komponentów lub rozkładu według wartości osobliwych . Wybielanie zapewnia, że ​​wszystkie wymiary są traktowane jednakowo a priori przed uruchomieniem algorytmu. Dobrze znane algorytmy dla ICA obejmują między innymi infomax , FastICA , JADE i analizę komponentów niezależnych od jądra . Ogólnie rzecz biorąc, ICA nie może zidentyfikować rzeczywistej liczby sygnałów źródłowych, jednoznacznie poprawnej kolejności sygnałów źródłowych ani prawidłowego skalowania (w tym znaku) sygnałów źródłowych.

ICA jest ważny dla ślepej separacji sygnałów i ma wiele praktycznych zastosowań. Jest to ściśle związane z (lub nawet szczególnym przypadkiem) poszukiwaniem silniowego kodu danych, tj. nowej reprezentacji każdego wektora danych o wartości wektorowej tak, że jest ona jednoznacznie zakodowana przez wynikowy wektor kodu (bezstratny kodowanie), ale składniki kodu są statystycznie niezależne.

Definicje matematyczne

Liniowa analiza składowych niezależnych może być podzielona na przypadki bezszumowe i hałaśliwe, przy czym bezszumowe ICA jest szczególnym przypadkiem hałaśliwego ICA. Nieliniowe ICA należy traktować jako osobny przypadek.

Ogólna definicja

Dane są reprezentowane przez obserwowany wektor losowy, a ukryte składowe jako wektor losowy Zadanie polega na przekształceniu obserwowanych danych za pomocą liniowej transformacji statycznej jako wektora maksymalnie niezależnych składowych mierzonych pewną funkcją niezależności.

Model generatywny

Liniowy bezgłośny ICA

Składowe obserwowanego wektora losowego generowane są jako suma niezależnych składowych , :

ważone przez odważniki mieszające .

Ten sam model generatywny można zapisać w postaci wektorowej jako , gdzie obserwowany wektor losowy jest reprezentowany przez wektory bazowe . Wektory bazowe tworzą kolumny macierzy mieszania, a wzór generatywny można zapisać jako , gdzie .

Mając na uwadze model i realizacje (próbki) wektora losowego , zadaniem jest oszacowanie zarówno macierzy mieszania jak i źródeł . Odbywa się to poprzez adaptacyjne obliczenie wektorów i ustawienie funkcji kosztu, która albo maksymalizuje niegausyjność obliczonych wartości, albo minimalizuje wzajemne informacje. W niektórych przypadkach w funkcji kosztu można wykorzystać wiedzę a priori o rozkładach prawdopodobieństwa źródeł.

Pierwotne źródła można odzyskać, mnożąc obserwowane sygnały przez odwrotność macierzy miksowania , znanej również jako macierz rozmiksowania. Tutaj zakłada się, że macierz mieszania jest kwadratowa ( ). Jeśli liczba wektorów bazowych jest większa niż wymiarowość obserwowanych wektorów , zadanie jest nadkompletne, ale nadal można je rozwiązać za pomocą pseudoodwrotności .

Liniowy hałaśliwy ICA

Przy dodanym założeniu o zerowej średniej i nieskorelowanym szumie Gaussa model ICA przyjmuje postać .

Nieliniowe ICA

Mieszanie źródeł nie musi być liniowe. Korzystanie z funkcji nieliniowej mieszania z parametrami nieliniowa ICA modelu jest .

Identyfikowalność

Niezależne komponenty są identyfikowalne aż do permutacji i skalowania źródeł. Ta identyfikacja wymaga, aby:

  • Co najwyżej jednym ze źródeł jest Gaussian,
  • Liczba zaobserwowanych mieszanin, , musi być co najmniej tak duża, jak liczba oszacowanych składników : . Jest to równoznaczne z powiedzeniem, że macierz mieszania musi mieć pełną rangę, aby jej odwrotność istniała.

Binarny ICA

Specjalnym wariantem ICA jest binarny ICA, w którym zarówno źródła sygnału, jak i monitory są w postaci binarnej, a obserwacje z monitorów są rozłącznymi mieszaninami niezależnych źródeł binarnych. Wykazano, że problem ma zastosowanie w wielu dziedzinach, w tym w diagnostyce medycznej , przyporządkowaniu wieloklastrowym , tomografii sieciowej i zarządzaniu zasobami internetowymi .

Niech będzie zbiorem zmiennych binarnych z monitorów i będzie zbiorem zmiennych binarnych ze źródeł. Połączenia źródło-monitor są reprezentowane przez (nieznaną) macierz miksowania , gdzie wskazuje, że sygnał z i-tego źródła może być obserwowany przez j- ty monitor. System działa w następujący sposób: w dowolnym momencie, jeśli źródło jest aktywne ( ) i jest podłączone do monitora ( ), monitor zaobserwuje pewną aktywność ( ). Formalnie mamy:

gdzie jest logicznym AND i boolowskim OR. Zauważ, że szum nie jest modelowany wprost, a raczej może być traktowany jako niezależne źródła.

Powyższy problem można rozwiązać heurystycznie, zakładając, że zmienne są ciągłe i uruchamiając FastICA na binarnych danych obserwacyjnych, aby uzyskać macierz mieszania (wartości rzeczywiste), a następnie stosując techniki liczb okrągłych , aby uzyskać wartości binarne. Wykazano, że takie podejście daje bardzo niedokładne wyniki.

Inną metodą jest użycie programowania dynamicznego : rekurencyjne rozbicie macierzy obserwacji na jej podmacierze i uruchomienie algorytmu wnioskowania na tych podmacierzach. Obserwacja klucz, który prowadzi do tego algorytmu jest sub-macierzy z którym koresponduje z bezstronnej macierzy obserwacji ukrytych elementów, które nie mają połączenia z monitorem -tej. Wyniki eksperymentalne pokazują, że to podejście jest dokładne przy umiarkowanych poziomach hałasu.

Struktura Generalized Binary ICA wprowadza szersze sformułowanie problemu, które nie wymaga żadnej wiedzy na temat modelu generatywnego. Innymi słowy, metoda ta próbuje rozłożyć źródło na jego niezależne komponenty (w jak największym stopniu i bez utraty informacji) bez wcześniejszego założenia, w jaki sposób zostało wygenerowane. Chociaż problem ten wydaje się dość złożony, można go dokładnie rozwiązać za pomocą algorytmu drzewa poszukiwań gałęzi i ograniczeń lub ściśle górnego ograniczenia za pomocą pojedynczego mnożenia macierzy przez wektor.

Metody ślepej separacji źródeł

Pogoń za projekcją

Mieszaniny sygnałów mają zwykle funkcje gęstości prawdopodobieństwa Gaussa, a sygnały źródłowe mają zwykle funkcje gęstości prawdopodobieństwa niegaussowskie. Każdy sygnał źródłowy może być wyodrębniony ze zbioru mieszanin sygnałowych poprzez pobranie iloczynu skalarnego wektora wagowego i tych mieszanin sygnałowych, w których ten iloczyn wewnętrzny zapewnia rzutowanie ortogonalne mieszanin sygnałowych. Pozostałym wyzwaniem jest znalezienie takiego wektora wagowego. Jednym ze sposobów na to jest dążenie do projekcji .

Poszukiwanie projekcji poszukuje jednej projekcji na raz, tak aby wyodrębniony sygnał był jak najbardziej niegaussowski. Kontrastuje to z ICA, która zazwyczaj wydobywa jednocześnie M sygnałów z M mieszanek sygnałów, co wymaga oszacowania macierzy niemiksowania M × M. Jedną z praktycznych zalet prowadzenia projekcji nad ICA jest to, że w razie potrzeby można wyodrębnić mniej niż M sygnałów, gdzie każdy sygnał źródłowy jest wyodrębniany z M mieszanin sygnałów przy użyciu wektora wagowego M- elementowego.

Możemy użyć kurtozy do odzyskania sygnału z wielu źródeł, znajdując prawidłowe wektory wagowe za pomocą pogoni projekcyjnej.

Kurtoza funkcji gęstości prawdopodobieństwa sygnału dla próbki skończonej jest obliczana jako

gdzie jest średnia próbki z wyodrębnionych sygnałów. Stała 3 zapewnia, że ​​sygnały gaussowskie mają zerową kurtozę, sygnały supergaussowskie mają dodatnią kurtozę, a sygnały subgaussowskie mają ujemną kurtozę. Mianownik jest odchylenie od , oraz zapewnia, że zmierzona kurtoza uwzględnia odchylenia sygnału. Celem prowadzenia projekcji jest maksymalizacja kurtozy i sprawienie, aby wyekstrahowany sygnał był jak najbardziej odbiegający od normalnego.

Używając kurtozy jako miary nienormalności, możemy teraz zbadać, jak kurtoza sygnału wyodrębnionego ze zbioru mieszanek M zmienia się, gdy wektor wagowy jest obracany wokół początku. Biorąc pod uwagę nasze założenie, że każdy sygnał źródłowy jest supergaussowski, oczekiwalibyśmy:

  1. kurtoza wyodrębnionego sygnału powinna być maksymalna dokładnie kiedy .
  2. kurtoza wyodrębnionego sygnału powinna być maksymalna, gdy jest prostopadły do ​​rzutowanych osi lub , ponieważ wiemy, że optymalny wektor wag powinien być prostopadły do ​​transformowanej osi lub .

W przypadku sygnałów mieszanych z wielu źródeł możemy użyć kurtozy i ortogonalizacji Grama-Schmidta (GSO) w celu odzyskania sygnałów. Biorąc pod uwagę M mieszanki sygnałów w przestrzeni M- wymiarowej, GSO rzutuje te punkty danych na przestrzeń ( M-1 )-wymiarową przy użyciu wektora wagowego. Możemy zagwarantować niezależność wydobytych sygnałów z wykorzystaniem GSO.

Aby znaleźć poprawną wartość , możemy użyć metody gradientu . Przede wszystkim wybielamy dane i przekształcamy w nową mieszaninę , która ma wariancję jednostkową oraz . Proces ten można osiągnąć, stosując dekompozycję według wartości osobliwych do ,

Przeskalowanie każdego wektora i niech . Sygnał wyodrębniony przez wektor ważony to . Jeśli wektor wag w ma długość jednostkową, to wariancja y również wynosi 1, czyli . Kurtozę można zatem zapisać jako:

Proces aktualizacji dla to:

gdzie jest małą stałą gwarantującą, że zbiega się do optymalnego rozwiązania. Po każdej aktualizacji normalizujemy , ustawiamy i powtarzamy proces aktualizacji aż do zbieżności. Możemy również użyć innego algorytmu do aktualizacji wektora wagi .

Innym podejściem jest użycie negentropii zamiast kurtozy. Używanie negentropii jest bardziej niezawodną metodą niż kurtoza, ponieważ kurtoza jest bardzo wrażliwa na wartości odstające. Metody negentropii opierają się na ważnej własności rozkładu Gaussa: zmienna Gaussa ma największą entropię spośród wszystkich ciągłych zmiennych losowych o równej wariancji. Jest to również powód, dla którego chcemy znaleźć większość zmiennych niegaussowskich. Prosty dowód można znaleźć w entropii różniczkowej .

y jest zmienną losową Gaussa o tej samej macierzy kowariancji co x

Przybliżenie negentropii to

Dowód można znaleźć w oryginalnych dokumentach Comona; zostało ono powtórzone w książce Independent Component Analysis autorstwa Aapo Hyvärinena, Juhy Karhunena i Erkki Oji. To przybliżenie również ma ten sam problem, co kurtoza (wrażliwość na wartości odstające). Opracowano inne podejścia.

Wybór i są

oraz

Na podstawie infomax

Infomax ICA jest zasadniczo wielowymiarową, równoległą wersją prowadzenia projekcji. Podczas gdy dążenie do projekcji wyodrębnia szereg sygnałów pojedynczo z zestawu M mieszanek sygnałów, ICA wyodrębnia M sygnałów równolegle. To sprawia, że ​​ICA jest bardziej niezawodna niż pogoń za projekcją.

Metoda poszukiwania projekcji wykorzystuje ortogonalizację Grama-Schmidta, aby zapewnić niezależność wyekstrahowanego sygnału, podczas gdy ICA wykorzystuje infomax i oszacowanie maksymalnego prawdopodobieństwa, aby zapewnić niezależność wyekstrahowanego sygnału. Nienormalność wyodrębnionego sygnału uzyskuje się przez przypisanie odpowiedniego lub wcześniejszego modelu dla sygnału.

Proces ICA oparty na infomax w skrócie to: mając zbiór mieszanin sygnałów i zbiór identycznych niezależnych funkcji skumulowanego rozkładu modelu (cdfs) , szukamy macierzy rozmieszania, która maksymalizuje łączną entropię sygnałów , gdzie są wyodrębniane sygnały przez . Przy optymalnym , sygnały mają maksymalną entropię, a zatem są niezależne, co zapewnia, że ​​wyekstrahowane sygnały są również niezależne. jest funkcją odwracalną i jest modelem sygnału. Należy zauważyć, że jeśli funkcja gęstości prawdopodobieństwa modelu sygnału źródłowego pasuje do funkcji gęstości prawdopodobieństwa wyekstrahowanego sygnału , wówczas maksymalizacja łącznej entropii również maksymalizuje ilość wzajemnych informacji między i . Z tego powodu użycie entropii do wyodrębnienia niezależnych sygnałów jest znane jako infomax .

Rozważmy entropię zmiennej wektorowej , gdzie jest zbiorem sygnałów wyodrębnionych przez macierz rozmieszania . Dla skończonego zbioru wartości próbkowanych z rozkładu z pdf , entropię można oszacować jako:

Wspólny PDF można wykazać za związane ze wspólnym pdf wydzielanych sygnałów przez formę wielowymiarowym:

gdzie jest macierz Jakobian . Mamy , i czy pdf założono dla sygnałów źródłowych , dlatego

dlatego,

Wiemy, że kiedy , ma rozkład równomierny i jest zmaksymalizowany. Odkąd

gdzie jest wartością bezwzględną wyznacznika macierzy rozmieszania . W związku z tym,

więc,

ponieważ , a maksymalizacja nie ma wpływu , więc możemy zmaksymalizować funkcję

aby osiągnąć niezależność wydobytego sygnału.

Jeśli istnieje M marginalnych plików pdf modelu, wspólne pdf są niezależne i używają powszechnie supergaussowskiego modelu pdf dla sygnałów źródłowych , to mamy

W sumie, biorąc pod uwagę zaobserwowaną mieszankę sygnałów , odpowiedni zestaw wyekstrahowanych sygnałów i model sygnału źródłowego , możemy znaleźć optymalną macierz rozmieszania i uczynić wyekstrahowane sygnały niezależnymi i niegaussowskimi. Podobnie jak w przypadku realizacji projekcji, możemy użyć metody gradientu, aby znaleźć optymalne rozwiązanie macierzy rozmieszania.

Na podstawie oszacowania maksymalnego prawdopodobieństwa

Estymacja największego prawdopodobieństwa (MLE) jest standardowym narzędziem statystycznym do znajdowania wartości parametrów (np. macierz rozmieszania), które zapewniają najlepsze dopasowanie niektórych danych (np. wyekstrahowanych sygnałów) do danego modelu (np. założonej funkcji gęstości prawdopodobieństwa łącznego (pdf)sygnałów źródłowych).

ML „wzór” obejmuje określenie pdf, który w tym przypadku jest pdf nieznanych sygnałów źródłowych . Używając ML ICA , celem jest znalezienie macierzy niemiksującej, która daje wyekstrahowane sygnały z połączonym plikiem pdf tak podobnym, jak to możliwe, do wspólnego pliku pdf z nieznanych sygnałów źródłowych .

MLE opiera się zatem na założeniu, że jeśli model pdf i parametry modelu są poprawne, to dla danych , które faktycznie zaobserwowano, należy uzyskać wysokie prawdopodobieństwo . Odwrotnie, jeśli jest to dalekie od prawidłowych wartości parametrów, należałoby oczekiwać niskiego prawdopodobieństwa zaobserwowanych danych.

Używając MLE , nazywamy prawdopodobieństwo zaobserwowanych danych dla danego zestawu wartości parametrów modelu (np. pdf i macierz ) prawdopodobieństwem wartości parametrów modelu dla danych obserwowanych.

Definiujemy prawdopodobieństwa funkcji z :

Jest to równe gęstości prawdopodobieństwa w , ponieważ .

Tak więc, jeśli chcemy znaleźć a, które najprawdopodobniej wygenerowało obserwowane mieszaniny z nieznanych sygnałów źródłowych za pomocą pdf , musimy znaleźć tylko to, które maksymalizuje prawdopodobieństwo . Macierz rozmieszania, która maksymalizuje równanie, jest znana jako MLE optymalnej macierzy rozmieszania.

Powszechną praktyką jest używanie prawdopodobieństwa logarytmicznego , ponieważ jest to łatwiejsze do oszacowania. Ponieważ logarytm jest funkcją monotoniczną, funkcja maksymalizująca również maksymalizuje jej logarytm . To pozwala nam wziąć logarytm powyższego równania, co daje logarytmiczną funkcję wiarogodności

Jeśli zamiast sygnałów źródłowych zastąpimy powszechnie używany model pdf z wysoką kurtozą, to otrzymamy

Ta macierz, która maksymalizuje tę funkcję, jest oszacowaniem maksymalnego prawdopodobieństwa .

Historia i tło

Wczesne ogólne ramy dla analizy niezależnych komponentów zostały wprowadzone przez Jeanny Hérault i Bernarda Ansa w 1984 r., następnie rozwinięte przez Christiana Juttena w 1985 i 1986 r., udoskonalone przez Pierre'a Comona w 1991 r. i spopularyzowane w jego artykule z 1994 r. W 1995 r. Tony Bell a Terry Sejnowski wprowadzili szybki i wydajny algorytm ICA oparty na infomax , zasadzie wprowadzonej przez Ralpha Linskera w 1987 roku.

W literaturze dostępnych jest wiele algorytmów wykonujących ICA. Szeroko stosowanym algorytmem, w tym w zastosowaniach przemysłowych, jest algorytm FastICA, opracowany przez Hyvärinen i Oja, który wykorzystuje kurtozę jako funkcję kosztu. Inne przykłady odnoszą się raczej do ślepej separacji źródeł, gdzie stosuje się bardziej ogólne podejście. Na przykład można odrzucić założenie niezależności i oddzielić wzajemnie skorelowane sygnały, a więc sygnały statystycznie „zależne”. Sepp Hochreiter i Jürgen Schmidhuber pokazali, jak uzyskać nieliniową ICA lub separację źródła jako produkt uboczny regularyzacji (1999). Ich metoda nie wymaga znajomości a priori liczby niezależnych źródeł.

Aplikacje

ICA można rozszerzyć o analizę sygnałów niefizycznych. Na przykład ICA została zastosowana do odkrywania tematów dyskusji na torbie archiwów list wiadomości.

Niektóre aplikacje ICA są wymienione poniżej:

Niezależna analiza komponentów w EEGLAB
  • obrazowanie optyczne neuronów
  • sortowanie impulsów neuronalnych
  • rozpoznawanie twarzy
  • modelowanie pól receptywnych pierwotnych neuronów wzrokowych
  • przewidywanie cen giełdowych
  • komunikacja przez telefon komórkowy
  • wykrywanie dojrzałości pomidorów na podstawie koloru
  • usuwanie artefaktów, takich jak mruganie oczami, z danych EEG .
  • analiza zmian ekspresji genów w czasie w eksperymentach sekwencjonowania pojedynczych komórek RNA .
  • badania sieci stanu spoczynkowego mózgu.
  • astronomia i kosmologia

Zobacz też

Uwagi

Bibliografia

Zewnętrzne linki