Estymacja macierzy kowariancji - Estimation of covariance matrices

W statystykach , czasami macierz kowariancji o wektor losowy nie jest znana, ale musi zostać oszacowana . Estymacja macierzy kowariancji zajmuje się zatem pytaniem, jak aproksymować rzeczywistą macierz kowariancji na podstawie próbki z rozkładu wielowymiarowego . Proste przypadki, w których obserwacje są kompletne, można rozwiązać za pomocą macierzy kowariancji próbki . Próbkowa macierz kowariancji (SCM) jest nieobciążonym i wydajnym estymatorem macierzy kowariancji, jeśli przestrzeń macierzy kowariancji jest postrzegana jako zewnętrzny wypukły stożek w R p × p ; Jednakże, mierzona za pomocą wewnętrznej geometrii z dodatnio określony matryc , SCM jest dociskany i nieefektywne estymatora. Ponadto, jeśli zmienna losowa ma rozkład normalny , próbkowa macierz kowariancji ma rozkład Wisharta, a jego nieco inaczej skalowana wersja jest oszacowaniem maksymalnego prawdopodobieństwa . Sprawy, w których brakuje danych, wymagają głębszego rozważenia. Inną kwestią jest odporność na wartości odstające , na które macierze kowariancji próbki są bardzo wrażliwe.

Analizy statystyczne danych wielowymiarowych często obejmują badania eksploracyjne sposobu, w jaki zmienne zmieniają się w stosunku do siebie, a po tym mogą następować wyraźne modele statystyczne obejmujące macierz kowariancji zmiennych. Zatem estymacja macierzy kowariancji bezpośrednio z danych obserwacyjnych odgrywa dwie role:

  • dostarczenie wstępnych szacunków, które można wykorzystać do badania wzajemnych relacji;
  • dostarczenie przykładowych szacunków, które można wykorzystać do sprawdzenia modelu.

Oszacowania macierzy kowariancji są wymagane na początkowych etapach analizy głównych składowych i analizy czynnikowej , a także biorą udział w wersjach analizy regresji, które traktują zmienne zależne w zbiorze danych, łącznie ze zmienną niezależną jako wynik próby losowej .

Estymacja w kontekście ogólnym

Biorąc pod uwagę próbki składa się z n niezależnych obserwacji x 1 , ..., x n z p -wymiarowego wektora losowego XR P x 1 (a p x 1 kolumny wektor), co stanowi nieobciążony estymatora z ( p x p ) macierz kowariancji

jest przykładową macierzą kowariancji

gdzie jest i -ta obserwacja p -wymiarowego wektora losowego, a wektor

jest średnią próbki . Dzieje się tak niezależnie od rozkładu zmiennej losowej X , oczywiście pod warunkiem, że istnieją teoretyczne średnie i kowariancje. Powód dla czynnika n  − 1 zamiast n jest zasadniczo taki sam jak powód pojawienia się tego samego czynnika w nieobciążonych oszacowaniach wariancji próby i kowariancji próby , co wiąże się z faktem, że średnia nie jest znana i jest zastępowana przez próbę średnia (patrz poprawka Bessela ).

W przypadkach, gdy wiadomo, że rozkład zmiennej losowej X należy do pewnej rodziny rozkładów, na podstawie tego założenia można wyprowadzić inne szacunki. Dobrze znanym przypadkiem jest sytuacja, w której zmienna losowa X ma rozkład normalny : w tym przypadku estymator największej wiarygodności macierzy kowariancji jest nieco inny od oszacowania bezobciążonego i jest wyrażony wzorem

Wyprowadzenie tego wyniku podano poniżej. Oczywiście różnica między estymatorem nieobciążonym a estymatorem największego prawdopodobieństwa maleje dla dużego n .

W ogólnym przypadku bezobciążone oszacowanie macierzy kowariancji zapewnia akceptowalne oszacowanie, gdy wektory danych w obserwowanym zbiorze danych są wszystkie, to znaczy nie zawierają brakujących elementów . Jednym z podejść do estymacji macierzy kowariancji jest traktowanie estymacji każdej wariancji lub kowariancji parami oddzielnie i wykorzystanie wszystkich obserwacji, dla których obie zmienne mają prawidłowe wartości. Zakładając, że brakujących danych brakuje losowo, daje to oszacowanie macierzy kowariancji, która jest nieobciążona. Jednak w przypadku wielu zastosowań oszacowanie to może nie być akceptowalne, ponieważ nie ma gwarancji, że oszacowana macierz kowariancji będzie dodatnia półokreślona. Może to prowadzić do szacowanych korelacji mających wartości bezwzględne, które są większe niż jeden, i/lub nieodwracalnej macierzy kowariancji.

Podczas szacowania kowariancji krzyżowej pary sygnałów, które są szerokopasmowe stacjonarne , brakujące próbki nie muszą być losowe (np. prawidłowe jest podpróbkowanie według arbitralnego czynnika).

Estymacja maksymalnego prawdopodobieństwa dla wielowymiarowego rozkładu normalnego

Losowy wektor XR p (a P x 1 „wektor kolumna”) ma wielowymiarowego normalnego dystrybucyjnych z nieosobliwa macierzy kowariancji Σ właśnie jeśli Σ ∈ R P x P jest macierzą dodatnio określony i funkcja gęstości prawdopodobieństwa z X jest

gdzie ľR P x 1 jest oczekiwana wartość od X . Kowariancji Σ jest wielowymiarowy analogowych, co w jednym kierunku będzie wariancji i

normalizuje gęstość tak, że integruje się do 1.

Załóżmy teraz, że X 1 , ..., X nniezależnymi i identycznie rozłożonymi próbkami z powyższego rozkładu. Na podstawie zaobserwowanych wartości x 1 , ..., x n tej próbki , chcemy oszacować Σ.

Pierwsze kroki

Funkcja wiarygodności to:

Dość łatwo można wykazać, że oszacowanie maksymalnego prawdopodobieństwa średniego wektora μ jest wektorem „ średniej próbki ”:

Zobacz sekcję o estymacji w artykule o normalnym rozkładzie po szczegóły; tutaj proces jest podobny.

Ponieważ oszacowanie nie zależy od Σ, możemy po prostu podstawić je za μ w funkcji wiarogodności , otrzymując

a następnie poszukaj wartości Σ, która maksymalizuje prawdopodobieństwo danych (w praktyce łatwiej jest pracować z log  ).

Ślad macierzy 1×1

Teraz dochodzimy do pierwszego zaskakującego kroku: traktujemy skalar jako ślad macierzy 1×1. Umożliwia to użycie tożsamości tr( AB ) = tr( BA ) zawsze, gdy A i B są macierzami tak ukształtowanymi, że oba produkty istnieją. dostajemy

gdzie

jest czasami nazywana macierzą rozrzutu i jest dodatnio określona, ​​jeśli istnieje podzbiór danych składający się z afinicznie niezależnych obserwacji (co założymy).

Korzystanie z twierdzenia spektralnego

Z spektralnej twierdzenia o liniowym Algebra że dodatnio określony symetrycznych macierzy S ma unikalną dodatniej określony symetryczny pierwiastek S 1/2 . Możemy ponownie użyć do zapisu „właściwości cykliczności” śladu

Niech B = S 1/2 Σ -1 S 1/2 . Wtedy powyższe wyrażenie staje się

Macierz dodatnio określona B może być diagonalizowana, a następnie problem ze znalezieniem wartości B, która maksymalizuje

Ponieważ ślad macierzy kwadratowej jest równy sumie wartości własnych ( „ślad i wartości własne” ), równanie sprowadza się do problemu znalezienia wartości własnych λ 1 , ..., λ p , które maksymalizują

To jest tylko problem rachunku różniczkowego i otrzymujemy λ i = n dla wszystkich i. Załóżmy zatem, że Q jest macierzą wektorów własnych, wtedy

tj. n razy macierz tożsamości p × p .

Etapy końcowe

Wreszcie dostajemy

tj. p × p „przykładowa macierz kowariancji”

jest estymatorem maksymalnego prawdopodobieństwa „macierzy kowariancji populacji” Σ. W tym momencie używamy dużej litery X, a nie małej litery x, ponieważ myślimy o niej „jako estymator, a nie jako oszacowanie”, tj. jako coś losowego, którego rozkład prawdopodobieństwa moglibyśmy zyskać dzięki poznaniu. Można wykazać, że macierz losowa S ma rozkład Wisharta o n − 1 stopniach swobody. To znaczy:

Alternatywne pochodzenie

Alternatywne wyprowadzenie estymatora największej wiarogodności można przeprowadzić za pomocą wzorów na rachunek macierzowy (patrz też różniczka wyznacznika i różniczka macierzy odwrotnej ). Weryfikuje również powyższy fakt o oszacowaniu maksymalnego prawdopodobieństwa średniej. Przepisz prawdopodobieństwo w formularzu dziennika, korzystając ze sztuczki śledzenia:

Różnica tego logarytmicznego prawdopodobieństwa to:

W naturalny sposób dzieli się na część związaną z estymacją średniej oraz na część związaną z estymacją wariancji. Pierwszy warunek zamówienie do maksimum , jest spełniony, gdy terminy pomnożenie i są identycznie zero. Zakładając, że (oszacowanie największego prawdopodobieństwa) jest nieosobliwe, warunek pierwszego rzędu dla oszacowania wektora średniej jest

co prowadzi do estymatora największej wiarygodności

To pozwala nam uprościć

jak zdefiniowano powyżej. Następnie terminy obejmujące w można łączyć jako

Warunek pierwszego rzędu zostanie spełniony , gdy wyraz w nawiasie kwadratowym ma wartość (o wartości macierzy) zero. Wstępne pomnożenie tego ostatniego przez i dzielenie przez daje

co oczywiście pokrywa się z podanym wcześniej kanonicznym wyprowadzeniem.

Dwyer wskazuje, że dekompozycja na dwa terminy, takie jak powyżej, jest „niepotrzebna” i wyprowadza estymator w dwóch liniach pracy. Zauważ, że może nie być trywialne wykazanie, że taki pochodny estymator jest unikalnym globalnym maksymalizatorem funkcji wiarygodności.

Estymacja macierzy kowariancji wewnętrznej

Wewnętrzne oczekiwanie

Biorąc pod uwagę próbki z n niezależnie uwagi x 1 , ..., x n z p -wymiarowej zerową średnią gaussowskiego zmiennej losowej X z kowariancji R The maksymalne prawdopodobieństwo estymator z R jest przez

Parametr należy do zbioru macierzy dodatnio określonych , który jest rozmaitością Riemanna , a nie przestrzenią wektorową , stąd zwykłe pojęcia oczekiwania w przestrzeni wektorowej , tj. „ ”, a obciążenie estymatora musi być uogólnione na rozmaitości, aby mieć sens problem estymacji macierzy kowariancji. Można tego dokonać, definiując oczekiwanie wielowartościowego estymatora względem punktu o wielorakiej wartości jako

gdzie

to mapa wykładniczy i odwrotne odwzorowanie exp odpowiednio „Exp” i „log” oznacza zwykłą macierz wykładniczy i matryca logarytm i E [·] jest zwykłym operator wartości oczekiwanej zdefiniowano w przestrzeń wektorową, w tym przypadku przestrzeni styczna z kolektor.

Obciążenie próbki macierzy kowariancji

Wewnętrzną Odchylenie pole wektorowe estymatora SCM określa się jako

Wewnętrzny błąd estymatora jest następnie podawany przez .

W przypadku złożonych zmiennych losowych Gaussa to pole wektora odchylenia może być równe

gdzie

a ψ(·) jest funkcją digammy . Wewnętrzne obciążenie macierzy kowariancji próbki wynosi

a SCM jest asymptotycznie nieobciążony jako n → ∞.

Podobnie, wewnętrzna nieefektywność macierzy kowariancji próbki zależy od krzywizny Riemanna przestrzeni macierzy dodatnio określonych.

Szacowanie skurczu

Jeżeli wielkość próby n jest mała, a liczba rozważanych zmiennych p jest duża, powyższe empiryczne estymatory kowariancji i korelacji są bardzo niestabilne. W szczególności możliwe jest dostarczenie estymatorów, które znacznie poprawiają oszacowanie maksymalnego prawdopodobieństwa w kategoriach błędu średniokwadratowego. Co więcej, dla n  <  p (liczba obserwacji jest mniejsza niż liczba zmiennych losowych) empiryczna ocena macierzy kowariancji staje się pojedyncza , tj. nie można jej odwrócić w celu obliczenia macierzy precyzji .

Jako alternatywę zaproponowano wiele metod poprawiających estymację macierzy kowariancji. Wszystkie te podejścia opierają się na koncepcji skurczu. Jest to domniemane w metodach bayesowskich oraz w metodach penalizacji największej wiarogodności i jawne w podejściu skurczu typu Steina .

Prostą wersję estymatora skurczu macierzy kowariancji reprezentuje estymator skurczu Ledoit-Wolf. Rozważa się wypukłą kombinację estymatora empirycznego ( ) z odpowiednio wybranym celem ( ), np. macierzą diagonalną. Następnie dobierany jest parametr mieszania ( ), aby zmaksymalizować oczekiwaną dokładność skurczonego estymatora. Można to zrobić przez walidację krzyżową lub stosując analityczne oszacowanie intensywności skurczu. Można wykazać, że wynikowy uregulowany estymator ( ) przewyższa estymator największej wiarygodności dla małych próbek. W przypadku dużych próbek intensywność skurczu zmniejszy się do zera, stąd w tym przypadku estymator skurczu będzie identyczny z estymatorem empirycznym. Oprócz zwiększonej wydajności oszacowanie skurczu ma tę dodatkową zaletę, że jest zawsze dodatnio określone i dobrze uwarunkowane.

Zaproponowano różne cele skurczu:

  1. macierzą jednostkową , skalowane przez średnią próbek wariancji ;
  2. modelu jednego indeksu ;
  3. model stałej korelacji, w którym zachowane są wariancje próbki, ale zakłada się , że wszystkie współczynniki korelacji parami są sobie równe;
  4. macierz dwuparametrowa, w której wszystkie wariancje są identyczne, a wszystkie kowariancje są identyczne (choć nie identyczne z wariancjami);
  5. macierzą diagonalną próbka zawierająca odchylenia na przekątnej i zerami poza nią;
  6. macierzą jednostkową .

Estymator skurczu można uogólnić do wielocelowego estymatora skurczu, który wykorzystuje kilka celów jednocześnie. Oprogramowanie do obliczania estymatora skurczu kowariancji jest dostępne w R (packages corpcor i ShrinkCovMat ), w Pythonie (library scikit-learn ) oraz w MATLAB .

Zobacz też

Bibliografia

  1. ^ B c Smith, Steven Thomas (maj 2005). „Kowariancja, podprzestrzeń i wewnętrzne granice Cramér-Rao” . IEEE Trans. Proces sygnału . 53 (5): 1610–1630. doi : 10.1109/TSP.2005.845428 . S2CID  2751194 .
  2. ^ Solidne statystyki , Peter J. Huber , Wiley, 1981 (opublikowane w miękkiej okładce, 2004)
  3. ^ „Nowoczesne stosowane statystyki z S”, William N. Venables , Brian D. Ripley , Springer, 2002, ISBN  0-387-95457-0 , ISBN  978-0-387-95457-8 , strona 336
  4. ^ Devlin, Susan J .; Gnanadesikan, R.; Kettenring, JR (1975). „Solidne oszacowanie i wykrywanie wartości odstających ze współczynnikami korelacji”. Biometria . 62 (3): 531–545. doi : 10.1093/biomet/62.3.531 .
  5. ^ KV Mardia , JT Kent i JM Bibby (1979) Analiza wielowymiarowa , Academic Press .
  6. ^ Dwyer, Paul S. (czerwiec 1967). „Niektóre zastosowania pochodnych macierzy w analizie wielowymiarowej”. Dziennik Amerykańskiego Towarzystwa Statystycznego . 62 (318): 607-625. doi : 10.2307/2283988 . JSTOR  2283988 .
  7. ^ O. Ledoit i M. Wolf (2004a) „ Dobrze uwarunkowany estymator dla wielkowymiarowych macierzy kowariancji zarchiwizowanych 05.12.2014 w Wayback Machine Journal of Multivariate Analysis 88 (2): 365-411.
  8. ^ a b A. Touloumis (2015) „Nieparametryczne estymatory macierzy kowariancji skurczu typu Steina w ustawieniach wysokowymiarowychStatystyka obliczeniowa i analiza danych 83 : 251-261.
  9. ^ O. Ledoit i M. Wolf (2003) „ Poprawione szacowanie macierzy kowariancji zwrotów akcji z aplikacją do wyboru portfela” Zarchiwizowane 05.12.2014 w Wayback Machine Journal of Empirical Finance 10 (5): 603-621 .
  10. ^ O. Ledoit i M. Wolf (2004b) „ Kochanie, zmniejszyłem przykładową macierz kowariancji zarchiwizowane 05.12.2014 w Wayback Machine The Journal of Portfolio Management 30 (4): 110-119.
  11. ^ T. Lancewicki i M. Aladjem (2014) „ Oszacowanie skurczu wielu celów dla macierzy kowariancji ”, IEEE Transakcje dotyczące przetwarzania sygnału , Tom: 62, Issue 24, strony: 6380-6390.
  12. ^ corpcor: Efektywne szacowanie kowariancji i (częściowej) korelacji , CRAN
  13. ^ ShrinkCovMat: Estymatory macierzy kowariancji skurczu, CRAN
  14. ^ Kod MATLAB dla celów kurczliwość skalowane tożsamości , modelu jednego indeksu , modelu stała korelacji , macierzy dwóch parametrów , a po przekątnej macierzy .