Średnia próbki i kowariancja - Sample mean and covariance

Średnią próbkę (lub „empiryczną średnią”) i kowariancji próbkistatystyki obliczone z próbki danych dotyczących jednego lub więcej zmiennych losowych .

Średnia próbki to średnia wartość (lub wartość średnia ) próbki liczb pobranej z większej populacji liczb, gdzie „populacja” oznacza nie liczbę osób, ale całość odpowiednich danych, niezależnie od tego, czy zostały zebrane, czy nie. Próba sprzedaży 40 firm z listy Fortune 500 może być użyta dla wygody zamiast patrzeć na populację, sprzedaż wszystkich 500 firm. Średnia próbki jest używana jako estymator średniej populacji, średniej wartości w całej populacji, gdzie oszacowanie jest bliższe średniej populacji, jeśli próba jest duża i reprezentatywna. Wiarygodność średniej próbki szacowana jest za pomocą błędu standardowego , który z kolei jest obliczany na podstawie wariancji próby. Jeśli próba jest losowa, błąd standardowy spada wraz z wielkością próby, a rozkład średniej próby zbliża się do rozkładu normalnego wraz ze wzrostem wielkości próby.

Termin „średnia z próby” może być również użyty w odniesieniu do wektora wartości średnich, gdy statystyk patrzy na wartości kilku zmiennych w próbie, np. sprzedaż, zyski i pracowników próby firm z listy Fortune 500. W tym przypadku istnieje nie tylko próbka wariancji dla każdej zmiennej, ale próbna macierz wariancji-kowariancji (lub po prostu macierz kowariancji ) pokazująca również związek między każdą parą zmiennych. Byłaby to macierz 3x3, gdy brane są pod uwagę 3 zmienne. Kowariancja próby jest użyteczna w ocenie wiarygodności średnich próby jako estymatorów, a także jest użyteczna jako oszacowanie populacji kowariancji macierzy.

Ze względu na łatwość ich obliczania i innych pożądanych cech, średniej próbki i próbki kowariancji są szeroko stosowane w statystyce do reprezentowania położenia i rozproszenia w rozkładzie wartości w próbce, a oszacowanie wartości dla społeczeństwa.

Definicja średniej próbki

Średnia próbki jest średnią wartości zmiennej w próbie, która jest sumą tych wartości podzieloną przez liczbę wartości. Stosując notację matematyczną, jeśli próbka N obserwacji zmiennej X zostanie pobrana z populacji, średnia próbki wynosi:

Zgodnie z tą definicją, jeśli próbka (1, 4, 1) jest pobierana z populacji (1,1,3,4,0,2,1,0), to średnia próbki wynosi (1+4+1)* 1/3 = 2, w porównaniu ze średnią populacji (1+1+3+4+0+2+1+0)*1/8 = 12/8 = 1,5. Nawet jeśli próbka jest losowa, rzadko jest idealnie reprezentatywna, a inne próbki miałyby inne średnie próby, nawet gdyby wszystkie próbki pochodziły z tej samej populacji. Na przykład próbka (2, 1, 0) miałaby średnią próbki wynoszącą 1.

Jeśli statystyka interesuje K zmiennych, a nie jedna, każda obserwacja ma wartość dla każdej z tych K zmiennych, ogólna średnia próby składa się ze średnich K próby dla poszczególnych zmiennych. Niech będzie i- niezależnie wylosowaną obserwacją ( i=1,...,N ) na j- tej zmiennej losowej ( j=1,...,K ). Te obserwacje mogą być uporządkowane w N wektorów kolumnowych, każdy z K wpisów, przy czym wektor kolumnowy K × 1 daje i- te obserwacje wszystkich oznaczonych zmiennych ( i=1,...,N ).

Średniej próbki wektor jest wektorem kolumnę, której j p elementem jest wartością średnią z N obserwacji j -tego zmiennej:

Zatem wektor średniej próbki zawiera średnią obserwacji dla każdej zmiennej i jest zapisany

Definicja kowariancji próbki

Próbki macierzy kowariancji JeSt K -by- K matrycy z wpisów

gdzie jest oszacowaniem kowariancji między j- zmienną a k- zmienną populacji będącej podstawą danych. W odniesieniu do wektorów obserwacji kowariancja próbki wynosi

Alternatywnie, rozmieszczając wektory obserwacji jako kolumny macierzy, tak aby

,

która jest macierzą K wierszy i N kolumn. Tutaj przykładową macierz kowariancji można obliczyć jako

,

gdzie jest N na 1 wektor jedynek. Jeśli obserwacje są ułożone jako wiersze zamiast kolumn, to jest teraz wektor wierszy 1× K i jest macierzą N × K , której kolumna j jest wektorem N obserwacji na zmiennej j , wtedy zastosowanie transpozycji w odpowiednich miejscach daje

Podobnie jak macierze kowariancji dla losowego wektora , próbkowe macierze kowariancji są dodatnie półokreślone . Aby to udowodnić, zauważ, że dla każdej macierzy macierz jest dodatnia półokreślona. Co więcej, macierz kowariancji jest dodatnio określona wtedy i tylko wtedy, gdy rząd wektorów wynosi K.

Bezstronność

Próbkę średnią i macierz kowariancji próbki pakietów oszacowania ZWIĄZKU średnią a macierz kowariancji z wektora losowego , wektora rzędu, który j p elementu ( j = 1, ..., K ) jest jedną ze zmiennych losowych. Macierz kowariancji próbki ma w mianowniku, a nie z powodu wariantu poprawki Bessela : Krótko mówiąc, kowariancja próbki opiera się na różnicy między każdą obserwacją a średnią próbki, ale średnia próbki jest nieznacznie skorelowana z każdą obserwacją, ponieważ jest zdefiniowana pod względem wszystkich obserwacji. Jeżeli średnia populacji jest znana, analogiczne bezstronne oszacowanie

używając średniej populacji, ma w mianowniku. Jest to przykład tego, dlaczego w prawdopodobieństwie i statystyce istotne jest rozróżnienie zmiennych losowych (duże litery) od realizacji zmiennych losowych (małe litery).

Maksymalne prawdopodobieństwo oszacowanie kowariancji

ponieważ przypadek rozkładu Gaussa ma również N w mianowniku. Stosunek 1/ N do 1/( N  -1) zbliża się do 1 dla dużego  N , więc oszacowanie maksymalnego prawdopodobieństwa jest w przybliżeniu równe oszacowaniu bezstronnemu, gdy próba jest duża.

Rozkład średniej próbki

Dla każdej zmiennej losowej średnia z próby jest dobrym estymatorem średniej populacji, gdzie „dobry” estymator jest definiowany jako wydajny i bezstronny. Oczywiście estymator prawdopodobnie nie będzie prawdziwą wartością średniej populacji, ponieważ różne próbki pobrane z tego samego rozkładu dadzą różne średnie próbki, a zatem różne oszacowania prawdziwej średniej. Tak więc średnia z próby jest zmienną losową , a nie stałą i w związku z tym ma swój własny rozkład. Dla losowej próby N obserwacji na j- tej zmiennej losowej, sam rozkład średniej próby ma średnią równą średniej populacji i wariancję równą , gdzie jest wariancją populacji.

Średnia arytmetyczna populacji lub średnia populacji jest często oznaczana μ . Średnia z próby (średnia arytmetyczna z próby wartości pobranej z populacji) jest dobrym estymatorem średniej populacji, ponieważ jej wartość oczekiwana jest równa średniej z populacji (czyli jest to estymator nieobciążony ). Średnia z próby jest zmienną losową , a nie stałą, ponieważ jej obliczona wartość będzie się losowo różnić w zależności od tego, którzy członkowie populacji zostaną wylosowani, a co za tym idzie, będzie miała swój własny rozkład. Dla losowej próby n niezależnych obserwacji oczekiwana wartość średniej próby wynosi

a wariancja średniej próbki wynosi

Jeżeli populacja ma rozkład normalny , średnia próbki ma rozkład normalny w następujący sposób:

Jeśli populacja nie ma rozkładu normalnego, średnia próbki ma mimo to w przybliżeniu rozkład normalny, jeśli n jest duże, a  σ 2 / n  < +∞. Jest to konsekwencja centralnego twierdzenia granicznego .

Próbki ważone

W próbie ważonej każdemu wektorowi (każdemu zestawowi pojedynczych obserwacji każdej z K zmiennych losowych) przypisuje się wagę . Bez utraty ogólności załóżmy, że wagi są znormalizowane :

(Jeśli nie, podziel wagi przez ich sumę). Wtedy wektor średniej ważonej jest podany przez

a elementami ważonej macierzy kowariancji są

Jeśli wszystkie wagi są takie same, średnia ważona i kowariancja zmniejszają się do (obciążonej) średniej próbki i kowariancji wspomnianych powyżej.

Krytyka

Średnia próby i kowariancja próby nie są statystykami odpornymi , co oznacza, że ​​są wrażliwe na wartości odstające . Ponieważ odporność jest często pożądaną cechą, szczególnie w rzeczywistych zastosowaniach, solidne alternatywy mogą okazać się pożądane, w szczególności statystyki oparte na kwantylach , takie jak mediana próbki dla lokalizacji i rozstęp międzykwartylowy (IQR) dla dyspersji. Inne alternatywy obejmują przycinanie i Winsorising , podobnie jak średnia przycięta i średnia Winsorized .

Zobacz też

Bibliografia