Wariancja - Variance

Przykład próbek z dwóch populacji o tej samej średniej, ale o różnych wariancjach. Populacja czerwona ma średnią 100 i wariancję 100 (SD=10), podczas gdy populacja niebieska ma średnią 100 i wariancję 2500 (SD=50).

W teorii prawdopodobieństwa i statystyki , wariancja jest oczekiwanie od kwadratu odchylenia o zmiennej losowej od jej średniej populacji lub średniej próbki . Wariancja jest miarą rozproszenia , co oznacza, że ​​jest miarą tego, jak daleko zestaw liczb jest rozłożony od ich średniej wartości. Wariancja odgrywa kluczową rolę w statystyce, gdzie niektóre pomysły, które jej używają, obejmują statystyki opisowe , wnioskowanie statystyczne , testowanie hipotez , dobroć dopasowania i próbkowanie metodą Monte Carlo . Wariancja jest ważnym narzędziem w naukach, gdzie powszechna jest statystyczna analiza danych. Wariancja jest kwadratem odchylenia standardowego , drugi moment centralny z dystrybucją i kowariancji zmiennej losowej o sobie, a często jest to reprezentowane przez , , , , lub .

Zaletą wariancji jako miary rozproszenia jest to, że jest bardziej podatna na manipulacje algebraiczne niż inne miary rozproszenia, takie jak oczekiwane odchylenie bezwzględne ; na przykład wariancja sumy nieskorelowanych zmiennych losowych jest równa sumie ich wariancji. Wadą wariancji w zastosowaniach praktycznych jest to, że w przeciwieństwie do odchylenia standardowego, jego jednostki różnią się od zmiennej losowej, dlatego odchylenie standardowe jest częściej podawane jako miara rozrzutu po zakończeniu obliczeń.

Istnieją dwie różne koncepcje, które nazywamy „wariancją”. Jeden, jak omówiono powyżej, jest częścią teoretycznego rozkładu prawdopodobieństwa i jest określony równaniem. Druga wariancja jest cechą zestawu obserwacji. Kiedy wariancja jest obliczana na podstawie obserwacji, obserwacje te są zazwyczaj mierzone z systemu świata rzeczywistego. Jeżeli obecne są wszystkie możliwe obserwacje układu, to obliczoną wariancję nazywamy wariancją populacyjną. Zwykle jednak dostępny jest tylko podzbiór, a obliczona z tego wariancja nazywana jest wariancją próbki. Wariancję obliczoną na podstawie próbki uważa się za oszacowanie pełnej wariancji populacyjnej. Istnieje wiele sposobów obliczania oszacowania wariancji populacji, co omówiono w poniższej sekcji.

Te dwa rodzaje wariancji są ze sobą ściśle powiązane. Aby zobaczyć jak, rozważmy, że teoretyczny rozkład prawdopodobieństwa może być użyty jako generator hipotetycznych obserwacji. Jeśli przy użyciu rozkładu zostanie wygenerowana nieskończona liczba obserwacji, wariancja próbki obliczona z tego nieskończonego zbioru będzie odpowiadać wartości obliczonej przy użyciu równania wariancji rozkładu.

Definicja

Wariancją zmiennej losowej jest wartość oczekiwana kwadratu odchylenia od średniej z , :

Definicja ta obejmuje zmienne losowe, które są generowane przez procesy dyskretne , ciągłe , ani , ani mieszane. Wariancję można również traktować jako kowariancję zmiennej losowej z samą sobą:

Wariancja jest również równoważna drugiej kumulacji rozkładu prawdopodobieństwa, która generuje . Wariancja jest zwykle oznaczana jako , lub czasami jako lub , lub symbolicznie jako lub po prostu (wymawiane „ sigma do kwadratu”). Wyrażenie na wariancję można rozwinąć w następujący sposób:

Innymi słowy, wariancja X jest równa średniej kwadratu X minus kwadrat średniej X . To równanie nie powinno być używane do obliczeń przy użyciu arytmetyki zmiennoprzecinkowej , ponieważ cierpi z powodu katastrofalnego anulowania, jeśli dwa składniki równania są podobne pod względem wielkości. Aby zapoznać się z innymi stabilnymi numerycznie alternatywami, zobacz Algorytmy obliczania wariancji .

Dyskretna zmienna losowa

Jeżeli generator zmiennej losowej jest dyskretny z funkcją masy prawdopodobieństwa , to

gdzie jest oczekiwana wartość. To jest,

(Kiedy taka dyskretna ważona wariancja jest określona wagami, których suma nie jest równa 1, wówczas dzieli się przez sumę wag.)

Wariancję zbioru równie prawdopodobnych wartości można zapisać jako

gdzie jest średnia wartość. To jest,

Wariancję zestawu równie prawdopodobnych wartości można równoważnie wyrazić, bez bezpośredniego odniesienia do średniej, w postaci kwadratów odchyleń wszystkich punktów od siebie:

Absolutnie ciągła zmienna losowa

Jeżeli zmienna losowa ma funkcję gęstości prawdopodobieństwa , i jest odpowiednią funkcją rozkładu skumulowanego , to

lub równoważnie,

gdzie jest oczekiwana wartość podana przez

W tych wzorach całki względem i są odpowiednio całkami Lebesgue'a i Lebesgue'a-Stieltjesa .

Jeśli funkcja jest całkowalna Riemanna na każdym skończonym przedziale, to

gdzie całka jest niewłaściwą całką Riemanna .

Przykłady

Rozkład wykładniczy

Rozkład wykładniczy z parametrem λ jest rozkładem ciągłym, którego funkcja gęstości prawdopodobieństwa jest dana wzorem

na przedziale [0, ∞) . Można wykazać, że jego średnia jest

Stosując całkowanie przez części i wykorzystując już obliczoną wartość oczekiwaną, mamy:

Zatem wariancja X jest dana przez

Uczciwa umrzeć

Spora sześciu kostka może być modelowana jako dyskretne zmiennej losowej, X , a wyniki 1 do 6, przy czym każdy z równym prawdopodobieństwem 1/6. Oczekiwana wartość X to Dlatego wariancja X to

Ogólny wzór na odchylenia od wyniku, X , o z n -sided matrycy jest

Powszechnie używane rozkłady prawdopodobieństwa

W poniższej tabeli wymieniono wariancje dla niektórych powszechnie używanych rozkładów prawdopodobieństwa.

Nazwa rozkładu prawdopodobieństwa Funkcja rozkładu prawdopodobieństwa Mieć na myśli Zmienność
Rozkład dwumianowy
Rozkład geometryczny
Normalna dystrybucja
Rozkład równomierny (ciągły)
Rozkład wykładniczy
Rozkład Poissona

Nieruchomości

Podstawowe właściwości

Wariancja nie jest ujemna, ponieważ kwadraty są dodatnie lub zerowe:

Wariancja stałej wynosi zero.

I odwrotnie, jeśli wariancja zmiennej losowej wynosi 0, to prawie na pewno jest stała. Oznacza to, że zawsze ma tę samą wartość:

Wariancja jest niezmienna w stosunku do zmian parametru lokalizacji . Oznacza to, że jeśli do wszystkich wartości zmiennej zostanie dodana stała, wariancja pozostaje niezmieniona:

Jeśli wszystkie wartości są skalowane przez stałą, wariancja jest skalowana przez kwadrat tej stałej:

Wariancja sumy dwóch zmiennych losowych dana jest wzorem

gdzie jest kowariancja .

Ogólnie dla sumy zmiennych losowych wariancja wynosi:

Wyniki te prowadzą do wariancji kombinacji liniowej, ponieważ:

Jeśli zmienne losowe są takie, że

wtedy mówi się, że nieskorelowane . Z podanego wcześniej wyrażenia wynika bezpośrednio, że jeśli zmienne losowe nie są skorelowane, to wariancja ich sumy jest równa sumie ich wariancji, czyli wyrażona symbolicznie:

Ponieważ niezależne zmienne losowe są zawsze nieskorelowane (patrz Kowariancja § Nieskorelowanie i niezależność ), powyższe równanie obowiązuje w szczególności, gdy zmienne losowe są niezależne. Zatem niezależność jest wystarczająca, ale nie konieczna, aby wariancja sumy była równa sumie wariancji.

Kwestie skończoności

Jeśli rozkład nie ma skończonej wartości oczekiwanej, jak w przypadku rozkładu Cauchy'ego , to wariancja również nie może być skończona. Jednak niektóre rozkłady mogą nie mieć skończonej wariancji, mimo że ich oczekiwana wartość jest skończona. Przykładem jest rozkład Pareto, którego indeks spełnia

Suma nieskorelowanych zmiennych (formuła Bienaymé)

Jednym z powodów stosowania wariancji zamiast innych miar dyspersji jest to, że wariancja sumy (lub różnicy) nieskorelowanych zmiennych losowych jest sumą ich wariancji:

Stwierdzenie to nazywa się formułą Bienaymé i zostało odkryte w 1853 roku. Często formułuje się je z mocniejszym warunkiem, że zmienne są niezależne , ale wystarczą nieskorelowane. Jeśli więc wszystkie zmienne mają tę samą wariancję σ 2 , to ponieważ dzielenie przez n jest przekształceniem liniowym, z tej formuły natychmiast wynika, że ​​wariancja ich średniej wynosi

Oznacza to, że wariancja średniej zmniejsza się wraz ze wzrostem n . Ten wzór na wariancję średniej jest używany w definicji błędu standardowego średniej próbki, który jest używany w centralnym twierdzeniu granicznym .

Aby udowodnić początkowe stwierdzenie, wystarczy wykazać, że

Ogólny wynik następuje następnie przez indukcję. Począwszy od definicji,

Wykorzystując liniowość operatora oczekiwania i założenie niezależności (lub niekorelacji) X i Y , upraszcza się to w następujący sposób:

Suma skorelowanych zmiennych

Z korelacją i ustaloną wielkością próbki

Ogólnie wariancja sumy n zmiennych jest sumą ich kowariancji :

(Uwaga: druga równość wynika z faktu, że Cov( X i , X i ) = Var( X i ) .)

Tutaj jest kowariancji , która jest równa zero dla niezależnych zmiennych losowych (jeśli istnieje). Wzór stwierdza, że ​​wariancja sumy jest równa sumie wszystkich elementów w macierzy kowariancji składników. Następne wyrażenie stwierdza równoważnie, że wariancja sumy jest sumą przekątnej macierzy kowariancji plus dwukrotność sumy jej górnych elementów trójkątnych (lub dolnych elementów trójkątnych); podkreśla to, że macierz kowariancji jest symetryczna. Ten wzór jest używany w teorii alfa Cronbacha w klasycznej teorii testów .

Jeśli więc zmienne mają równą wariancję σ 2 i średnia korelacja różnych zmiennych wynosi ρ , to wariancja ich średniej wynosi

Oznacza to, że wariancja średniej wzrasta wraz ze średnią korelacji. Innymi słowy, dodatkowe obserwacje skorelowane nie są tak efektywne, jak dodatkowe niezależne obserwacje w zmniejszaniu niepewności średniej . Co więcej, jeśli zmienne mają wariancję jednostkową, na przykład jeśli są standaryzowane, to upraszcza się do:

Ta formuła jest używana w formule przewidywania Spearmana-Browna klasycznej teorii testów. Zbiega się to do ρ, jeśli n dąży do nieskończoności, pod warunkiem, że średnia korelacja pozostaje stała lub też jest zbieżna. Tak więc dla wariancji średniej standaryzowanych zmiennych o równych korelacjach lub zbieżnej średniej korelacji mamy

Dlatego wariancja średniej dużej liczby zmiennych standaryzowanych jest w przybliżeniu równa ich średniej korelacji. To wyjaśnia, że ​​średnia próbki skorelowanych zmiennych generalnie nie jest zbieżna ze średnią populacji, chociaż prawo dużych liczb mówi, że średnia próbki będzie zbieżna dla zmiennych niezależnych.

Iid z losową wielkością próbki

Zdarzają się przypadki, gdy próbka jest pobierana bez wcześniejszej wiedzy, ile obserwacji będzie akceptowalnych według jakiegoś kryterium. W takich przypadkach wielkość próby N jest zmienną losową, której zmienność dodaje się do zmienności X w taki sposób, że

Var(Σ X ) = E( N )Var( X ) + Var( N )E 2 ( X ),

co wynika z prawa całkowitej wariancji .

Jeśli N ma rozkład Poissona , to E( N ) = Var( N ) z estymatorem N = n . Zatem estymator Var(Σ X ) staje się nS 2 X + n X 2 dając

błąd standardowy ( X ) = √[( S 2 X + X 2 )/ n ].

Notacja macierzowa dla wariancji kombinacji liniowej

Zdefiniuj jako wektor kolumnowy zmiennych losowych i jako wektor kolumnowy skalarów . W związku z tym, jest liniową kombinacją tych zmiennych losowych, gdzie Ranga ta jest transpozycję o . Także pozwala jest macierzą kowariancji z . Wariancja jest wtedy dana przez:

Oznacza to, że wariancję średniej można zapisać jako (z wektorem kolumnowym składającym się z jedynek)

Ważona suma zmiennych

Własność skalowania i wzór Bienaymé, wraz z własnością kowariancji Cov( aXbY ) = ab Cov( XY ) łącznie implikują, że

Oznacza to, że w ważonej sumie zmiennych zmienna o największej wadze będzie miała nieproporcjonalnie dużą wagę w wariancji sumy. Na przykład, jeśli X i Y nie są skorelowane, a waga X jest dwa razy większa od wagi Y , to waga wariancji X będzie czterokrotnością wagi wariancji Y .

Powyższe wyrażenie można rozszerzyć na ważoną sumę wielu zmiennych:

Iloczyn zmiennych niezależnych

Jeżeli dwie zmienne X i Y są niezależne , wariancja ich iloczynu jest dana wzorem

Równoważnie, korzystając z podstawowych własności oczekiwania, dana jest wzorem

Iloczyn zmiennych statystycznie zależnych

Ogólnie rzecz biorąc, jeśli dwie zmienne są statystycznie zależne, tj. mają niezerową kowariancję, to wariancję ich iloczynu wyraża wzór:

Rozkład

Ogólny wzór na rozkład wariancji lub prawo całkowitej wariancji to: Jeśli i są dwiema zmiennymi losowymi, a wariancja istnieje, to

Warunkowego oczekiwanie na dane , a wariancja warunkowego może być rozumiana w następujący sposób. Biorąc pod uwagę jakąkolwiek konkretną wartość y zmiennej losowej  Y , istnieje warunkowe oczekiwanie ze względu na zdarzenie  Y  =  y . Wielkość ta zależy od konkretnej wartości  y ; jest to funkcja . Ta sama funkcja oceniana przy zmiennej losowej Y jest warunkowym oczekiwaniem

W szczególności, jeśli jest dyskretną zmienną losową przyjmującą możliwe wartości z odpowiadającymi im prawdopodobieństwami , to we wzorze na całkowitą wariancję pierwszy wyraz po prawej stronie staje się

gdzie . Podobnie drugi termin po prawej stronie staje się

gdzie i . Zatem całkowita wariancja jest dana przez

Podobną formułę stosuje się w analizie wariancji , gdzie odpowiadającą jej formułą jest

tutaj odnosi się do średniej kwadratów. W analizie regresji liniowej odpowiedni wzór to

Można to również wyprowadzić z addytywności wariancji, ponieważ całkowity (obserwowany) wynik jest sumą wyniku przewidywanego i wyniku błędu, przy czym te dwa ostatnie nie są skorelowane.

Podobne rozkłady są możliwe dla sumy kwadratów odchyleń (suma kwadratów, ):

Obliczenia z CDF

Wariancję populacyjną dla nieujemnej zmiennej losowej można wyrazić w postaci funkcji rozkładu skumulowanego F za pomocą

Wyrażenie to może być użyte do obliczenia wariancji w sytuacjach, w których można wygodnie wyrazić CDF, ale nie gęstość .

Charakterystyczna właściwość

Drugi moment zmiennej losowej osiąga wartość minimalną, gdy jest brany wokół pierwszego momentu (tj. średniej) zmiennej losowej, czyli . I odwrotnie, jeśli funkcja ciągła spełnia wszystkie zmienne losowe X , to z konieczności ma postać , gdzie a > 0 . Dotyczy to również przypadku wielowymiarowego.

Jednostki miary

W przeciwieństwie do oczekiwanego odchylenia bezwzględnego wariancja zmiennej ma jednostki, które są kwadratem jednostek samej zmiennej. Na przykład zmienna mierzona w metrach będzie miała wariancję mierzoną w metrach do kwadratu. Z tego powodu opisywanie zestawów danych za pomocą ich odchylenia standardowego lub odchylenia średniokwadratowego jest często preferowane w stosunku do wariancji. W przykładzie z kostką odchylenie standardowe wynosi 2,9 ≈ 1,7 , nieco większe niż oczekiwane odchylenie bezwzględne 1,5.

Zarówno odchylenie standardowe, jak i oczekiwane odchylenie bezwzględne można wykorzystać jako wskaźnik „rozrzutu” rozkładu. Odchylenie standardowe jest bardziej podatne na manipulacje algebraiczne niż oczekiwane odchylenie bezwzględne i wraz z wariancją i jej kowariancją uogólnienia jest często używane w statystyce teoretycznej; jednak oczekiwane odchylenie bezwzględne wydaje się być bardziej wiarygodne, ponieważ jest mniej wrażliwe na wartości odstające wynikające z anomalii pomiarowych lub zbyt gęstoogonowego rozkładu .

Aproksymacja wariancji funkcji

Metoda delta wykorzystuje rozwinięcia Taylora drugiego rzędu do przybliżenia wariancji funkcji jednej lub więcej zmiennych losowych: zobacz rozwinięcia Taylora dla momentów funkcji zmiennych losowych . Na przykład przybliżona wariancja funkcji jednej zmiennej jest dana wzorem

pod warunkiem, że f jest podwójnie różniczkowalna i że średnia i wariancja X są skończone.

Wariancja populacji i wariancja próby

Rzeczywiste obserwacje, takie jak pomiary wczorajszego deszczu w ciągu dnia, zazwyczaj nie mogą być kompletnym zestawem wszystkich możliwych obserwacji, które można przeprowadzić. W związku z tym wariancja obliczona ze skończonego zbioru na ogół nie będzie odpowiadać wariancji, która zostałaby obliczona z pełnej populacji możliwych obserwacji. Oznacza to, że można oszacować średnią i wariancję z ograniczonego zestawu obserwacji za pomocą równania estymatora . Estymator jest funkcją próbki z n obserwacji sporządzone bez błędu obserwacji z całej populacji potencjalnych obserwacji. W tym przykładzie próbka byłaby zbiorem rzeczywistych pomiarów wczorajszych opadów deszczu z dostępnych deszczomierzy w interesującej nas geografii.

Najprostsze estymatory dla średniej populacji i wariancji populacji to po prostu średnia i wariancja próby, średnia próby i (nieskorygowana) wariancja próby – są to estymatory spójne (zbiegają się do prawidłowej wartości wraz ze wzrostem liczby próbek), ale mogą usprawniać się. Szacowanie wariancji populacji poprzez wariancję próbki jest ogólnie bliskie optymalnej, ale można ją poprawić na dwa sposoby. Najprościej, wariancja próbki jest obliczana jako średnia kwadratów odchyleń od średniej (z próby) poprzez podzielenie przez n. Jednak użycie wartości innych niż n poprawia estymator na różne sposoby. Cztery wspólne wartości mianownika to n, n  -1, n  +1 i n  -1,5: n jest najprostszym (wariancja populacji próbki), n  -1 eliminuje błąd systematyczny, n  +1 minimalizuje błąd średniokwadratowy dla normy rozkładu, a n  − 1,5 w większości eliminuje błąd systematyczny w nieobciążonym oszacowaniu odchylenia standardowego dla rozkładu normalnego.

Po pierwsze, jeśli prawdziwa średnia populacji jest nieznana, wtedy wariancja próbki (która wykorzystuje średnią z próby zamiast prawdziwej średniej) jest obciążonym estymatorem : zaniża wariancję o czynnik ( n  − 1) / n ; korekta o ten czynnik (dzielenie przez n  − 1 zamiast n ) nazywana jest poprawką Bessela . Wynikowy estymator jest nieobciążony i jest nazywany (skorygowaną) wariancją próbki lub nieobciążoną wariancją próbki . Na przykład, gdy n  = 1, wariancja pojedynczej obserwacji dotyczącej średniej próbki (samej) jest oczywiście zerowa niezależnie od wariancji populacji. Jeżeli średnia jest określana w inny sposób niż z tych samych próbek użytych do oszacowania wariancji, to błąd ten nie powstaje i wariancję można bezpiecznie oszacować jako wariancję próbek o (niezależnie znanej) średniej.

Po drugie, wariancja próbki generalnie nie minimalizuje błędu średniokwadratowego między wariancją próbki a wariancją populacji. Korekta błędu systematycznego często pogarsza sytuację: zawsze można wybrać współczynnik skalowania, który działa lepiej niż skorygowana wariancja próby, chociaż optymalny współczynnik skalowania zależy od nadwyżki kurtozy populacji (patrz błąd średniokwadratowy: wariancja ) i wprowadza obciążenie. To zawsze składa się ze skalowania w dół nieobciążonego estymatora (dzielenia przez liczbę większą niż n  − 1) i jest prostym przykładem estymatora skurczu : jeden „zmniejsza” nieobciążony estymator do zera. W przypadku rozkładu normalnego dzielenie przez n  + 1 (zamiast n  − 1 lub n ) minimalizuje błąd średniokwadratowy. Wynikowy estymator jest jednak obciążony i jest znany jako obciążona zmienność próbki .

Wariancja populacji

Na ogół, wariancja populacyjna o skończonej populacji o rozmiarze N z wartości x i jest przez

gdzie średnia populacji wynosi

Wariancję populacji można również obliczyć za pomocą

To prawda, ponieważ

Wariancja populacji odpowiada wariancji generowanego rozkładu prawdopodobieństwa. W tym sensie pojęcie populacji można rozszerzyć na ciągłe zmienne losowe o nieskończonych populacjach.

Wariancja próbki

Stronnicza wariancja próbki

W wielu praktycznych sytuacjach prawdziwa wariancja populacji nie jest znana a priori i musi być jakoś obliczona. Kiedy mamy do czynienia z bardzo dużymi populacjami, nie jest możliwe policzenie każdego obiektu w populacji, więc obliczenia muszą być wykonane na próbie populacji. Wariancję próbki można również zastosować do oszacowania wariancji rozkładu ciągłego z próbki tego rozkładu.

Bierzemy próbki z wymianą z n wartości Y 1 , ...,  Y n od populacji, gdzie n  <  N oraz oszacować wariancję na podstawie tej próbki. Bezpośrednie pobranie wariancji danych próbki daje średnią z kwadratów odchyleń :

Tutaj oznacza średnią próbki :

Ponieważ Y i są wybierane losowo, obie i są zmiennymi losowymi. Ich oczekiwane wartości można oszacować poprzez uśrednienie zbioru wszystkich możliwych próbek { Y i } o rozmiarze n z populacji. Do tego daje:

Stąd daje oszacowanie wariancji populacji, która jest naciskana przez współczynnik . Z tego powodu jest określany jako obciążona wariancja próbki .

Nieobciążona wariancja próbki

Skorygowanie tego błędu daje nieobciążoną wariancję próbki , oznaczoną :

Każdy estymator można po prostu nazwać wariancją próbki, gdy wersję można określić na podstawie kontekstu. Ten sam dowód ma również zastosowanie do próbek pobranych z ciągłego rozkładu prawdopodobieństwa.

Użycie terminu n  − 1 nazywa się poprawką Bessela i jest również używane w kowariancji próbki i odchyleniu standardowym próbki (pierwiastek kwadratowy z wariancji). Pierwiastek kwadratowy jest funkcją wklęsłą, a zatem wprowadza ujemne obciążenie (przez nierówność Jensena ), które zależy od rozkładu, a zatem skorygowane odchylenie standardowe próbki (przy użyciu poprawki Bessela) jest obciążone. Obiektywne oszacowanie odchylenia standardowego jest technicznie zaangażowany problemem, choć dla rozkładu normalnego korzystania termin n  - 1,5 plony prawie nieobciążonym estymatorem.

Nieobciążona wariancja próbki jest statystyką U dla funkcji ƒ ( y 1y 2 ) = ( y 1  −  y 2 ) 2 /2, co oznacza, że ​​jest uzyskiwana przez uśrednienie statystyki 2-próbowej dla 2-elementowych podzbiorów populacja.

Rozkład wariancji próbki

Rozkład i skumulowany rozkład S 22 , dla różnych wartości ν = n − 1, gdy y i są niezależnymi rozkładami normalnymi.

Będąc funkcją zmiennych losowych , wariancja próbki sama w sobie jest zmienną losową i naturalne jest badanie jej rozkładu. W przypadku, gdy Y i są niezależnymi obserwacjami z rozkładu normalnego , twierdzenie Cochrana pokazuje, że s 2 jest zgodne ze skalowanym rozkładem chi-kwadrat :

W konsekwencji wynika z tego, że

oraz

Jeśli Y i są niezależne i mają identyczny rozkład, ale niekoniecznie rozkład normalny, to

gdzie κ jest kurtozą rozkładu, a μ 4 jest czwartym momentem centralnym .

Jeżeli warunki prawa wielkich liczb przytrzymać przez kwadratów obserwacji s 2 jest zgodny estymatorĎ 2 . Widać rzeczywiście, że wariancja estymatora zmierza asymptotycznie do zera. Asymptotycznie równoważny wzór podano w Kenney i Keeping (1951:164), Rose i Smith (2002:264) oraz Weisstein (nd).

Nierówność Samuelsona

Nierówność Samuelsona jest wynikiem, który określa granice wartości, jakie mogą przyjąć poszczególne obserwacje w próbie, biorąc pod uwagę, że obliczono średnią próby i (obciążoną) wariancję. Wartości muszą mieścić się w granicach

Związki ze średnimi harmonicznymi i arytmetycznymi

Wykazano, że dla próbki { y i } dodatnich liczb rzeczywistych,

gdzie Y max jest maksymalna w próbce jest średnią arytmetyczną, H jest średnią harmoniczną próbki i jest (duża) wariancją próbki.

To ograniczenie zostało ulepszone i wiadomo, że wariancja jest ograniczona przez

gdzie y min to minimum próbki.

Testy równości wariancji

Testowanie równości dwóch lub więcej wariancji jest trudne. Na test F i test chi-kwadrat niekorzystnie wpływa nienormalność i nie są one zalecane do tego celu.

Kilka non testy parametryczne zostały zaproponowane: obejmują one próbę Barton-David-Ansari-Freund-Siegel-Tukeya, z testu Capon , badanie Mood , na próbę Klotz i testu Sukhatme . Test Sukhatmego dotyczy dwóch wariancji i wymaga, aby obie mediany były znane i były równe zeru. Testy Mood, Klotz, Capon i Barton-David-Ansari-Freund-Siegel-Tukey mają również zastosowanie do dwóch wariancji. Pozwalają, aby mediana była nieznana, ale wymagają, aby obie mediany były równe.

Test Lehmanna jest testem parametrycznym dwóch wariancji. Znanych jest kilka wariantów tego testu. Inne testy równości wariancji obejmują Test Box , The Test Box-Anderson i testu Moses .

Metody ponownego próbkowania, które obejmują bootstrap i scyzoryk , mogą być użyte do testowania równości wariancji.

Historia

Termin wariancja został po raz pierwszy wprowadzony przez Ronalda Fishera w jego pracy z 1918 r. The Correlation Between Relatives on the Supposition of Mendelian Inheritance :

Wielki organizm dostępnych statystyk pokazują nam, że odchylenia w pomiarze ludzkiego od jego średni czas obserwacji ściśle Prawo Normal omyłek i dlatego, że zmienność może być równomiernie mierzona odchyleniem standardowym odpowiadającej pierwiastka kwadratowego z średnią kwadratowy błąd . Gdy istnieją dwie niezależne przyczyny zmienności zdolne do wytworzenia w skądinąd jednolitej populacji rozkładów z odchyleniami standardowymi i , okazuje się, że rozkład, gdy obie przyczyny działają razem, ma odchylenie standardowe . Dlatego w analizie przyczyn zmienności pożądane jest zajmowanie się kwadratem odchylenia standardowego jako miarą zmienności. Tę wielkość będziemy nazywać Wariancją...

Wizualizacja geometryczna wariancji dowolnego rozkładu (2, 4, 4, 4, 5, 5, 7, 9):
  1. Konstruowany jest rozkład częstotliwości.
  2. Środek rozkładu podaje jego średnią.
  3. Dla każdej wartości tworzony jest kwadrat o bokach równych różnicy każdej wartości od średniej.
  4. Ułożenie kwadratów w prostokąt o jednym boku równym liczbie wartości n powoduje, że druga strona jest wariancją rozkładu σ 2 .

Moment bezwładności

Wariancja rozkładu prawdopodobieństwa jest analogiczna do momentu bezwładności w mechanice klasycznej odpowiadającego rozkładu masy wzdłuż linii względem obrotu wokół jego środka masy. To właśnie z powodu tej analogii, że takie rzeczy jak wariancji nazywane są chwile z rozkładów prawdopodobieństwa . Macierz kowariancji jest powiązana z tensorem momentu bezwładności dla rozkładów wielowymiarowych. Moment bezwładności chmury n punktów z macierzą kowariancji wyraża się wzorem

Ta różnica między momentem bezwładności w fizyce i statystyce jest wyraźna dla punktów gromadzonych wzdłuż linii. Załóżmy, że wiele punktów znajduje się blisko osi x i jest wzdłuż niej rozmieszczonych. Może wyglądać macierz kowariancji

Oznacza to, że jest największa wariancja w kierunku x . Fizycy uznałby to mieć małą chwilę o tym x osi więc moment-of-tensor bezwładności jest

Semiwariancja

Semiwariancja obliczana jest w taki sam sposób jak wariancji ale tylko tych obserwacji, które mieszczą się poniżej średniej są uwzględniane w obliczeniach:

Czasami jest opisywany jako miara ryzyka spadkowego w kontekście inwestycyjnym . W przypadku rozkładów skośnych semiwariancja może dostarczyć dodatkowych informacji, których nie dostarcza wariancja.

Nierówności związane z semiwariancją, patrz nierówność Czebyszewa § Semivariances .

Uogólnienia

Dla zmiennych złożonych

Jeśli jest skalar kompleks -valued zmienną losową z wartościami a następnie jego wariancji w którym jest sprzężone z tej zmienności jest prawdziwy skalarnej.

Dla zmiennych losowych o wartościach wektorowych

Jako matryca

Jeśli jest zmienną losową o wartości wektorowej , z wartościami i traktowanymi jako wektor kolumnowy, to naturalnym uogólnieniem wariancji jest miejsce i jest transpozycją wektora wierszowego. Wynikiem jest dodatnia półokreślona macierz kwadratowa , powszechnie nazywana macierzą wariancji-kowariancji (lub po prostu macierzą kowariancji ).

Jeśli jest nosicieli i zespolona zmienną losową z wartościami wówczas macierz kowariancji jest , gdy jest sprzężoną transpozycję z tej macierzy jest określony dodatni i pół-kwadratu.

Jako skalar

Innym uogólnieniem wariancji dla zmiennych losowych o wartościach wektorowych , które skutkuje wartością skalarną, a nie macierzą, jest uogólniona wariancja , wyznacznik macierzy kowariancji. Można wykazać, że uogólniona wariancja jest związana z wielowymiarowym rozrzutem punktów wokół ich średniej.

Odmienne uogólnienie uzyskuje się, biorąc pod uwagę odległość euklidesową między zmienną losową a jej średnią. Wynikiem tego jest ślad macierzy kowariancji.

Zobacz też

Rodzaje wariancji

Bibliografia