Rozkład chi-kwadrat - Chi-squared distribution

chi-kwadrat
Funkcja gęstości prawdopodobieństwa
Chi-kwadrat pdf.svg
Dystrybuanta
Chi-kwadrat cdf.svg
Notacja lub
Parametry (znane jako „stopnie swobody”)
Wsparcie jeśli , inaczej
PDF
CDF
Mieć na myśli
Mediana
Tryb
Zmienność
Skośność
Były. kurtoza
Entropia
MGF
CF
PGF

W teorii prawdopodobieństwa i statystyki , rozkład chi-kwadrat (również chi-kwadrat lub χ 2 -Dystrybucja ) z k stopniami swobody jest dystrybucja suma kwadratów k niezależnych standardowych normalnych zmiennych losowych. Rozkład chi-kwadrat jest szczególnym przypadkiem rozkładu gamma i jest jednym z najczęściej używanych rozkładów prawdopodobieństwa w statystyce wnioskowania , zwłaszcza w testowaniu hipotez i konstruowaniu przedziałów ufności . Rozkład ten jest czasami nazywany centralnym rozkładem chi-kwadrat , szczególnym przypadkiem bardziej ogólnego niecentralnego rozkładu chi-kwadrat .

Rozkład chi-kwadrat jest używany we wspólnym testów chi-kwadrat dla dobroci dopasowania obserwowanej dystrybucji do teoretycznej Jeden, niezależności dwóch kryteriów klasyfikacji danych jakościowych , aw przedziału ufności estymacji dla populacji odchylenia standardowego od A rozkład normalny z odchylenia standardowego próbki. Wiele innych testów statystycznych również korzysta z tego rozkładu, na przykład analiza wariancji według rang Friedmana .

Definicje

Jeżeli Z 1 , ..., Z kniezależnymi , standardowymi, normalnymi zmiennymi losowymi, to suma ich kwadratów,

rozkłada się zgodnie z rozkładem chi-kwadrat z k stopniami swobody. Jest to zwykle oznaczane jako

Rozkład chi-kwadrat ma jeden parametr: dodatnią liczbę całkowitą k określającą liczbę stopni swobody (liczbę sumowanych zmiennych losowych, Z i s).

Wstęp

Rozkład chi-kwadrat jest używany głównie do testowania hipotez oraz w mniejszym stopniu do przedziałów ufności dla wariancji populacji, gdy rozkład bazowy jest normalny. W przeciwieństwie do szerzej znanych rozkładów, takich jak rozkład normalny i rozkład wykładniczy , rozkład chi-kwadrat nie jest tak często stosowany w bezpośrednim modelowaniu zjawisk naturalnych. Wynika to m.in. z następujących testów hipotez:

Jest to również element definicji rozkładu t i F rozkładu stosowanych w t-testów, analizy wariancji i analizy regresji.

Głównym powodem, dla którego rozkład chi-kwadrat jest szeroko stosowany w testowaniu hipotez, jest jego związek z rozkładem normalnym. Wiele testów hipotez wykorzystuje statystykę testową, taką jak statystyka t w teście t. W przypadku tych testów hipotez, wraz ze wzrostem wielkości próby, n, rozkład próbkowania statystyki testowej zbliża się do rozkładu normalnego ( centralne twierdzenie graniczne ). Ponieważ statystyka testowa (taka jak t) ma asymptotyczny rozkład normalny, pod warunkiem, że wielkość próbki jest wystarczająco duża, rozkład używany do testowania hipotez można aproksymować rozkładem normalnym. Testowanie hipotez przy użyciu rozkładu normalnego jest dobrze zrozumiałe i stosunkowo łatwe. Najprostszym rozkładem chi-kwadrat jest kwadrat standardowego rozkładu normalnego. Tak więc wszędzie tam, gdzie do testu hipotezy można użyć rozkładu normalnego, można zastosować rozkład chi-kwadrat.

Załóżmy, że jest to zmienna losowa pobrana ze standardowego rozkładu normalnego, gdzie średnia i wariancja to : . Rozważmy teraz zmienną losową . Rozkład zmiennej losowej jest przykładem rozkładu chi-kwadrat: Indeks dolny 1 wskazuje, że ten konkretny rozkład chi-kwadrat składa się tylko z 1 standardowego rozkładu normalnego. Mówi się, że rozkład chi-kwadrat skonstruowany przez podniesienie do kwadratu pojedynczego standardowego rozkładu normalnego ma 1 stopień swobody. Zatem wraz ze wzrostem wielkości próby dla testu hipotezy rozkład statystyki testowej zbliża się do rozkładu normalnego. Tak jak ekstremalne wartości rozkładu normalnego mają małe prawdopodobieństwo (i dają małe wartości p), tak ekstremalne wartości rozkładu chi-kwadrat mają małe prawdopodobieństwo.

Dodatkowym powodem, dla którego rozkład chi-kwadrat jest szeroko stosowany, jest to, że pojawia się on jako rozkład dużej próby w testach uogólnionego ilorazu wiarygodności (LRT). LRT mają kilka pożądanych właściwości; w szczególności proste LRT zwykle zapewniają największą moc odrzucenia hipotezy zerowej ( lemat Neymana-Pearsona ), co prowadzi również do właściwości optymalności uogólnionych LRT. Jednak przybliżenia normalne i chi-kwadrat są ważne tylko asymptotycznie. Z tego powodu lepiej jest używać rozkładu t zamiast normalnego przybliżenia lub przybliżenia chi-kwadrat dla małej wielkości próbki. Podobnie w analizach tabel kontyngencji przybliżenie chi-kwadrat będzie słabe dla małej wielkości próbki i preferowane jest użycie dokładnego testu Fishera . Ramsey pokazuje, że dokładny test dwumianowy jest zawsze silniejszy niż normalne przybliżenie.

Lancaster pokazuje związki między rozkładami dwumianowym, normalnym i chi-kwadrat w następujący sposób. De Moivre i Laplace ustalili, że rozkład dwumianowy można aproksymować rozkładem normalnym. W szczególności wykazali asymptotyczną normalność zmiennej losowej

gdzie jest obserwowana liczba sukcesów w próbach, gdzie prawdopodobieństwo sukcesu wynosi , i .

Podniesienie do kwadratu obu stron równania daje

Używając , , i , równanie to można przepisać jako

Wyrażenie po prawej stronie ma formę, którą Karl Pearson uogólniłby na formę

gdzie

= skumulowana statystyka testowa Pearsona, która asymptotycznie zbliża się do rozkładu.
= liczba obserwacji typu .
= oczekiwana (teoretyczna) częstość typu , potwierdzona przez hipotezę zerową, że ułamek typu w populacji jest
= liczba komórek w tabeli.

W przypadku wyniku dwumianowego (rzucanie monetą) rozkład dwumianowy można przybliżyć rozkładem normalnym (dla wystarczająco dużego ). Ponieważ kwadrat standardowego rozkładu normalnego jest rozkładem chi-kwadrat z jednym stopniem swobody, prawdopodobieństwo wyniku takiego jak 1 głowa w 10 próbach może być przybliżone przy użyciu rozkładu normalnego lub rozkładu chi-kwadrat dla znormalizowana, podniesiona do kwadratu różnica między wartością obserwowaną a oczekiwaną. Jednak wiele problemów dotyczy więcej niż dwóch możliwych wyników dwumianu, a zamiast tego wymaga 3 lub więcej kategorii, co prowadzi do rozkładu wielomianowego. Tak jak de Moivre i Laplace szukali i znajdowali normalne przybliżenie do dwumianu, Pearson szukali i znaleźli zdegenerowane wielowymiarowe normalne przybliżenie do rozkładu wielomianowego (liczby w każdej kategorii sumują się do całkowitej wielkości próby, która jest uważana za stałą) . Pearson wykazał, że rozkład chi-kwadrat powstał z takiego wielowymiarowego przybliżenia normalnego do rozkładu wielomianowego, przy uważnym uwzględnieniu zależności statystycznych (korelacji ujemnych) między liczbą obserwacji w różnych kategoriach.

Funkcja gęstości prawdopodobieństwa

Funkcja gęstości prawdopodobieństwa (pdf) rozkładu chi-kwadrat wynosi

gdzie oznacza funkcję gamma , która ma wartości w postaci zamkniętej dla liczby całkowitej .

Aby zapoznać się z wyprowadzeniami pdf w przypadku jednego, dwóch i stopni swobody, zobacz Dowody związane z rozkładem chi-kwadrat .

Dystrybuanta

Wiązanie Chernoffa dla CDF i ogona (1-CDF) zmiennej losowej chi-kwadrat o dziesięciu stopniach swobody ( = 10)

Jego skumulowana funkcja dystrybucji to:

gdzie jest dolną niepełną funkcją gamma i jest regularyzowaną funkcją gamma .

W szczególnym przypadku = 2 funkcja ta ma prostą postać:

które można łatwo wyprowadzić poprzez bezpośrednią integrację . Całkowita rekurencja funkcji gamma ułatwia obliczenie dla innych małych, parzystych .

Tabele funkcji rozkładu skumulowanego chi-kwadrat są powszechnie dostępne, a funkcja jest zawarta w wielu arkuszach kalkulacyjnych i wszystkich pakietach statystycznych .

Letting , można uzyskać granice Chernoffa na dolnym i górnym ogonie CDF. W przypadkach, w których (obejmujących wszystkie przypadki, w których ten współczynnik CDF jest mniejszy niż połowa):

Ogon związany w przypadkach, gdy , podobnie, jest

Aby uzyskać inne przybliżenie dla CDF modelowanego na podstawie sześcianu Gaussa, zobacz Niecentralny rozkład chi-kwadrat .

Nieruchomości

Suma kwadratów niezależnych zmiennych losowych normalnych o identycznym rozkładzie minus ich średnia

Jeśli Z 1 , ..., Z kniezależnymi, o identycznym rozkładzie (iid), standardowymi, normalnymi zmiennymi losowymi, to

gdzie

Addytywność

Z definicji rozkładu chi-kwadrat wynika, że ​​suma niezależnych zmiennych chi-kwadrat również ma rozkład chi-kwadrat. W szczególności, jeśli są niezależnymi zmiennymi chi-kwadrat z odpowiednio , stopniami swobody, to ma rozkład chi-kwadrat z stopniami swobody.

Średnia próbki

Średnia próbki iid chi-kwadrat zmiennych stopnia jest rozłożona zgodnie z rozkładem gamma z parametrami kształtu i skali :

Asymptotycznie , zakładając , że dla parametru skali zmierzającego do nieskończoności rozkład Gamma zbiega się w kierunku rozkładu normalnego z oczekiwaniem i wariancją , średnia próbki zbiega się w kierunku:

Zauważ, że otrzymalibyśmy ten sam wynik, powołując się zamiast tego na centralne twierdzenie graniczne , zauważając, że dla każdej zmiennej chi-kwadrat stopnia oczekiwanie wynosi , a jej wariancja (a więc wariancja średniej próbki wynosi ).

Entropia

Różnica entropia jest przez

gdzie ψ ( x ) jest funkcją Digammy .

Rozkład chi-kwadrat jest maksymalnym rozkładem prawdopodobieństwa entropii dla zmiennej losowej, dla której i są ustalone. Ponieważ chi-kwadrat należy do rodziny rozkładów gamma, można to wyprowadzić przez podstawienie odpowiednich wartości w Oczekiwaniu logarytmicznego momentu gamma . Aby uzyskać wyprowadzenie z bardziej podstawowych zasad, zobacz wyprowadzenie w funkcji generującej momenty wystarczającej statystyki .

Momenty niecentralne

Momenty około zera rozkładu chi-kwadrat ze stopniami swobody dane są wzorem

Kumulanty

W kumulanty można łatwo otrzymać przez (formal) rozszerzalności szereg potęgowy logarytmu funkcji charakterystycznej:

Stężenie

Rozkład chi-kwadrat wykazuje silną koncentrację wokół średniej. Standardowe granice Laurenta-Massarta to:

Właściwości asymptotyczne

Przybliżony wzór na medianę (z transformacji Wilsona-Hilferty'ego) w porównaniu z kwantylem liczbowym (u góry); oraz różnica (kolor niebieski) i różnica względna (kolor czerwony) między kwantylem liczbowym a przybliżonym wzorem (na dole). W przypadku rozkładu chi-kwadrat znaczenie mają tylko dodatnie liczby całkowite stopni swobody (okręgi).

Zgodnie z centralnym twierdzeniem granicznym , ponieważ rozkład chi-kwadrat jest sumą niezależnych zmiennych losowych o skończonej średniej i wariancji, jest on zbieżny do rozkładu normalnego dla dużych . Z wielu praktycznych celów rozkład jest wystarczająco bliski rozkładowi normalnemu, aby różnica została zignorowana. W szczególności, jeśli , to jak dąży do nieskończoności, rozkład ma tendencję do standardowego rozkładu normalnego. Jednak zbieżność jest powolna, ponieważ skośność jest, a nadmiar kurtozy wynosi .

Rozkład próbkowania zbiega się do normalności znacznie szybciej niż rozkład próbkowania , ponieważ logarytm usuwa znaczną część asymetrii. Inne funkcje rozkładu chi-kwadrat zbiegają się szybciej do rozkładu normalnego. Oto kilka przykładów:

  • Jeśli to ma w przybliżeniu rozkład normalny ze średnią i jednostkową wariancją (1922, RA Fisher , patrz (18.23), s. 426 Johnsona.
  • Jeśli to ma w przybliżeniu rozkład normalny ze średnią i wariancją Jest to znane jako transformacja Wilsona-Hilferty'ego, patrz (18.24), s. 426 Johnsona.
    • Ta normalizująca transformacja prowadzi bezpośrednio do powszechnie stosowanej aproksymacji mediany poprzez przekształcenie wsteczne od średniej, która jest również medianą rozkładu normalnego.

Powiązane dystrybucje

  • Jak , ( rozkład normalny )
  • ( niecentralny rozkład chi-kwadrat z parametrem niecentralności )
  • Jeśli to ma rozkład chi-kwadrat
  • W szczególnym przypadku, jeśli to ma rozkład chi-kwadrat
  • (Kwadrat normą o k standardowym rozkładzie normalnym zmiennych ma rozkład chi-kwadrat z k stopni swobody )
  • Jeśli i , to . ( rozkład gamma )
  • Jeśli to ( rozkład chi )
  • Jeśli , to jest rozkładem wykładniczym . (Zobacz rozkład gamma, aby uzyskać więcej.)
  • Jeśli , to jest dystrybucją Erlanga .
  • Jeśli , to
  • Jeżeli ( rozkład Rayleigha ) to
  • Jeśli ( rozkład Maxwella ) to
  • Jeśli to ( Rozkład odwrotny chi-kwadrat )
  • Rozkład chi-kwadrat jest szczególnym przypadkiem rozkładu Pearsona typu III
  • Jeśli i są niezależne to ( dystrybucja beta )
  • Jeśli ( rozkład równomierny ) to
  • Jeśli wtedy
  • Jeśli jest zgodny z uogólnionym rozkładem normalnym (wersja 1) z parametrami, to
  • rozkład chi-kwadrat to transformacja rozkładu Pareto
  • Rozkład t-Studenta jest przekształceniem rozkładu chi-kwadrat
  • Rozkład t-Studenta można uzyskać z rozkładu chi-kwadrat i rozkładu normalnego
  • Niecentralny rozkład beta można uzyskać jako przekształcenie rozkładu chi-kwadrat i Niecentralnego rozkładu chi-kwadrat
  • Niecentralny rozkład t można uzyskać z rozkładu normalnego i rozkładu chi-kwadrat

Zmienną chi-kwadrat o stopniach swobody definiuje się jako sumę kwadratów niezależnych standardowych normalnych zmiennych losowych.

Jeśli jest dwuwymiarowym wektorem losowym Gaussa ze średnim wektorem i macierzą kowariancji rang , to ma rozkład chi-kwadrat ze stopniami swobody.

Suma kwadratów statystycznie niezależnych zmiennych gaussowskich wariancji jednostkowej, które nie mają średniej zerowej, daje uogólnienie rozkładu chi-kwadrat zwanego niecentralnym rozkładem chi-kwadrat .

Jeśli jest wektorem IID standardowych normalnej zmiennej losowej i jest symetryczny , idempotent matrycy z szeregu , wówczas forma kwadratowa jest chi-kwadrat rozprowadzane stopni swobody.

Jeśli jest dodatnio-półokreśloną macierzą kowariancji ze ściśle dodatnimi wejściami diagonalnymi, to dla i losowy wektor niezależny od takiego, który i posiada, że

Rozkład chi-kwadrat jest również naturalnie powiązany z innymi rozkładami wynikającymi z gaussowskiego. W szczególności,

  • jest rozkładem F , jeśli , gdzie i są statystycznie niezależne.
  • Jeśli i są statystycznie niezależne, to . Jeśli i nie są niezależne, to nie ma rozkładu chi-kwadrat.

Uogólnienia

Rozkład chi-kwadrat otrzymuje się jako sumę kwadratów k niezależnych, o średniej zerowej, jednostkowej wariancji gaussowskich zmiennych losowych. Uogólnienia tego rozkładu można uzyskać, sumując kwadraty innych typów zmiennych losowych Gaussa. Kilka takich dystrybucji zostało opisanych poniżej.

Kombinacja liniowa

Jeśli są zmiennymi losowymi chi kwadrat i , to nie jest znane wyrażenie zamknięte dla rozkładu . Można go jednak skutecznie aproksymować, korzystając z własności funkcji charakterystycznych zmiennych losowych chi-kwadrat.

Rozkłady chi-kwadrat

Niecentralny rozkład chi-kwadrat

Niecentralny rozkład chi-kwadrat uzyskuje się z sumy kwadratów niezależnych zmiennych losowych Gaussa o jednostkowej wariancji i niezerowych średnich.

Uogólniony rozkład chi-kwadrat

Uogólniony rozkład chi-kwadrat otrzymuje się z postaci kwadratowej z′Az, gdzie z jest wektorem Gaussa o średniej zerowej, mającym dowolną macierz kowariancji, a A jest dowolną macierzą.

Rozkłady gamma, wykładnicze i pokrewne

Rozkład chi-kwadrat jest szczególnym przypadkiem rozkładu gamma , w którym używa się parametryzacji szybkości rozkładu gamma (lub używając parametryzacji skali rozkładu gamma), gdzie k jest liczbą całkowitą.

Ponieważ rozkład wykładniczy jest również szczególnym przypadkiem rozkładu gamma, mamy również, że jeśli , to jest rozkładem wykładniczym .

Rozkład Erlang jest szczególnym przypadkiem rozkładu gamma, a zatem mają również, że jeśli jeszcze , a następnie jest rozprowadzane Erlang parametru kształtu oraz parametr skalę .

Występowanie i zastosowania

Rozkład chi-kwadrat ma wiele zastosowań w statystyce wnioskowania , na przykład w testach chi-kwadrat i szacowaniu wariancji . Wchodzi w problem szacowania średniej populacji o rozkładzie normalnym oraz problem szacowania nachylenia linii regresji poprzez jej rolę w rozkładzie t-Studenta . Wprowadza wszystkie analizy problemów wariancji poprzez swoją rolę w rozkładzie F , który jest rozkładem stosunku dwóch niezależnych zmiennych losowych chi-kwadrat , z których każda podzielona jest przez ich odpowiednie stopnie swobody.

Poniżej przedstawiono niektóre z najczęstszych sytuacji, w których rozkład chi-kwadrat wynika z próbki o rozkładzie Gaussa.

  • if są iid zmiennymi losowymi , to gdzie .
  • Poniższa ramka pokazuje niektóre statystyki oparte na niezależnych zmiennych losowych, które mają rozkłady prawdopodobieństwa związane z rozkładem chi-kwadrat:
Nazwa Statystyczny
rozkład chi-kwadrat
niecentralny rozkład chi-kwadrat
dystrybucja chi
niecentralna dystrybucja chi

Rozkład chi-kwadrat jest również często spotykany w obrazowaniu metodą rezonansu magnetycznego .

Metody obliczeniowe

Spis × 2 wartości vs p -values

P wartość X jest prawdopodobieństwo przestrzegania statystykę testową przynajmniej jako skrajności rozkładem chi-kwadrat. W związku z tym, ponieważ funkcja skumulowanego rozkładu (CDF) dla odpowiednich stopni swobody (df) daje prawdopodobieństwo uzyskania wartości mniej ekstremalnej niż ten punkt, odjęcie wartości CDF od 1 daje wartość p . Niska wartość p , poniżej wybranego poziomu istotności, wskazuje na istotność statystyczną , tj. wystarczający dowód do odrzucenia hipotezy zerowej. Jako punkt odcięcia między wynikami istotnymi i nieistotnymi często stosuje się poziom istotności 0,05.

Poniższa tabela podaje liczbę wartości p dopasowanych do pierwszych 10 stopni swobody.

Stopnie swobody (df) wartość
1 0,004 0,02 0,06 0,15 0,46 1.07 1.64 2,71 3,84 6,63 10.83
2 0,10 0,21 0,45 0,71 1,39 2,41 3,22 4,61 5,99 9.21 13.82
3 0,35 0,58 1,01 1,42 2,37 3,66 4,64 6.25 7,81 11.34 16.27
4 0,71 1,06 1,65 2.20 3.36 4,88 5,99 7,78 9.49 13.28 18.47
5 1.14 1,61 2,34 3.00 4,35 6.06 7.29 9.24 11.07 15.09 20,52
6 1,63 2.20 3,07 3,83 5.35 7.23 8.56 10,64 12.59 16.81 22.46
7 2.17 2.83 3.82 4,67 6,35 8.38 9.80 12.02 14.07 18.48 24,32
8 2.73 3,49 4,59 5,53 7.34 9.52 11.03 13.36 15,51 20.09 26.12
9 3,32 4.17 5.38 6,39 8.34 10,66 12.24 14.68 16.92 21,67 27.88
10 3,94 4,87 6.18 7.27 9.34 11,78 13.44 15,99 18.31 23.21 29.59
wartość p (prawdopodobieństwo) 0,95 0,90 0,80 0,70 0,50 0,30 0,20 0,10 0,05 0,01 0,001

Wartości te można obliczyć oceniając funkcję kwantylową (znaną również jako „odwrotny CDF” lub „ICDF”) rozkładu chi-kwadrat; np χ 2 ICDF dla p = 0,05 i df = 7 plonów 2,1673 ≈ 2,17 , jak w powyższej tabeli, zauważając, że 1 - p oznacza p -wartość od stołu.

Historia

Rozkład ten został po raz pierwszy opisany przez niemieckiego statystyka Friedricha Roberta Helmerta w pracach z lat 1875-186, gdzie obliczył rozkład próbkowania wariancji próby populacji normalnej. Tak więc w języku niemieckim było to tradycyjnie znane jako Helmert'sche ("Helmertian") lub "Dystrybucja Helmerta".

Rozkład został niezależnie odkryty przez angielskiego matematyka Karla Pearsona w kontekście dobroci dopasowania , dla którego opracował test chi-kwadrat Pearsona , opublikowany w 1900 roku, z obliczoną tabelą wartości opublikowaną w ( Elderton 1902 ), zebraną w ( Pearson 1914 , s. xxxi-xxxiii, 26-28, Tabela XII) . Nazwa „chi-kwadrat” ostatecznie wywodzi się ze skrótu Pearsona dla wykładnika w wielowymiarowym rozkładzie normalnym z grecką literą Chi , pisząc −½χ 2 dla tego, co we współczesnym zapisie pojawia się jako −½ x T Σ −1 x (Σ jest macierz kowariancji ). Pomysł rodziny „rozkładów chi-kwadrat” nie jest jednak spowodowany przez Pearsona, ale powstał jako dalszy rozwój dzięki Fisherowi w latach dwudziestych.

Zobacz też

Bibliografia

Dalsza lektura

Zewnętrzne linki