Dokładny test - Exact test

W statystykach , dokładny (istotność) Test jest testem gdzie jeśli hipoteza zerowa jest prawdziwa, to wszystkie założenia , na których wyprowadzenie rozkładu statystyki testowej jest oparty, zostały spełnione. Użycie dokładnego testu zapewnia test istotności, który utrzymuje wskaźnik błędu Typu I testu ( ) na żądanym poziomie istotności testu. Na przykład dokładny test na poziomie istotności dnia , kiedy powtórzenia badania nad wieloma próbkami gdzie hipotezy zerowe są prawdziwe, odrzuci najwyżej czasu. Jest to przeciwieństwo testu przybliżonego, w którym pożądany poziom błędu I typu jest zachowany tylko w przybliżeniu (tj. test może odrzucić więcej niż 5% czasu), podczas gdy przybliżenie to może być wykonane tak blisko, jak jest to pożądane, wykonując próbkę rozmiar wystarczająco duży.

Dokładne testy oparte na dyskretnej statystyce testowej mogą być testami konserwatywnymi, tzn. ich rzeczywisty współczynnik odrzuceń jest poniżej nominalnego poziomu istotności . Na przykład dotyczy to dokładnego testu Fishera, a także jego mocniejszej alternatywy, testu Boschloo . Jeśli statystyka testowa jest ciągła, osiągnie dokładnie poziom istotności.

Testy parametryczne , takie jak te opisane w statystykach dokładnych , są testami dokładnymi, gdy założenia parametryczne są w pełni spełnione, ale w praktyce użycie terminu test dokładny (istotności) jest zarezerwowane dla tych testów, które nie opierają się na założeniach parametrycznych – nie- testy parametryczne. Jednak w praktyce większość implementacji oprogramowania do testów nieparametrycznych wykorzystuje algorytmy asymptotyczne do uzyskiwania wartości istotności, co sprawia, że ​​implementacja testu nie jest dokładna.

Tak więc, gdy wynik analizy statystycznej mówi się, że jest „dokładnym testem” lub „dokładną wartością p ”, oznacza to, że test jest definiowany bez założeń parametrycznych i oceniany bez użycia przybliżonych algorytmów. W zasadzie może to jednak również oznaczać, że test parametryczny został zastosowany w sytuacji, w której wszystkie założenia parametryczne są w pełni spełnione, ale w większości przypadków niemożliwe jest całkowite udowodnienie tego w rzeczywistej sytuacji. Wyjątki, gdy istnieje pewność, że testy parametryczne są dokładne, obejmują testy oparte na rozkładach dwumianowych lub Poissona. Czasami test permutacji jest używany jako synonim testu dokładnego, ale chociaż wszystkie testy permutacyjne są testami dokładnymi, nie wszystkie testy dokładne są testami permutacyjnymi.

Sformułowanie

Podstawowym równaniem leżącym u podstaw dokładnych testów jest:

gdzie:

  • x to faktycznie zaobserwowany wynik,
  • Pr( y ) jest prawdopodobieństwem przy hipotezie zerowej potencjalnie obserwowanego wyniku y ,
  • T ( y ) to wartość statystyki testowej dla wyniku y , przy czym większe wartości T reprezentują przypadki, które teoretycznie reprezentują większe odstępstwa od hipotezy zerowej,

oraz gdzie suma mieści się w zakresie wszystkich wyników y (w tym obserwowanego), które mają taką samą wartość statystyki testowej uzyskanej dla obserwowanej próbki x lub większą.

Przykład: test chi-kwadrat Pearsona kontra test dokładny

Prosty przykład okazji do tej koncepcji można zobaczyć, obserwując, że test chi-kwadrat Pearsona jest testem przybliżonym. Załóżmy, że test chi-kwadrat Pearsona jest używany do ustalenia, czy kostka sześciościenna jest „uczciwa”, tj. daje każdy z sześciu wyników równie często. Jeśli kostka zostanie rzucona n razy, to „oczekuje się”, że każdy wynik zostanie rzucony n /6 razy. Statystyka testu to

gdzie X k to liczba obserwowanych wyników k . Jeśli hipoteza zerowa o „słuszności” jest prawdziwa, wówczas rozkład prawdopodobieństwa statystyki testowej może być tak bliski rozkładowi chi-kwadrat z 5 stopniami swobody, jeśli wielkość próbki n jest wystarczająco duża. Ale jeśli n jest małe, to prawdopodobieństwa oparte na rozkładach chi-kwadrat mogą nie być bardzo bliskimi przybliżeniami. Znalezienie dokładnego prawdopodobieństwa, że ​​ta statystyka testowa przekroczy określoną wartość, wymaga następnie kombinatorycznego wyliczenia wszystkich wyników eksperymentu, które dają tak dużą wartość statystyki testowej. Co więcej, staje się wątpliwe, czy należy stosować te same statystyki testowe. Testu ilorazu wiarygodności może być korzystne, ponieważ jest bardziej wydajne i statystyka testowa może być funkcją monotonii tej powyżej.

Przykład: dokładny test Fishera

Dokładny test Fishera , oparty na pracy Ronalda Fishera i EJG Pitmana w latach 30. XX wieku, jest dokładny, ponieważ rozkład próbkowania (warunkowy na marginesach) jest dokładnie znany. Porównaj test chi-kwadrat Pearsona , który (chociaż testuje tę samą wartość null) nie jest dokładny, ponieważ rozkład statystyki testowej jest poprawny tylko asymptotycznie.

Zobacz też

Bibliografia

  • Ronald Fisher (1954) Metody statystyczne dla pracowników naukowych . Olivera i Boyda.
  • Mehta, CR ; Patel, NR (1998). „Dokładne wnioskowanie dla danych kategorycznych”. W P. Armitage i T. Colton, eds., Encyclopedia of Biostatistics , Chichester: John Wiley, s. 1411-1422. niepublikowany preprint
  • Corcoran, CD; Senchaudhuri, P.; Mehta, CR; Patel, NR (2005). „Dokładne wnioskowanie dla danych kategorycznych”. Encyklopedia Biostatystyki . doi : 10.1002/0470011815.b2a10019 . Numer ISBN 047084907X.