p -wartość - p-value

W zerowej testowanie hipotez istotności The P wartość X jest prawdopodobieństwo uzyskania wyników testu przynajmniej skrajnym jak wyniki obserwowane w rzeczywistości , zgodnie z założeniem, że hipoteza zerowa jest poprawne. Bardzo mała wartość p oznacza, że ​​taki skrajny obserwowany wynik byłby bardzo mało prawdopodobny w przypadku hipotezy zerowej. Raportowanie wartości p testów statystycznych jest powszechną praktyką w publikacjach akademickich z wielu dziedzin ilościowych. Ponieważ dokładne znaczenie wartości p jest trudne do uchwycenia, niewłaściwe użycie jest szeroko rozpowszechnione i jest głównym tematem metanauki .

Podstawowe koncepcje

W statystyce każda hipoteza dotycząca nieznanego rozkładu prawdopodobieństwa zbioru zmiennych losowych reprezentujących dane obserwowane w jakimś badaniu nazywana jest hipotezą statystyczną . Jeśli postawimy tylko jedną hipotezę, a celem testu statystycznego jest sprawdzenie, czy ta hipoteza jest możliwa do obrony, ale nie zbadanie innych szczegółowych hipotez, wówczas taki test nazywa się testem hipotezy zerowej .

Ponieważ nasza hipoteza statystyczna z definicji określa pewną właściwość rozkładu, hipoteza zerowa jest hipotezą domyślną, zgodnie z którą ta właściwość nie istnieje. Hipotezą zerową jest zazwyczaj to, że jakiś parametr (taki jak korelacja lub różnica między średnimi) w populacjach będących przedmiotem zainteresowania wynosi zero. Zauważ, że nasza hipoteza może precyzyjnie określać rozkład prawdopodobieństwa lub może tylko określać, że należy do jakiejś klasy rozkładów. Często redukujemy dane do pojedynczej statystyki liczbowej, np. , której marginalny rozkład prawdopodobieństwa jest ściśle powiązany z głównym zagadnieniem będącym przedmiotem zainteresowania badania.

Wartość p jest używana w kontekście testowania hipotezy zerowej w celu ilościowego określenia statystycznej istotności wyniku, przy czym wynikiem jest obserwowana wartość wybranej statystyki . Im niższa wartość p , tym mniejsze prawdopodobieństwo uzyskania tego wyniku, jeśli hipoteza zerowa byłaby prawdziwa. Mówi się, że wynik jest istotny statystycznie, jeśli pozwala odrzucić hipotezę zerową. Wszystkie inne czynniki są równe, mniejsze wartości p są traktowane jako silniejszy dowód przeciwko hipotezie zerowej

Mówiąc ogólnie, odrzucenie hipotezy zerowej oznacza, że ​​istnieją wystarczające dowody przeciwko niej.

Jako szczególny przykład, jeśli hipoteza zerowa stwierdza, że ​​pewna statystyka podsumowująca jest zgodna ze standardowym rozkładem normalnym N(0,1), to odrzucenie tej hipotezy zerowej może oznaczać, że (i) średnia nie wynosi 0, lub (ii ) wariancji z nie ma wartość 1, lub (iii) nie są zwykle rozdzielone. Różne testy tej samej hipotezy zerowej byłyby mniej lub bardziej wrażliwe na różne alternatywy. Jednak nawet jeśli uda nam się odrzucić hipotezę zerową dla wszystkich 3 alternatyw i nawet jeśli wiemy, że rozkład jest normalny, a wariancja wynosi 1, test hipotezy zerowej nie mówi nam, które niezerowe wartości średniej są obecnie najbardziej wiarygodny. Im więcej niezależnych obserwacji z tego samego rozkładu prawdopodobieństwa mamy, tym dokładniejszy będzie test i tym większa precyzja, z jaką będziemy w stanie wyznaczyć wartość średnią i wykazać, że nie jest ona równa zeru; ale zwiększy to również znaczenie oceny rzeczywistego lub naukowego znaczenia tego odchylenia.

Definicja i interpretacja

Ogólny

Wartość p w testach istotności statystycznej.svg

Rozważ zaobserwowaną statystykę testową z nieznanego rozkładu . Wtedy wartość p jest tym, czym byłoby wcześniejsze prawdopodobieństwo zaobserwowania wartości statystyki testowej co najmniej tak „ekstremalnej”, jak gdyby hipoteza zerowa była prawdziwa. To jest:

  • do jednostronnego testu prawego ogona,
  • do jednostronnego testu lewego ogona,
  • do testu dwustronnego. Jeśli rozkład jest symetryczny względem zera, to

Jeśli wartość p jest bardzo mała, to albo hipoteza zerowa jest fałszywa, albo wydarzyło się coś mało prawdopodobnego. W formalnym teście istotności hipoteza zerowa jest odrzucana, jeśli wartość p jest mniejsza niż wstępnie zdefiniowana wartość progowa , którą określa się jako poziom alfa lub poziom istotności . Wartość of jest zamiast tego ustalana przez badacza przed badaniem danych. określa proporcję rozkładu, o którym mówi się, że definiuje tak wąski zakres wszystkich możliwych wyników, że jeśli wartość mieści się w tym zakresie, jest mało prawdopodobne, aby wartość była przypadkowa. Intuicyjnie oznacza to, że jeśli jest ustawiony na 0,10, tylko 1/10 rozkładu jest definiowana przez , więc jeśli mieści się w tym zakresie, występuje już w wielu wynikach, które zdarzają się rzadko w 1/10 przypadków, sugerując tym samym, że jest to mało prawdopodobne losowo. Zgodnie z konwencją, zwykle jest ustawiony na 0,05, chociaż czasami stosuje się niższe poziomy alfa. Należy jednak pamiętać o wielu czynnikach – takich jak wariancja, błędy pomiaru, błędy specyfikacji, problemy z wielokrotnymi porównaniami itp. – może oznaczać, że samo wpisanie się w określony przez to zakres nie oznacza automatycznie zaskakującej wartości z jest faktycznie istotne statystycznie.

Wartość p jest funkcją wybranej statystyki testowej, a zatem jest zmienną losową . Jeśli hipoteza zerowa dokładnie ustala rozkład prawdopodobieństwa i jeśli ten rozkład jest ciągły, to gdy hipoteza zerowa jest prawdziwa, wartość p jest równomiernie rozłożona między 0 a 1. Zatem wartość p nie jest stała. Jeśli ten sam test zostanie powtórzony niezależnie ze świeżymi danymi (zawsze z tym samym rozkładem prawdopodobieństwa), uzyska się inną wartość p w każdej iteracji. Jeśli hipoteza zerowa jest złożona lub rozkład statystyki jest dyskretny, prawdopodobieństwo uzyskania wartości p mniejszej lub równej dowolnej liczbie z zakresu od 0 do 1 jest mniejsze lub równe tej liczbie, jeśli hipoteza zerowa jest prawdziwy. Pozostaje przypadek, że bardzo małe wartości są stosunkowo mało prawdopodobne, jeśli hipoteza zerowa jest prawdziwa, i że test istotności na poziomie uzyskuje się przez odrzucenie hipotezy zerowej, jeśli poziom istotności jest mniejszy lub równy .

Różne wartości p oparte na niezależnych zestawach danych można łączyć, na przykład za pomocą połączonego testu prawdopodobieństwa Fishera .

Dystrybucja

Gdy hipoteza zerowa jest prawdziwa i przyjmuje postać , a bazowa zmienna losowa jest ciągła, to rozkład prawdopodobieństwa wartości p jest jednorodny w przedziale [0,1]. Natomiast jeśli hipoteza alternatywna jest prawdziwa, rozkład zależy od wielkości próby i prawdziwej wartości badanego parametru.

Rozkład wartości p dla grupy badań jest czasami nazywany krzywą p . P -curve może być stosowany do oceny niezawodności literaturze naukowej, na przykład przez wykrywanie nastawienie publikacji lub p -hacking .

Dla hipotezy złożonej

W problemach testowania hipotez parametrycznych hipoteza prosta lub punktowa odnosi się do hipotezy, w której zakłada się, że wartość parametru jest pojedynczą liczbą. Natomiast w hipotezie złożonej wartość parametru jest podawana przez zbiór liczb. Na przykład podczas testowania hipotezy zerowej, że rozkład jest normalny ze średnią mniejszą lub równą zero w porównaniu z alternatywą, że średnia jest większa od zera (znana wariancja), hipoteza zerowa nie określa rozkładu prawdopodobieństwa odpowiedniego testu Statystyczny. We wspomnianym przed chwilą przykładzie byłaby to statystyka Z należąca do jednostronnego jednostronnego testu Z. Dla każdej możliwej wartości średniej teoretycznej statystyka testu Z ma inny rozkład prawdopodobieństwa. W tych okolicznościach (przypadek tak zwanej złożonej hipotezy zerowej) wartość p definiuje się, biorąc najmniej korzystny przypadek hipotezy zerowej, który zazwyczaj znajduje się na granicy między zerową a alternatywną.

Ta definicja zapewnia komplementarność wartości p i poziomów alfa. Jeśli ustawimy poziom istotności alfa na 0,05 i odrzucimy hipotezę zerową tylko wtedy, gdy wartość p jest mniejsza lub równa 0,05, wówczas nasz test hipotezy rzeczywiście będzie miał poziom istotności (maksymalny poziom błędu typu 1) 0,05. Jak pisał Neyman: „Błąd, który praktykujący statystyk uznałby za ważniejszy (który jest subiektywną oceną) nazywany jest błędem pierwszego rodzaju. Pierwszym wymaganiem teorii matematycznej jest wyprowadzenie takich kryteriów testu, które zapewniłyby, że prawdopodobieństwo popełnienia błędu pierwszego rodzaju byłoby równe (lub w przybliżeniu równe lub nie przekraczające) zadanej liczby α, takiej jak α = 0,05 lub 0,01 itd. Liczba ta nazywana jest poziomem istotności”; Neyman 1976, s. 161 w „Powstaniu statystyki matematycznej: szkic historyczny ze szczególnym odniesieniem do Stanów Zjednoczonych”, „O historii statystyki i prawdopodobieństwa”, wyd. DB Owen, Nowy Jork: Marcel Dekker, s. 149-193. Zobacz także „Zamieszanie dotyczące środków dowodowych (p's) kontra błędy (a's) w klasycznych testach statystycznych”, Raymond Hubbard i MJ Bayarri, The American Statistician, sierpień 2003, tom. 57, nr 3, 171-182 (z dyskusją). Zwięzłe, nowoczesne stwierdzenie można znaleźć w rozdziale 10 książki „All of Statistics: A Concise Course in Statistical Inference”, Springer; 1. poprawione wyd. Wydanie 20 (17 września 2004). Larry'ego Wassermana.

Stosowanie

Wartość p jest szeroko stosowana w testowaniu hipotez statystycznych , w szczególności w testowaniu istotności hipotezy zerowej. W metodzie tej, w ramach projektowania eksperymentu , przed wykonaniem eksperymentu wybiera się najpierw model ( hipotezę zerową ) oraz wartość progową dla p , zwaną poziomem istotności testu, tradycyjnie 5% lub 1% i oznaczaną jako α . Jeżeli wartość p jest mniejsza niż wybrany poziom istotności ( α ), sugeruje to, że obserwowane dane są wystarczająco niespójne z hipotezą zerową i że hipoteza zerowa może zostać odrzucona. Nie dowodzi to jednak, że testowana hipoteza jest fałszywa. Gdy wartość p jest obliczona poprawnie, test ten gwarantuje, że poziom błędu typu I wynosi co najwyżej α . W przypadku typowej analizy, przy zastosowaniu standardowego  odcięcia α = 0,05, hipoteza zerowa jest odrzucana, gdy p ≤ 0,05 i nie jest odrzucana, gdy p > 0,05. Wartość p sama w sobie nie wspiera wnioskowania o prawdopodobieństwach hipotez, ale jest jedynie narzędziem do decydowania o odrzuceniu hipotezy zerowej.

Nadużywanie

Według ASA panuje powszechna zgoda, że wartości p są często niewłaściwie używane i błędnie interpretowane. Jedną z praktyk, która została szczególnie skrytykowana, jest przyjęcie alternatywnej hipotezy dla każdej wartości p nominalnie mniejszej niż 0,05 bez innych dowodów potwierdzających. Chociaż wartości p są pomocne w ocenie niezgodności danych z określonym modelem statystycznym, należy również wziąć pod uwagę czynniki kontekstowe, takie jak „projekt badania, jakość pomiarów, zewnętrzne dowody na badane zjawisko, oraz zasadność założeń leżących u podstaw analizy danych”. Innym problemem jest to, że wartość p jest często błędnie rozumiana jako prawdopodobieństwo, że hipoteza zerowa jest prawdziwa.

Niektórzy statystycy proponowali porzucenie wartości p i skupienie się bardziej na innych statystykach wnioskowanych, takich jak przedziały ufności , współczynniki prawdopodobieństwa lub współczynniki Bayesa , ale toczy się gorąca debata na temat wykonalności tych alternatyw. Inni sugerowali usunięcie stałych progów istotności i zinterpretowanie wartości p jako ciągłych wskaźników siły dowodu przeciwko hipotezie zerowej. Jeszcze inni sugerowali, aby podać obok wartości p wcześniejsze prawdopodobieństwo rzeczywistego efektu, które byłoby wymagane do uzyskania fałszywie pozytywnego ryzyka (tj. prawdopodobieństwa braku rzeczywistego efektu) poniżej wcześniej określonego progu (np. 5%).

Obliczenie

Zwykle jest to statystyka testowa . Statystyka testowa jest wynikiem funkcji skalarnej wszystkich obserwacji. Ta statystyka zawiera pojedynczą liczbę, taką jak statystyka t lub statystyka F. W związku z tym statystyka testowa jest zgodna z rozkładem określonym przez funkcję użytą do zdefiniowania tej statystyki testowej i rozkładem wejściowych danych obserwacyjnych.

Dla ważnego przypadku, w którym zakłada się, że dane są losową próbą z rozkładu normalnego, w zależności od charakteru statystyki testowej i interesujących hipotez dotyczących jej rozkładu, opracowano różne testy hipotezy zerowej. Niektóre takie testy to test z dla hipotez dotyczących średniej z rozkładu normalnego o znanej wariancji, test t oparty na rozkładzie t-Studenta odpowiedniej statystyki dla hipotez dotyczących średniej z rozkładu normalnego, gdy wariancja jest nieznana, F-test oparty na F-dystrybucji jeszcze innego statystyki dla hipotez dotyczących wariancji. Dla danych o innym charakterze, np. danych kategorycznych (dyskretnych), można konstruować statystyki testowe, których rozkład hipotezy zerowej opiera się na normalnych przybliżeniach do odpowiednich statystyk uzyskanych przez przywołanie centralnego twierdzenia granicznego dla dużych prób, jak w przypadku chi-Pearsona. test kwadratowy .

Zatem obliczenie wartości p wymaga hipotezy zerowej, statystyki testowej (wraz z decyzją, czy badacz wykonuje test jednostronny czy dwustronny ) oraz danych. Chociaż obliczenie statystyki testu na danych danych może być łatwe, obliczenie rozkładu próbkowania przy hipotezie zerowej, a następnie obliczenie jego funkcji rozkładu skumulowanego (CDF) jest często trudnym problemem. Obecnie obliczenia te są wykonywane za pomocą oprogramowania statystycznego, często za pomocą metod numerycznych (zamiast dokładnych wzorów), ale na początku i w połowie XX wieku dokonano tego za pomocą tabel wartości i jednej interpolowanej lub ekstrapolowanej wartości p z tych wartości dyskretne. Zamiast używać tabeli wartości p , Fisher odwrócił CDF, publikując listę wartości statystyki testowej dla danych stałych wartości p ; odpowiada to obliczeniu funkcji kwantylowej (odwrotność CDF).

Przykład

Jako przykład testu statystycznego przeprowadzany jest eksperyment w celu ustalenia, czy rzut monetą jest sprawiedliwy (równe szanse na wylądowanie orłem lub remkiem), czy też niesprawiedliwie stronniczy (jeden wynik jest bardziej prawdopodobny niż drugi).

Załóżmy, że wyniki eksperymentalne pokazują, że moneta wywraca orzeł 14 razy na 20 wszystkich rzutów. Pełne dane byłyby sekwencją dwudziestokrotności symbolu „H” lub „T”. Statystyka, na której można się skupić, może być całkowitą liczbą głów. Hipoteza zerowa jest taka, że ​​moneta jest uczciwa, a rzuty monetą są od siebie niezależne. Jeśli rozważany jest test prawostronny, co miałoby miejsce w przypadku, gdy interesuje nas możliwość, że moneta jest przesunięta w kierunku spadających orłów, to wartość p tego wyniku jest szansą na sprawiedliwe wylądowanie monety na orłach przy co najmniej 14 razy na 20 przewrotów. Prawdopodobieństwo to można obliczyć ze współczynników dwumianowych jako

Prawdopodobieństwo to jest wartością p , biorąc pod uwagę tylko skrajne wyniki, które faworyzują orły. Nazywa się to testem jednostronnym . Można jednak zainteresować się odchyleniami w obie strony, faworyzując orły lub ogony. Zamiast tego można obliczyć dwustronną wartość p , która uwzględnia odchylenia na korzyść orłów lub reszek. Ponieważ rozkład dwumianowy jest symetryczny dla uczciwej monety, dwustronna wartość p jest po prostu dwukrotnością obliczonej powyżej jednostronnej wartości p : dwustronna wartość p wynosi 0,115.

W powyższym przykładzie:

  • Hipoteza zerowa (H 0 ): Moneta jest uczciwa, z Prob(heads) = 0.5
  • Statystyka testu: Liczba głów
  • Poziom alfa (wyznaczony próg istotności): 0,05
  • Obserwacja O: 14 głów na 20 rzutów; oraz
  • Dwustronna wartość p obserwacji O przy danym H 0 = 2*min(Prb(liczba głów ≥ 14 głów), Prob(liczba głów ≤ 14 głów))= 2*min(0,058, 0,978) = 2 *0,058 = 0,115.

Zauważ, że próba (liczba głów ≤ 14 sztuk) = 1 - próba (liczba głów ≥ 14 sztuk) + próba (liczba głów = 14) = 1 - 0,058 + 0,036 = 0,978; jednak symetria rozkładu dwumianowego sprawia, że ​​znalezienie mniejszego z dwóch prawdopodobieństw jest niepotrzebne. Tutaj obliczona wartość p przekracza 0,05, co oznacza, że ​​dane mieszczą się w zakresie, który wydarzyłby się w 95% przypadków, gdyby moneta była w rzeczywistości uczciwa. Stąd hipoteza zerowa nie jest odrzucana na poziomie 0,05.

Gdyby jednak uzyskano jeszcze jedną głowę, otrzymana wartość p (dwustronna) wyniosłaby 0,0414 (4,14%), w którym to przypadku hipoteza zerowa zostałaby odrzucona na poziomie 0,05.

Historia

Obliczenia wartości p sięgają XVIII wieku, kiedy obliczono je dla stosunku płci u ludzi w chwili urodzenia i wykorzystano do obliczenia istotności statystycznej w porównaniu z hipotezą zerową o równym prawdopodobieństwie narodzin mężczyzn i kobiet. John Arbuthnot badał to zagadnienie w 1710 r. i badał londyńskie metryki urodzeń dla każdego z 82 lat od 1629 do 1710 r. Każdego roku liczba mężczyzn urodzonych w Londynie przewyższała liczbę kobiet. Biorąc pod uwagę więcej męskich lub żeńskich więcej urodzeń jak jednakowo prawdopodobne, prawdopodobieństwo obserwowanym wynikiem jest 1/2 82 , lub od około 1 w 4,836,000,000,000,000,000,000,000; w nowoczesnych terminach wartość p . Jest to znikomo małe, co prowadzi Arbuthnota do tego, że nie było to dziełem przypadku, lecz Bożej opatrzności: „Skąd wynika, że ​​rządzi Sztuka, a nie przypadek”. Współcześnie odrzucił hipotezę zerową o jednakowym prawdopodobieństwie narodzin mężczyzn i kobiet na poziomie istotności p  = 1/2 82 . Ta i inna praca Arbuthnota została uznana za „… pierwsze użycie testów istotności…” jako pierwszy przykład rozumowania na temat istotności statystycznej oraz „… być może pierwszy opublikowany raport z testu nieparametrycznego …”, w szczególności za test znaków ; zobacz szczegóły w Test znaku § Historia .

To samo pytanie zadał później Pierre-Simon Laplace , który zamiast tego zastosował test parametryczny , modelując liczbę urodzeń mężczyzn z rozkładem dwumianowym :

W latach 70. XVIII wieku Laplace brał pod uwagę statystyki prawie pół miliona urodzeń. Statystyki wykazały nadmiar chłopców w porównaniu z dziewczętami. Doszedł do wniosku, obliczając wartość p, że nadwyżka była rzeczywistym, ale niewyjaśnionym efektem.

Wartość p została po raz pierwszy formalnie wprowadzona przez Karla Pearsona w jego teście chi-kwadrat Pearsona , przy użyciu rozkładu chi-kwadrat i zapisana jako duże P. Wartości p dla rozkładu chi-kwadrat (dla różnych wartości χ 2 i stopnie swobody), obecnie oznaczone jako P, zostały obliczone w ( Elderton 1902 ), zebrane w ( Pearson 1914 , s. xxxi-xxxiii, 26-28, tabela XII) .

Wykorzystanie wartości p w statystyce spopularyzował Ronald Fisher i odgrywa ona kluczową rolę w jego podejściu do tematu. W swojej wpływowej książce Statistical Methods for Research Workers (1925) Fisher zaproponował poziom p = 0,05, czyli szansę 1 do 20 na przypadkowe przekroczenie, jako granicę istotności statystycznej i zastosował to do rozkładu normalnego (jako test dwustronny), dając w ten sposób regułę dwóch odchyleń standardowych (na rozkładzie normalnym) dla istotności statystycznej (patrz reguła 68-95-99,7 ).

Następnie obliczył tabelę wartości, podobnie jak Elderton, ale, co ważne, odwrócił role χ 2 i p. Oznacza to, że zamiast obliczać p dla różnych wartości χ 2 (i stopni swobody n ), obliczył wartości χ 2, które dają określone wartości p , konkretnie 0,99, 0,98, 0,95, 0,90, 0,80, 0,70, 0,50 , 0,30, 0,20, 0,10, 0,05, 0,02 i 0,01. Pozwoliło to na porównanie obliczonych wartości χ 2 z wartościami odcięcia i zachęciło do stosowania wartości p (zwłaszcza 0,05, 0,02 i 0,01) jako wartości odcięcia, zamiast obliczania i raportowania samych wartości p . Ten sam typ tabel został następnie skompilowany w ( Fisher & Yates 1938 ), co utrwaliło to podejście.

Jako ilustrację zastosowania wartości p do projektowania i interpretacji eksperymentów , Fisher w swojej następnej książce The Design of Experiments (1935) przedstawił eksperyment pani degustacji herbaty , który jest archetypowym przykładem wartości p .

Aby ocenić twierdzenie pani, że ona ( Muriel Bristol ) potrafiła odróżnić po smaku, jak przyrządza się herbatę (najpierw dodając mleko do filiżanki, potem herbatę lub najpierw herbatę, potem mleko), podano jej kolejno 8 filiżanek: 4 przygotowane w jedną stronę, 4 przygotowało w drugą, i poprosiło o określenie przygotowania każdej filiżanki (wiedząc, że było ich 4). W takim przypadku hipoteza zerowa była taka, że ​​nie miała specjalnych zdolności, test był dokładnym testem Fishera , a wartość p była taka, że ​​Fisher był skłonny odrzucić hipotezę zerową (należy wziąć pod uwagę, że wynik jest bardzo mało prawdopodobny), jeśli wszystkie zostały poprawnie sklasyfikowane. (W rzeczywistym eksperymencie Bristol poprawnie sklasyfikował wszystkie 8 filiżanek.)

Fisher powtórzył próg p = 0,05 i wyjaśnił jego uzasadnienie, stwierdzając:

Eksperymentatorzy zwykle i wygodnie przyjmują 5 procent jako standardowy poziom istotności, w tym sensie, że są gotowi zignorować wszystkie wyniki, które nie osiągnęły tego standardu, i w ten sposób wyeliminować z dalszej dyskusji większe część fluktuacji, które przypadkowe przyczyny wprowadziły do ​​swoich wyników eksperymentalnych.

Stosuje ten próg również do projektowania eksperymentów, zauważając, że gdyby przedstawiono tylko 6 kubków (po 3 z każdego), doskonała klasyfikacja dałaby tylko wartość p, która nie spełniałaby tego poziomu istotności. Fisher podkreślił również interpretację p, jako długookresowej proporcji wartości co najmniej tak skrajnych jak dane, przy założeniu, że hipoteza zerowa jest prawdziwa.

W późniejszych wydaniach Fisher wyraźnie przeciwstawił użycie wartości p do wnioskowania statystycznego w nauce z metodą Neymana-Pearsona, którą nazywa „procedurami akceptacji”. Fisher podkreśla, że ​​chociaż ustalone poziomy, takie jak 5%, 2% i 1%, są wygodne, można zastosować dokładną wartość p , a siła dowodu może i będzie weryfikowana w dalszych eksperymentach. Natomiast procedury decyzyjne wymagają jednoznacznej decyzji, skutkującej nieodwracalnym działaniem, a procedura oparta jest na kosztach błędu, których, jak twierdzi, nie ma zastosowania do badań naukowych.

Powiązane ilości

Ściśle pokrewnym pojęciem jest wartość E , która jest oczekiwaną liczbą razy w testach wielokrotnych, której oczekuje się, aby uzyskać statystykę testową co najmniej tak ekstremalną, jak ta, która została faktycznie zaobserwowana, jeśli założy się, że hipoteza zerowa jest prawdziwa. Wartość E jest iloczynem liczby testów i wartości p .

Q wartość X jest analog p wartość X w stosunku do pozytywnej fałszywego wykrywania . Jest używany w testowaniu wielu hipotez w celu utrzymania mocy statystycznej przy jednoczesnym zminimalizowaniu odsetka wyników fałszywie pozytywnych .

Zobacz też

Uwagi

Bibliografia

Dalsza lektura

Zewnętrzne linki