Test permutacji - Permutation test

Testu permutacji (zwany również ponowne sprawdzenie randomizacji) jest dokładny test , rodzaj testu istotności statystycznej w którym rozkład statystyk testowych w hipotezie zerowej otrzymuje się przez wszystkie możliwe wartości statystyki testowej we wszystkich możliwych rearanżacji obserwowane punkty danych. Testy permutacyjne są więc formą resamplingu . Innymi słowy, metoda, za pomocą której leczenie jest przydzielane badanym w projekcie eksperymentalnym, znajduje odzwierciedlenie w analizie tego projektu. Jeśli etykiety są wymienne w ramach hipotezy zerowej, to otrzymane testy dają dokładne poziomy istotności; patrz także zamienność . Z testów można następnie wyznaczyć przedziały ufności. Teoria ta wyewoluowała z prac Ronalda Fishera i EJG Pitmana z lat 30. XX wieku.

Testów permutacyjnych nie należy mylić z testami randomizowanymi .

Aby zilustrować podstawowe pojęcia testu permutacji, załóżmy, że zbieramy zmiennych losowych i dla każdej osoby z dwóch grup i którego próbki są środki i , i że chcemy wiedzieć, czy i pochodzą z tego samego rozkładu. Niech i będzie wielkością próbki zebraną z każdej grupy. Test permutacji ma na celu określenie, czy zaobserwowana różnica między średnimi próbki jest wystarczająco duża, aby na pewnym poziomie istotności odrzucić hipotezę zerową H , z której dane pochodzą z tego samego rozkładu, co dane z .

Test przebiega w następujący sposób. Najpierw obliczana jest różnica średnich między dwiema próbkami: jest to obserwowana wartość statystyki testowej, .

Następnie obserwacje grup i są łączone, a różnica w średnich próbek jest obliczana i rejestrowana dla każdego możliwego sposobu podziału połączonych wartości na dwie grupy wielkości i (tj. dla każdej permutacji etykiet grup A i B). Zestaw tych obliczonych różnic jest dokładnym rozkładem możliwych różnic (dla tej próbki) w ramach hipotezy zerowej, że etykiety grup są wymienne (tj. są przydzielane losowo).

Jednostronna wartość p testu jest obliczana jako proporcja próbkowanych permutacji, w których różnica średnich była większa niż . Dwustronna wartość p testu jest obliczana jako proporcja próbkowanych permutacji, w których bezwzględna różnica była większa niż .

Alternatywnie, jeśli jedynym celem testu jest odrzucenie lub nie odrzucenie hipotezy zerowej, można posortować zarejestrowane różnice, a następnie zaobserwować, czy zawiera się w środkowym % z nich, dla pewnego poziomu istotności . Jeśli tak nie jest, odrzucamy hipotezę o identycznych krzywych prawdopodobieństwa na poziomie istotności.

Związek z testami parametrycznymi

Testy permutacyjne to podzbiór statystyk nieparametrycznych . Zakładając, że nasze dane eksperymentalne pochodzą z danych mierzonych z dwóch leczonych grup, metoda po prostu generuje rozkład średnich różnic przy założeniu, że te dwie grupy nie różnią się pod względem mierzonej zmiennej. Na tej podstawie wykorzystuje się zaobserwowaną statystykę ( powyżej), aby zobaczyć, w jakim stopniu ta statystyka jest wyjątkowa, tj. prawdopodobieństwo zaobserwowania wielkości takiej wartości (lub większej), jeśli etykiety leczenia zostały po prostu losowo przydzielone po leczeniu.

W przeciwieństwie do badań permutacji, rozkłady bazowe wiele popularnych „klasycznych” statystyczne testy, takie jak t -Test , F -Test , Z -Test i χ 2 badaniu , uzyskiwane są z teoretycznego rozkładów prawdopodobieństwa. Dokładny test Fishera jest przykładem powszechnie stosowanego testu permutacyjnego do oceny związku między dwiema zmiennymi dychotomicznymi. W przypadku bardzo dużych próbek test chi-kwadrat Pearsona da dokładne wyniki. W przypadku małych próbek nie można założyć, że rozkład odniesienia chi-kwadrat daje poprawny opis rozkładu prawdopodobieństwa statystyki testowej iw tej sytuacji bardziej odpowiednie staje się zastosowanie dokładnego testu Fishera.

Testy permutacyjne istnieją w wielu sytuacjach, w których nie występują testy parametryczne (np. przy wyprowadzaniu testu optymalnego, gdy straty są proporcjonalne do wielkości błędu, a nie do jego kwadratu). Wszystkie proste i wiele stosunkowo złożonych testów parametrycznych ma odpowiednią wersję testu permutacji, która jest zdefiniowana przy użyciu tej samej statystyki testu, co test parametryczny, ale uzyskuje wartość p z rozkładu permutacji specyficznego dla próbki tej statystyki, a nie z teoretycznego rozkład wyprowadzony z założenia parametrycznego. Na przykład, możliwe jest w ten sposób, aby skonstruować permutacji t -test , permutacja × 2 badania asocjacji, wersja permutacji testu aly za porównanie odchyleń i tak dalej.

Głównymi wadami testów permutacji jest to, że:

  • Może być intensywny obliczeniowo i może wymagać „niestandardowego” kodu dla trudnych do obliczenia statystyk. To musi być napisane na nowo dla każdego przypadku.
  • Są używane przede wszystkim do podania wartości p. Odwrócenie testu w celu uzyskania obszarów/przedziałów ufności wymaga jeszcze więcej obliczeń.

Zalety

Testy permutacyjne istnieją dla każdej statystyki testowej, niezależnie od tego, czy znana jest jej dystrybucja. W ten sposób zawsze można wybrać statystykę, która najlepiej odróżnia hipotezę od alternatywy i minimalizuje straty.

Testy permutacyjne mogą być używane do analizy niezrównoważonych projektów i łączenia testów zależnych na mieszaninach danych kategorycznych, porządkowych i metrycznych (Pesarin, 2001). Można ich również użyć do analizy danych jakościowych, które zostały skwantyfikowane (tj. zamienione na liczby). Testy permutacyjne mogą być idealne do analizy danych ilościowych, które nie spełniają założeń statystycznych leżących u podstaw tradycyjnych testów parametrycznych (np. testy t, ANOVA).

Przed latami 80. ciężar tworzenia rozkładu referencyjnego był przytłaczający, z wyjątkiem zestawów danych o małej wielkości próby.

Od lat osiemdziesiątych zbieg stosunkowo niedrogich, szybkich komputerów i rozwój nowych, zaawansowanych algorytmów ścieżek mających zastosowanie w szczególnych sytuacjach sprawiły, że zastosowanie metod testowania permutacji stało się praktyczne dla szerokiego zakresu problemów. Zainicjował także dodanie opcji testów dokładnych do głównych pakietów oprogramowania statystycznego oraz pojawienie się specjalistycznego oprogramowania do wykonywania szerokiej gamy testów dokładnych z jedną i wieloma zmiennymi oraz do obliczania "dokładnych" przedziałów ufności opartych na testach.

Ograniczenia

Ważnym założeniem stojącym za testem permutacji jest to, że obserwacje można wymieniać w ramach hipotezy zerowej. Ważną konsekwencją tego założenia jest to, że testy różnicy lokalizacji (takie jak test t permutacji) wymagają równej wariancji przy założeniu normalności. Pod tym względem test t permutacji ma tę samą słabość, co klasyczny test t-Studenta ( problem Behrensa-Fishera ). Trzecią alternatywą w tej sytuacji jest użycie testu ładowania początkowego. Good (2005) wyjaśnia różnicę między testami permutacyjnymi a testami bootstrap w następujący sposób: „Hipotezy testu permutacyjnego dotyczące rozkładów; hipotezy testu bootstrap dotyczące parametrów. W rezultacie bootstrap pociąga za sobą mniej rygorystyczne założenia”. Testy bootstrap nie są dokładne. W niektórych przypadkach test permutacji oparty na odpowiednio wyszkolonej statystyce może być asymptotycznie dokładny, nawet jeśli naruszone jest założenie zamienności.

Testy Monte Carlo

Asymptotycznie równoważny test permutacji można utworzyć, gdy istnieje zbyt wiele możliwych uporządkowań danych, aby umożliwić pełne wyliczenie w dogodny sposób. Odbywa się to poprzez generowanie rozkładu referencyjnego przez próbkowanie Monte Carlo , które pobiera małą (w stosunku do całkowitej liczby permutacji) losową próbkę możliwych powtórzeń. Uświadomienie sobie, że można to zastosować do dowolnego testu permutacyjnego na dowolnym zbiorze danych, było ważnym przełomem w dziedzinie statystyki stosowanej. Najwcześniejsze znane odniesienia do tego podejścia to Eden i Yates (1933) oraz Dwass (1957). Ten typ testu permutacji jest znany pod różnymi nazwami: przybliżeniu testowych permutacji , testy permutacji Monte Carlo lub losowe testy permutacji .

Po losowych permutacjach możliwe jest uzyskanie przedziału ufności dla wartości p na podstawie rozkładu dwumianowego. Na przykład, jeśli po losowych permutacjach oszacowano, że wartość p wynosi , to 99% przedział ufności dla prawdy (ten, który wynikałby z wypróbowania wszystkich możliwych permutacji) wynosi .

Z drugiej strony celem oszacowania wartości p jest najczęściej decyzja, czy , gdzie jest próg, przy którym hipoteza zerowa zostanie odrzucona (zazwyczaj ). W powyższym przykładzie przedział ufności mówi nam tylko, że istnieje około 50% szans, że wartość p jest mniejsza niż 0,05, tj. jest całkowicie niejasne, czy hipoteza zerowa powinna zostać odrzucona na poziomie .

Jeśli ważne jest tylko, aby wiedzieć, czy dla danego , logiczne jest kontynuowanie symulacji, dopóki stwierdzenie nie zostanie ustalone jako prawdziwe lub fałszywe z bardzo małym prawdopodobieństwem błędu. Biorąc pod uwagę ograniczenie dopuszczalnego prawdopodobieństwa błędu (prawdopodobieństwo znalezienia tego w rzeczywistości lub odwrotnie), pytanie o to, ile permutacji należy wygenerować, można postrzegać jako pytanie o to, kiedy przestać generować permutacje, w oparciu o wyniki dotychczasowych symulacji, aby zagwarantować, że wniosek (którym jest albo lub ) jest poprawny z prawdopodobieństwem co najmniej tak dużym jak . ( będzie zazwyczaj wybierany tak, aby był bardzo mały, np. 1/1000.) Aby to osiągnąć, opracowano reguły zatrzymania, które można wprowadzić przy minimalnych dodatkowych kosztach obliczeniowych. W rzeczywistości, w zależności od rzeczywistej podstawowej wartości p, często okazuje się, że liczba wymaganych symulacji jest niezwykle mała (np. tak niska jak 5, a często nie większa niż 100), zanim decyzja może zostać podjęta z wirtualną pewnością.

Zobacz też

Literatura

Referencje oryginalne:

  • Fisher, RA (1935) Projekt eksperymentów , Nowy Jork: Hafner
  • Pitman, EJG (1937) „Testy istotności, które można zastosować do próbek z dowolnej populacji”, Royal Statistical Society Supplement , 4: 119-130 i 225-32 (część I i II). JSTOR  2984124 JSTOR  2983647
  • Pitman, EJG (1938). „Testy istotności, które można zastosować do próbek z dowolnej populacji. Część III. Analiza testu wariancji”. Biometria . 29 (3-4): 322-335. doi : 10.1093/biomet/29,3-4.322 .

Nowoczesne referencje:

Metody obliczeniowe:

Aktualne badania nad testami permutacyjnymi

Bibliografia

  1. ^ Onghena, Patrick (2017-10-30), Berger, Vance W. (red.), "Testy randomizacji lub testy permutacji? Wyjaśnienie historyczne i terminologiczne" , Randomizacja, maskowanie i ukrycie alokacji (1 wyd.), Boca Raton : Taylor & Francis, tytuł CRC, część wydawnictwa Taylor & Francis, członek Taylor & Francis Group, oddziału akademickiego T&F Informa plc, 2018.: Chapman and Hall/CRC, s. 209–228, doi : 10.1201/9781315305110-14 , ISBN 978-1-315-30511-0, pobrano 2021.10.08CS1 maint: lokalizacja ( link )
  2. ^ „Artykuły zaproszone” (PDF) . Journal of Modern Applied Statistic Methods . 1 (2): 202–522. Jesień 2011. Zarchiwizowane z oryginału (PDF) 5 maja 2003 r.
  3. ^ Collingridge, Dave S. (11 września 2012). „Podkład do analizy ilościowej danych i testowania permutacji”. Journal of Mixed Methods Research . 7 (1): 81-97. doi : 10.1177/1558689812454457 . S2CID  124618343 .
  4. ^ Chung, EY; Romano, JP (2013). „Dokładne i asymptotycznie odporne testy permutacyjne” . Roczniki Statystyczne . 41 (2): 487–507. arXiv : 1304.5939 . doi : 10.1214/13-AOS1090 .
  5. ^ Eden, T; Yates, F (1933). „O ważności testu z Fishera w zastosowaniu do rzeczywistego przykładu nienormalnych danych. (Z pięcioma cyframi tekstowymi.)” . Czasopismo Nauk Rolniczych . 23 (1): 6-17. doi : 10.1017/S0021859600052862 . Źródło 3 czerwca 2021 .
  6. ^ Dwass, Meyer (1957). „Zmodyfikowane testy randomizacyjne dla hipotez nieparametrycznych” . Roczniki statystyki matematycznej . 28 (1): 181-187. doi : 10.1214/aoms/1177707045 . JSTOR  2237031 .
  7. ^ Thomas E. Nichols , Andrew P. Holmes (2001). „Nieparametryczne testy permutacyjne dla funkcjonalnego neuroobrazowania: elementarz z przykładami” (PDF) . Mapowanie ludzkiego mózgu . 15 (1): 1–25. doi : 10.1002/hbm.1058 . hdl : 2027,42/35194 . PMC  6871862 . PMID  11747097 .
  8. ^ Gandy, Axel (2009). „Sekwencyjna realizacja testów Monte Carlo z jednolicie ograniczonym ryzykiem resamplingu”. Dziennik Amerykańskiego Towarzystwa Statystycznego . 104 (488): 1504-1511. arXiv : matematyka/0612488 . doi : 10.1198/jasa.2009.tm08368 . S2CID  15935787 .