Problem wielokrotnych porównań - Multiple comparisons problem

Przykład zbiegu okoliczności wywołanego przez pogłębianie danych (pokazujący korelację między liczbą liter w zwycięskim słowie pszczoły ortograficznej a liczbą osób w Stanach Zjednoczonych zabitych przez jadowite pająki). Mając wystarczająco dużą pulę zmiennych dla tego samego okresu, można znaleźć parę wykresów, które pokazują korelację bez związku przyczynowego .

W statystykach The wielokrotne porównania , wielość lub wielokrotne testowanie Problem pojawia się, gdy weźmiemy pod uwagę zestaw wnioskowań statystycznych jednocześnie lub wnioskuje podzbiór parametrów wybranych na podstawie zaobserwowanych wartości. W niektórych dziedzinach jest to znane jako efekt patrzenia w inne miejsce .

Im więcej wnioskowania, tym bardziej prawdopodobne staje się błędne wnioskowanie. Kilka technik statystycznych zostało opracowanych w celu rozwiązania tego problemu, zazwyczaj poprzez wymaganie bardziej rygorystycznego progu istotności dla indywidualnych porównań, aby zrekompensować liczbę wyciąganych wniosków.

Historia

Problem wielokrotnych porównań zyskał większą uwagę w latach pięćdziesiątych dzięki pracy statystyków, takich jak Tukey i Scheffé . W ciągu następnych dziesięcioleci opracowano wiele procedur mających na celu rozwiązanie tego problemu. W 1996 roku w Izraelu odbyła się pierwsza międzynarodowa konferencja poświęcona procedurom wielokrotnych porównań ; zwykle odbywa się mniej więcej co dwa lata w różnych krajach goszczących.

Definicja

Wielokrotne porównania powstają, gdy analiza statystyczna obejmuje wiele jednoczesnych testów statystycznych, z których każdy ma potencjał do „odkrycia”. Podany poziom ufności zasadniczo odnosi się tylko do każdego testu rozpatrywanego indywidualnie, ale często pożądane jest posiadanie poziomu ufności dla całej rodziny testów symultanicznych. Brak zrekompensowania wielokrotnych porównań może mieć ważne konsekwencje w świecie rzeczywistym, co ilustrują następujące przykłady:

  • Załóżmy, że leczenie to nowy sposób nauczania uczniów pisania, a kontrola jest standardowym sposobem nauczania pisania. Uczniów z dwóch grup można porównać pod względem gramatyki, pisowni, organizacji, treści i tak dalej. W miarę porównywania większej liczby atrybutów, coraz bardziej prawdopodobne staje się, że grupy leczone i kontrolne będą wydawały się różnić co najmniej jednym atrybutem z powodu samego losowego błędu próbkowania .
  • Załóżmy, że rozważamy skuteczność leku pod kątem zmniejszenia któregokolwiek z wielu objawów chorobowych. W miarę uwzględniania większej liczby objawów, coraz bardziej prawdopodobne staje się, że lek będzie wydawał się dawać poprawę w stosunku do istniejących leków pod względem co najmniej jednego objawu.

W obu przykładach, wraz ze wzrostem liczby porównań, staje się bardziej prawdopodobne, że porównywane grupy będą się różnić pod względem co najmniej jednego atrybutu. Nasza pewność, że wynik uogólni się na dane niezależne, powinna być generalnie słabsza, jeśli jest obserwowana w ramach analizy obejmującej wielokrotne porównania, a nie analizy obejmującej tylko jedno porównanie.

Na przykład, jeśli jeden test zostanie wykonany na poziomie 5%, a odpowiadająca mu hipoteza zerowa jest prawdziwa, istnieje tylko 5% szans na błędne odrzucenie hipotezy zerowej. Jeśli jednak każdy z 100 testów zostanie przeprowadzonych na poziomie 5% i wszystkie odpowiadające hipotezy zerowe są prawdziwe, oczekiwana liczba nieprawidłowych odrzuceń (znanych również jako fałszywie dodatnie lub błędy typu I ) wynosi 5. Jeśli testy są statystycznie niezależne od siebie , prawdopodobieństwo co najmniej jednego nieprawidłowego odrzucenia wynosi około 99,4%.

Problem porównań wielokrotnych dotyczy również przedziałów ufności . Pojedynczy przedział ufności z 95% poziomem prawdopodobieństwa pokrycia będzie zawierał prawdziwą wartość parametru w 95% próbek. Jeśli jednak weźmiemy pod uwagę jednocześnie 100 przedziałów ufności, każdy z prawdopodobieństwem pokrycia 95%, oczekiwana liczba przedziałów nie pokrywających wynosi 5. Jeśli przedziały są statystycznie niezależne od siebie, prawdopodobieństwo, że przynajmniej jeden przedział nie zawiera populacji parametr wynosi 99,4%.

Opracowano techniki zapobiegające inflacji wskaźników fałszywie dodatnich i wskaźników braku pokrycia, które występują w wielu testach statystycznych.

Klasyfikacja testów wielu hipotez

W poniższej tabeli zdefiniowano możliwe wyniki testowania wielu hipotez zerowych. Załóżmy, że mamy liczbę m hipotez zerowych, oznaczonych przez: H 1H 2 , ...,  H m . Za pomocą testu statystycznego odrzucamy hipotezę zerową, jeśli test zostanie uznany za istotny. Nie odrzucamy hipotezy zerowej, jeśli test jest nieistotny. Zsumowanie każdego typu wyniku po wszystkich H i   daje następujące zmienne losowe:

Hipoteza zerowa jest prawdziwa (H 0 ) Hipoteza alternatywna jest prawdą (H ) Całkowity
Test uznano za istotny V S r
Test uznano za nieistotny U T
Całkowity m

W testach m hipotez, które są prawdziwymi hipotezami zerowymi, R jest obserwowalną zmienną losową, a S , T , U i V są nieobserwowalnymi zmiennymi losowymi .

Procedury kontrolne

Jeśli wykonano m niezależnych porównań, współczynnik błędu rodzinnego (FWER) jest wyrażony wzorem

Stąd, o ile testy nie są całkowicie dodatnio zależne (tj. identyczne), wzrasta wraz ze wzrostem liczby porównań. Jeśli nie założymy, że porównania są niezależne, to nadal możemy powiedzieć:

co wynika z nierówności Boole'a . Przykład:

Istnieją różne sposoby, aby zapewnić, że współczynnik błędu dla całej rodziny wynosi co najwyżej . Najbardziej konserwatywną metodą, wolną od zależności i założeń dystrybucyjnych, jest poprawka Bonferroniego . Nieznacznie mniej konserwatywną poprawkę można uzyskać, rozwiązując równanie dla rodzinnej stopy błędu niezależnych porównań dla . To daje , co jest znane jako korekta Šidáka . Inną procedurą jest metoda Holma-Bonferroniego , która równomiernie dostarcza więcej mocy niż prosta korekta Bonferroniego, testując tylko najniższą wartość p ( ) w odniesieniu do najbardziej rygorystycznego kryterium i wyższe wartości p ( ) w odniesieniu do coraz mniej rygorystycznych kryteriów. .

W przypadku problemów ciągłych można zastosować logikę bayesowską do obliczenia na podstawie stosunku objętości poprzedzającej do tylnej. Ciągłe uogólnienia poprawki Bonferroniego i Šidáka przedstawiono w.

Wielokrotna korekta testowania

Korekta wielokrotnego testowania odnosi się do zaostrzenia testów statystycznych w celu przeciwdziałania problemowi wielokrotnego testowania. Najbardziej znaną taką korektą jest korekta Bonferroniego , ale opracowano inne metody. Takie metody są zazwyczaj przeznaczone do kontrolowania współczynnika błędów rodzinnych lub współczynnika fałszywych odkryć .

Wielokrotne testowanie na dużą skalę

Tradycyjne metody korekt wielokrotnych porównań skupiają się na korygowaniu niewielkiej liczby porównań, często w analizie wariancji . Opracowano inny zestaw technik dla „wielokrotnego testowania na dużą skalę”, w którym przeprowadza się tysiące lub nawet większą liczbę testów. Na przykład w genomice , stosując technologie takie jak mikromacierze , można zmierzyć poziomy ekspresji dziesiątek tysięcy genów oraz genotypy milionów markerów genetycznych. Szczególnie w dziedzinie genetycznych badań asocjacyjnych wystąpił poważny problem z brakiem replikacji — wynik był silnie statystycznie istotny w jednym badaniu, ale nie można go powtórzyć w badaniu uzupełniającym. Taki brak replikacji może mieć wiele przyczyn, ale powszechnie uważa się, że jedną z przyczyn jest brak pełnego wyjaśnienia konsekwencji wielokrotnych porównań. Argumentowano, że postępy w pomiarach i technologii informacyjnej znacznie ułatwiły generowanie dużych zbiorów danych do analizy eksploracyjnej , co często prowadzi do testowania dużej liczby hipotez bez wcześniejszej podstawy do oczekiwania, że ​​wiele z nich jest prawdziwych. W takiej sytuacji oczekuje się bardzo wysokich współczynników fałszywie pozytywnych, chyba że zostaną wprowadzone korekty wielokrotnych porównań.

W przypadku problemów z testowaniem na dużą skalę, których celem jest dostarczenie ostatecznych wyników, współczynnik błędu rodzinnego pozostaje najbardziej akceptowanym parametrem przypisywania poziomów istotności testom statystycznym. Alternatywnie, jeśli badanie jest postrzegane jako eksploracyjne lub jeśli znaczące wyniki można łatwo ponownie przetestować w niezależnym badaniu, często preferowana jest kontrola wskaźnika fałszywych odkryć (FDR). FDR, luźno zdefiniowany jako oczekiwany odsetek wyników fałszywie dodatnich wśród wszystkich istotnych testów, pozwala badaczom zidentyfikować zestaw „kandydatów pozytywnych”, które można bardziej rygorystycznie ocenić w badaniu uzupełniającym.

Praktyka próbowania wielu nieskorygowanych porównań w nadziei na znalezienie znaczącego jest znanym problemem, stosowanym nieumyślnie lub celowo, jest czasami nazywana „p-hackingiem”.

Ocena, czy jakiekolwiek alternatywne hipotezy są prawdziwe

Normalny kwantyl działki na symulowanym zestaw statystyk testowych, które zostały znormalizowane jako Z-score poniżej hipotezy zerowej. Odejście górnego ogona rozkładu od oczekiwanego trendu wzdłuż przekątnej wynika z obecności znacznie większych wartości statystyki testowej, niż można by się spodziewać, gdyby wszystkie hipotezy zerowe były prawdziwe. Czerwony punkt odpowiada czwartej co do wielkości zaobserwowanej statystyce testowej, która wynosi 3,13, w porównaniu do oczekiwanej wartości 2,06. Niebieski punkt odpowiada piątej najmniejszej statystyce testowej, która wynosi -1,75 w porównaniu do oczekiwanej wartości -1,96. Wykres sugeruje, że jest mało prawdopodobne, aby wszystkie hipotezy zerowe były prawdziwe i że większość lub wszystkie przypadki prawdziwej hipotezy alternatywnej wynikają z odchyleń w kierunku dodatnim.

Podstawowym pytaniem, z jakim zmagamy się na początku analizy dużego zestawu wyników testów, jest to, czy istnieją dowody na to, że którakolwiek z alternatywnych hipotez jest prawdziwa. Prostym metatestem, który można zastosować przy założeniu, że testy są od siebie niezależne, jest wykorzystanie rozkładu Poissona jako modelu liczby istotnych wyników na danym poziomie α, które zostałyby znalezione, gdy wszystkie hipotezy zerowe są prawda. Jeśli obserwowana liczba wyników pozytywnych jest znacznie większa niż należy się spodziewać, sugeruje to, że wśród znaczących wyników prawdopodobnie będą pewne prawdziwe pozytywne wyniki. Na przykład, jeśli wykonuje się 1000 niezależnych testów, każdy na poziomie α = 0,05, oczekujemy, że 0,05 × 1000 = 50 znaczących testów wystąpi, gdy wszystkie hipotezy zerowe są prawdziwe. Opierając się na rozkładzie Poissona ze średnią 50, prawdopodobieństwo zaobserwowania więcej niż 61 istotnych testów jest mniejsze niż 0,05, więc jeśli obserwuje się więcej niż 61 istotnych wyników, jest bardzo prawdopodobne, że niektóre z nich odpowiadają sytuacjom, w których słuszna jest hipoteza alternatywna. Wadą tego podejścia jest to, że zawyża on dowody na to, że niektóre z alternatywnych hipotez są prawdziwe, gdy statystyki testowe są skorelowane dodatnio, co często występuje w praktyce. statystyki testu, o ile można wykazać, że rozkład Poissona zapewnia dobre przybliżenie liczby istotnych wyników. Ten scenariusz pojawia się na przykład podczas wydobywania znaczących częstych zestawów pozycji z transakcyjnych zestawów danych. Co więcej, dokładna dwuetapowa analiza może ograniczyć FDR na wcześniej określonym poziomie.

Innym powszechnym podejściem, które można zastosować w sytuacjach, w których statystyki testowe można standaryzować do wyników Z, jest wykonanie normalnego wykresu kwantylowego statystyk testowych. Jeżeli obserwowane kwantyle są znacznie bardziej rozproszone niż normalne kwantyle, sugeruje to, że niektóre z istotnych wyników mogą być prawdziwie pozytywne.

Zobacz też

Kluczowe idee
Ogólne metody korekty alfa dla porównań wielokrotnych
Pojęcia pokrewne

Bibliografia

Dalsza lektura

  • F. Betz, T. Hothorn, P. Westfall (2010), Porównania wielokrotne przy użyciu R , CRC Press
  • S. Dudoit i MJ van der Laan (2008), Multiple Testing Procedures with Application to Genomics , Springer
  • Farcomeni, A. (2008). „Przegląd nowoczesnych testów wielokrotnych hipotez, ze szczególnym uwzględnieniem proporcji fałszywych odkryć”. Metody statystyczne w badaniach medycznych . 17 (4): 347–388. doi : 10.1177/0962280206079046 . PMID  17698936 . S2CID  12777404 .
  • Phipson, B.; Smyth, GK (2010). „Wartości P permutacji nigdy nie powinny być zerowe: Obliczanie dokładnych wartości P, gdy permutacje są losowo rysowane”. Zastosowania statystyczne w genetyce i biologii molekularnej . 9 : Artykuł 39. arXiv : 1603.05766 . doi : 10.2202/1544-6115.1585 . PMID  21044043 . S2CID  10735784 .
  • PH Westfall i SS Young (1993), Resampling-based Multiple Testing: Example and Methods for p-Value Adjustment , Wiley
  • P. Westfall, R. Tobias, R. Wolfinger (2011) Wielokrotne porównania i wielokrotne testowanie przy użyciu SAS , drugie wydanie, SAS Institute
  • Galeria przykładów nieprawdopodobnych korelacji pochodzących z pogłębiania danych