Wskaźnik błędu rodzinnego - Family-wise error rate

W statystyce , rodzinny wskaźnik błędów ( FWER ) to prawdopodobieństwo dokonania jednego lub więcej fałszywych odkryć lub błędów typu I podczas wykonywania testów wielu hipotez .

Wskaźniki błędów rodzinnych i eksperymentalnych

Tukey (1953) rozwinął koncepcję współczynnika błędu rodzinnego jako prawdopodobieństwa popełnienia błędu typu I w określonej grupie lub „rodzinie” testów. Ryan (1959) zaproponował pokrewną koncepcję eksperymentalnego wskaźnika błędu , który jest prawdopodobieństwem popełnienia błędu typu I w danym eksperymencie. W związku z tym wskaźnik błędu eksperymentalnego jest wskaźnikiem błędu rodzinnego dla wszystkich testów przeprowadzanych w ramach eksperymentu.

Jak wyjaśnił Ryan (1959, przypis 3), eksperyment może zawierać dwie lub więcej rodzin porównań wielokrotnych, z których każda odnosi się do konkretnego wnioskowania statystycznego i każda ma swój własny, osobny współczynnik błędu rodzinnego. W związku z tym współczynniki błędów rodzinnych są zwykle oparte na teoretycznie informacyjnym zbiorze wielokrotnych porównań. W przeciwieństwie do tego, eksperymentalny poziom błędu może być oparty na zbiorze przypadkowych porównań, które odnoszą się do zróżnicowanego zakresu oddzielnych wniosków. W związku z tym niektórzy argumentowali, że kontrolowanie eksperymentalnego wskaźnika błędów może nie być przydatne. Rzeczywiście, Tukey był przeciwny idei eksperymentalnego wskaźnika błędów (Tukey, 1956, komunikacja osobista, w Ryan, 1962, s. 302). Niedawno Rubin (2021) skrytykował automatyczne uwzględnianie wskaźników błędów eksperymentalnych, argumentując, że „w wielu przypadkach wspólna hipoteza [eksperymentalna] nie ma związku z konkretnymi pytaniami badawczymi badaczy, ponieważ jej hipotezy składowe odnoszą się do porównań i zmiennych, które nie mają teoretycznych ani praktycznych podstaw do wspólnego rozważania”.

Tło

W ramach statystycznych istnieje kilka definicji terminu „rodzina”:

  • Hochberg i Tamhane (1987) zdefiniowali „rodzinę” jako „każdy zbiór wniosków, dla których sensowne jest uwzględnienie jakiejś połączonej miary błędu”.
  • Według Coxa (1982) za rodzinę należy uznać zbiór wniosków:
  1. Aby wziąć pod uwagę efekt selekcji ze względu na pogłębianie danych
  2. Aby zapewnić jednoczesną poprawność zestawu wnioskowań, aby zagwarantować poprawną ogólną decyzję

Podsumowując, rodzinę najlepiej można zdefiniować za pomocą potencjalnego wnioskowania selektywnego, z którym mamy do czynienia: rodzina jest najmniejszym zestawem elementów wnioskowania w analizie, wymiennymi w odniesieniu do ich znaczenia dla celu badań, z którego wybór wyników do działania , można wykonać prezentację lub wyróżnienie ( Yoav Benjamini ).

Klasyfikacja testów wielu hipotez

W poniższej tabeli zdefiniowano możliwe wyniki testowania wielu hipotez zerowych. Załóżmy, że mamy liczbę m hipotez zerowych, oznaczonych przez: H 1H 2 , ...,  H m . Za pomocą testu statystycznego odrzucamy hipotezę zerową, jeśli test zostanie uznany za istotny. Nie odrzucamy hipotezy zerowej, jeśli test jest nieistotny. Zsumowanie każdego typu wyniku po wszystkich H i   daje następujące zmienne losowe:

Hipoteza zerowa jest prawdziwa (H 0 ) Hipoteza alternatywna jest prawdą (H ) Całkowity
Test uznano za istotny V S r
Test uznano za nieistotny U T
Całkowity m

W testach m hipotez, które są prawdziwymi hipotezami zerowymi, R jest obserwowalną zmienną losową, a S , T , U i V są nieobserwowalnymi zmiennymi losowymi .

Definicja

FWER to prawdopodobieństwo popełnienia co najmniej jednego błędu typu I w rodzinie,

lub równoważnie,

W ten sposób, zapewniając , prawdopodobieństwo popełnienia jednego lub więcej błędów typu I w rodzinie jest kontrolowane na poziomie .

Procedura kontroluje FWER w słabym sensie, jeśli kontrola FWER na poziomie jest gwarantowana tylko wtedy, gdy wszystkie hipotezy zerowe są prawdziwe (tj. gdy , co oznacza „globalna hipoteza zerowa” jest prawdziwa).

Procedura kontroluje FWER w silnym sensie, jeśli kontrola FWER na poziomie jest gwarantowana dla dowolnej konfiguracji prawdziwych i nieprawdziwych hipotez zerowych (niezależnie od tego, czy globalna hipoteza zerowa jest prawdziwa, czy nie).

Procedury kontrolne

Istnieje kilka klasycznych rozwiązań, które zapewniają silną kontrolę poziomu FWER oraz kilka nowszych rozwiązań.

Procedura Bonferroniego

  • Oznaczmy przez w p -value do testowania
  • odrzuć, jeśli

Procedura Šidáka

  • Testowanie każdej hipotezy na poziomie jest procedurą wielokrotnego testowania Sidaka.
  • Ta procedura jest silniejsza niż Bonferroni, ale zysk jest niewielki.
  • Ta procedura może nie kontrolować FWER, gdy testy są ujemnie zależne.

Procedura Tukeya

  • Procedura Tukeya ma zastosowanie tylko do porównań parami .
  • Zakłada niezależność testowanych obserwacji, a także równą zmienność pomiędzy obserwacjami ( homoskedastyczność ).
  • Procedura oblicza dla każdej pary uśrednioną statystykę rozstępu : gdzie jest większa z dwóch porównywanych średnich, jest mniejsza i jest standardowym błędem danych.
  • Test Tukeya jest zasadniczo testem t Studenta , z tym wyjątkiem, że koryguje współczynnik błędów rodzinnych .

Procedura ustąpienia Holma (1979)

  • Zacznij od uporządkowania wartości p (od najniższej do najwyższej) i niech powiązane hipotezy będą
  • Niech będzie indeksem minimalnym takim, że
  • Odrzuć hipotezy zerowe . Jeśli wtedy żadna z hipotez nie zostanie odrzucona.

Ta procedura jest jednakowo silniejsza niż procedura Bonferroniego. Powodem, dla którego ta procedura kontroluje współczynnik błędu rodzinnego dla wszystkich hipotez m na poziomie α w silnym sensie, jest to, że jest to zamknięta procedura testowa . W związku z tym każde skrzyżowanie jest testowane za pomocą prostego testu Bonferroniego.

Procedura stopniowa Hochberga

Procedura stopniowa Hochberga (1988) jest wykonywana w następujących krokach:

  • Zacznij od uporządkowania wartości p (od najniższej do najwyższej) i niech powiązane hipotezy będą
  • Dla danego , niech będzie największym takim, że
  • Odrzuć hipotezy zerowe

Procedura Hochberga jest silniejsza niż metoda Holmsa. Niemniej jednak, podczas gdy metoda Holma jest zamkniętą procedurą testową (a zatem, podobnie jak Bonferroni, nie ma ograniczeń co do łącznego rozkładu statystyk testowych), metoda Hochberga opiera się na teście Simesa, więc działa tylko w przypadku nieujemnej zależności.

Korekta Dunnetta

Charles Dunnett (1955, 1966) opisał alternatywną korektę błędu alfa, gdy k grup porównuje się z tą samą grupą kontrolną. Metoda ta, znana obecnie jako test Dunnetta, jest mniej konserwatywna niż korekta Bonferroniego.

Metoda Scheffégo

Procedury ponownego próbkowania

Procedury Bonferroniego i Holma kontrolują FWER przy dowolnej strukturze zależności wartości p (lub równoważnie indywidualnych statystyk testowych). Zasadniczo osiąga się to poprzez przystosowanie struktury zależności „najgorszego przypadku” (która jest bliska niezależności dla większości celów praktycznych). Ale takie podejście jest konserwatywne, jeśli zależność jest rzeczywiście pozytywna. Aby podać skrajny przykład, w warunkach doskonałej pozytywnej zależności istnieje w rzeczywistości tylko jeden test, a zatem FWER jest nienapompowany.

Uwzględnienie struktury zależności wartości p (lub poszczególnych statystyk testowych) daje bardziej wydajne procedury. Można to osiągnąć, stosując metody resamplingu, takie jak metody ładowania początkowego i permutacji. Procedura Westfalla i Younga (1993) wymaga pewnego warunku, który nie zawsze jest spełniony w praktyce (mianowicie podzbioru pivotality). Procedury Romano i Wolfa (2005a,b) obywają się bez tego warunku i dlatego są bardziej ogólnie ważne.

Procedura średniej harmonicznej wartości p

Procedura średniej harmonicznej wartości p (HMP) zapewnia wielopoziomowy test, który poprawia moc korekcji Bonferroniego poprzez ocenę istotności grup hipotez przy jednoczesnym kontrolowaniu współczynnika błędu rodzinnego silnego sensu. Znaczenie każdej podgrupie z badań ocenia się przez obliczenie HMP dla podzbioru,

gdzie są wagi, które sumują się do jednego (tj .). Przybliżona procedura, która kontroluje silny rodzinny wskaźnik błędu na poziomie w przybliżeniu odrzuca hipotezę zerową, że żadna z wartości p w podzbiorze nie jest istotna, gdy (gdzie ). To przybliżenie jest rozsądne dla małych (np. ) i staje się arbitralnie dobre, gdy zbliża się do zera. Dostępny jest również test asymptotycznie dokładny (patrz artykuł główny ).

Alternatywne podejścia

Kontrola FWER wywiera bardziej rygorystyczną kontrolę nad fałszywymi odkryciami w porównaniu z procedurami fałszywego wykrywania (FDR). Kontrola FWER ogranicza prawdopodobieństwo co najmniej jednego fałszywego odkrycia, podczas gdy kontrola FDR ogranicza (w luźnym sensie) oczekiwany odsetek fałszywych odkryć. Tak więc procedury FDR mają większą moc kosztem zwiększonej liczby błędów typu I , tj. odrzucania hipotez zerowych, które są rzeczywiście prawdziwe.

Z drugiej strony kontrola FWER jest mniej rygorystyczna niż kontrola wskaźnika błędów na rodzinę, co ogranicza oczekiwaną liczbę błędów na rodzinę. Ponieważ kontrola FWER dotyczy co najmniej jednego fałszywego odkrycia, w przeciwieństwie do kontroli wskaźnika błędów na rodzinę, nie traktuje wielu jednoczesnych fałszywych odkryć jako gorszych niż jedno fałszywe odkrycie. Korekcji Bonferroniego jest często traktowane jako jedynie kontrolowanie FWER, ale w rzeczywistości kontroluje również stopę błędów za mieszkaniami.

Bibliografia

Zewnętrzne linki