q -wartość (statystyki) - q-value (statistics)

W testowaniu hipotez statystycznych , a konkretnie w testowaniu wielu hipotez , wartość q zapewnia środki do kontrolowania wskaźnika pozytywnych fałszywych odkryć (pFDR). Tak jak wartość p daje oczekiwany współczynnik wyników fałszywie dodatnich uzyskany przez odrzucenie hipotezy zerowej dla dowolnego wyniku o równej lub mniejszej wartości p, wartość q daje oczekiwany pFDR uzyskany przez odrzucenie hipotezy zerowej dla dowolnego wyniku o równej lub mniejszej wartości lub mniejsza wartość q .

Historia

W statystyce testowanie wielu hipotez jednocześnie przy użyciu metod odpowiednich do testowania pojedynczych hipotez prowadzi do wielu fałszywie pozytywnych wyników: tak zwany problem wielokrotnych porównań . Na przykład załóżmy, że należało przetestować 1000 hipotez zerowych, z których wszystkie są prawdziwe, i (jak to ma miejsce w przypadku testowania pojedynczej hipotezy) odrzucić hipotezy zerowe o poziomie istotności 0,05; ze względu na losowy przypadek można by oczekiwać, że 5% wyników będzie miało znaczenie ( P < 0,05), dając 50 wyników fałszywie dodatnich (odrzucenie hipotezy zerowej). Od lat pięćdziesiątych statystycy opracowują metody wielokrotnych porównań, które zmniejszają liczbę wyników fałszywie pozytywnych, takie jak kontrolowanie współczynnika błędów rodzinnych (FWER) za pomocą korekty Bonferroniego , ale metody te również zwiększały liczbę wyników fałszywie ujemnych (tj. zmniejszały moc statystyczna ). W 1995 roku Yoav Benjamini i Yosef Hochberg zaproponowali kontrolowanie wskaźnika fałszywych odkryć (FDR) jako bardziej statystycznie skuteczną alternatywę dla kontrolowania FWER w testowaniu wielu hipotez. PFDR i q- wartości zostały wprowadzone przez Johna D. Storey w 2002 roku w celu poprawy na ograniczenie FDR, a mianowicie, że FDR nie jest zdefiniowana, gdy nie ma żadnych pozytywnych rezultatów.

Definicja

Niech będzie hipoteza zerowa i hipoteza alternatywna . Wykonaj testy hipotez; niech statystyki testowe będą iid zmiennymi losowymi takimi, że . Oznacza to, że jeśli jest prawdziwe dla test ( ), to następuje rozkład wartości null ; podczas gdy if jest true ( ), to następuje alternatywna dystrybucja . Niech , czyli dla każdego testu jest prawdziwe z prawdopodobieństwem i jest prawdziwe z prawdopodobieństwem . Oznaczają obszar krytyczny (Wartości dla których zostanie odrzucony) przy poziomie istotności przez . Niech eksperyment przyniesie wartość statystyki testowej. Q -wartość z formalnie zdefiniowany jako

Oznacza to, że q -value jest infimum z pFDR jeśli zostanie odrzucona statystyk testowych z wartościami . Równoważnie wartość q jest równa

co jest dolną granicą prawdopodobieństwa, że jest prawdziwe, biorąc pod uwagę, że jest odrzucone (wskaźnik fałszywych odkryć ).

Stosunek do p -value

Wartość p jest zdefiniowana jako

granica prawdopodobieństwa, które jest odrzucane, jeśli jest prawdziwe (wskaźnik fałszywie dodatnich ). Porównując definicje wartości p i q można zauważyć, że wartość q jest minimalnym prawdopodobieństwem a posteriori, które jest prawdziwe.

Interpretacja

Wartość q można interpretować jako współczynnik fałszywych odkryć (FDR): odsetek wyników fałszywie dodatnich wśród wszystkich wyników dodatnich. Biorąc pod uwagę zestaw statystyk testowych i skojarzone z nimi wartości q , odrzucenie hipotezy zerowej dla wszystkich testów, których wartość q jest mniejsza lub równa pewnemu progowi, gwarantuje, że oczekiwana wartość współczynnika fałszywych wykrywań wynosi .

Aplikacje

Biologia

Ekspresja genu

Analizy różnicowej ekspresji genów obejmujące cały genom obejmują jednoczesne testowanie ekspresji tysięcy genów. Kontrolowanie FWER (zwykle do 0,05) pozwala uniknąć nadmiernych wyników fałszywie dodatnich (tj. wykrywanie zróżnicowanej ekspresji w genie, który nie ulega zróżnicowanej ekspresji), ale narzuca ścisły próg dla wartości p, który skutkuje wieloma fałszywie ujemnymi wynikami (przeoczono wiele genów o zróżnicowanej ekspresji) . Jednak kontrolowanie pFDR poprzez selekcję genów o znaczących wartościach q obniża liczbę wyników fałszywie ujemnych (zwiększa moc statystyczną), zapewniając jednocześnie, że oczekiwana wartość proporcji wyników fałszywie dodatnich wśród wszystkich wyników dodatnich jest niska (np. 5%).

Załóżmy na przykład, że spośród 10 000 testowanych genów 1000 jest faktycznie wyrażanych w sposób różnicowy, a 9000 nie:

  • Jeśli uznamy, że każdy gen z wartością p mniejszą niż 0,05 jest wyrażany w różny sposób, spodziewamy się, że 450 (5%) z 9000 genów, które nie są wyrażane w różny sposób, wydaje się wyrażać w różny sposób (450 fałszywie dodatnich).
  • Jeśli skontrolujemy FWER do 0,05, prawdopodobieństwo uzyskania przynajmniej jednego fałszywie pozytywnego jest tylko 5%. Jednak to bardzo surowe kryterium zmniejszy moc tak, że kilka z 1000 genów, które są faktycznie wyrażane w różny sposób, wydaje się być wyrażane w różny sposób (wiele fałszywie negatywnych).
  • Jeśli kontrolujemy pFDR do 0,05, uznając, że wszystkie geny o wartości q mniejszej niż 0,05 są wyrażane w sposób różnicowy, oczekujemy, że 5% wyników pozytywnych będzie fałszywie pozytywnych (np. 900 prawdziwie pozytywnych, 45 fałszywie pozytywnych, 100 fałszywie pozytywnych). negatywów, 8955 prawdziwych negatywów). Ta strategia umożliwia uzyskanie stosunkowo niewielkiej liczby zarówno wyników fałszywie pozytywnych, jak i fałszywie negatywnych.

Realizacje

Uwaga: poniższa lista jest niepełna.

R

  • Qvalue pakiet w R szacuje q -values z listy p -values.

Bibliografia