Jednokierunkowa analiza wariancji Kruskala-Wallisa - Kruskal–Wallis one-way analysis of variance

Testu Kruskala-Wallisa rang, test Kruskala-Wallisa H testu (nazwane William Kruskala- i W. Allen Wallis ), a jednoczynnikowa ANOVA w szeregach jest nieparametryczny metoda testowania, czy próbki pochodzą od tego samego rozkładu. Służy do porównywania dwóch lub więcej niezależnych próbek o równych lub różnych wielkościach próbek. Rozszerza test U Manna–Whitneya , który służy do porównywania tylko dwóch grup. Równoważnikiem parametrycznym testu Kruskala-Wallisa jest jednokierunkowa analiza wariancji (ANOVA).

Znaczący test Kruskala-Wallisa wskazuje, że co najmniej jedna próbka stochastycznie dominuje nad inną próbką. Test nie określa, gdzie występuje ta dominacja stochastyczna ani dla ilu par grup uzyskuje się dominację stochastyczną. Do analizy konkretnych par próbek pod kątem dominacji stochastycznej stosuje się czasami test Dunna, parzysty test Manna–Whitneya z poprawką Bonferroniego lub mocniejszy, ale mniej znany test Conovera–Imana.

Ponieważ jest to metoda nieparametryczna, test Kruskala–Wallisa nie zakłada rozkładu normalnego reszt, w przeciwieństwie do analogicznej jednokierunkowej analizy wariancji. Jeśli badacz może przyjąć założenia o identycznie ukształtowanym i skalowanym rozkładzie dla wszystkich grup, z wyjątkiem różnicy w medianach, to hipotezą zerową jest to, że mediany wszystkich grup są równe, a hipotezą alternatywną jest to, że przynajmniej jedna mediana populacji jednej grupy różni się od mediany populacji co najmniej jednej innej grupy.

metoda

  1. Uporządkuj wszystkie dane ze wszystkich grup razem; tj. uszereguj dane od 1 do N, ignorując członkostwo w grupie. Przypisz dowolne remisujące wartości średnią rang, które otrzymaliby, gdyby nie remisowali.
  2. Statystykę testu podaje:
    gdzie:
    • to łączna liczba obserwacji we wszystkich grupach
    • jest liczba grup
    • to liczba obserwacji w grupie
    • to ranga (wśród wszystkich obserwacji) obserwacji z grupy
    • to średnia ranga wszystkich obserwacji w grupie
    • jest średnią wszystkich .
  3. Jeśli dane nie zawierają żadnych więzi, mianownik wyrażenia for jest dokładnie i . Zatem

    Ostatnia formuła zawiera tylko kwadraty średnich rang.
  4. Korekta do taśm, jeżeli za pomocą wzoru skróty opisano w poprzednim punkcie, mogą być wytwarzane przez podzielenie przez , gdzie G oznacza liczbę grup różnych związanych szeregach i t i jest liczby powiązanych wartości w grupie I , które są związane o określonej wartości. Ta poprawka zwykle robi niewielką różnicę w wartości H, chyba że istnieje duża liczba więzi.
  5. Ostatecznie decyzja o odrzuceniu lub nie hipotezie zerowej jest podejmowana przez porównanie z wartością krytyczną uzyskaną z tabeli lub oprogramowania dla danego poziomu istotności lub alfa. Jeśli jest większy niż , hipoteza zerowa jest odrzucana. Jeśli to możliwe (brak remisów, próba nie za duża) należy porównać z wartością krytyczną uzyskaną z dokładnego rozkładu . W przeciwnym razie rozkład H można aproksymować rozkładem chi-kwadrat z g-1 stopniami swobody. Jeśli niektóre wartości są małe (czyli mniej niż 5) dokładny rozkład prawdopodobieństwa o może być całkiem inna od tej rozkład chi kwadrat . Jeśli dostępna jest tabela rozkładu prawdopodobieństwa chi-kwadrat, wartość krytyczną chi-kwadrat, , można znaleźć, wpisując do tabeli g  − 1 stopień swobody i patrząc pod żądanym poziomem istotności lub alfa.
  6. Jeśli statystyka nie jest istotna, nie ma dowodów na dominację stochastyczną między próbkami. Jeśli jednak wynik testu jest istotny, co najmniej jedna próbka stochastycznie dominuje nad inną próbką. Dlatego badacz może użyć kontrastów między poszczególnymi parami próbek lub testów post hoc z użyciem testu Dunna, który (1) prawidłowo wykorzystuje te same rankingi, co test Kruskala-Wallisa, oraz (2) prawidłowo wykorzystuje łączną wariancję implikowaną przez wartość zerową. hipoteza testu Kruskala–Wallisa w celu określenia, które z par próbek różnią się istotnie. Podczas wykonywania wielu kontrastów lub testów na wielu próbkach częstość błędów typu I jest zawyżona, co budzi obawy dotyczące wielokrotnych porównań .

Dokładne tabele prawdopodobieństwa

Do obliczenia dokładnych prawdopodobieństw dla testu Kruskala-Wallisa wymagana jest duża ilość zasobów obliczeniowych. Istniejące oprogramowanie podaje dokładne prawdopodobieństwa tylko dla próbek o wielkości mniejszej niż około 30 uczestników. Te programy polegają na aproksymacji asymptotycznej dla większych rozmiarów próbek.

Dostępne są dokładne wartości prawdopodobieństwa dla większych próbek. Spurrier (2003) opublikował dokładne tabele prawdopodobieństwa dla próbek tak dużych jak 45 uczestników. Meyer i Seaman (2006) przedstawili dokładne rozkłady prawdopodobieństwa dla próbek tak dużych jak 105 uczestników.

Dokładny rozkład

Choi i in. dokonał przeglądu dwóch metod, które zostały opracowane w celu obliczenia dokładnego rozkładu , zaproponował nową i porównał dokładny rozkład z przybliżeniem chi-kwadrat.

Zobacz też

Bibliografia

Dalsza lektura

Zewnętrzne linki