Dwukierunkowa analiza wariancji - Two-way analysis of variance

W statystykach The dwukierunkowa analiza wariancji ( ANOVA ) jest przedłużeniem jednokierunkowej ANOVA , która bada wpływ dwóch różnych skategoryzowanych zmiennych niezależnych na jednej ciągłej zmiennej zależnej . Dwuczynnikowa ANOVA ma na celu nie tylko ocenę głównego efektu każdej zmiennej niezależnej, ale także czy istnieje między nimi jakakolwiek interakcja .

Historia

W 1925 r. Ronald Fisher wspomina o dwukierunkowej ANOVA w swojej słynnej książce „ Metody statystyczne dla pracowników naukowych” (rozdziały 7 i 8). W 1934 roku Frank Yates opublikował procedury dotyczące niezrównoważonej sprawy. Od tego czasu powstała obszerna literatura. Temat został zrecenzowany w 1993 roku przez Yasunori Fujikoshi . W 2005 roku Andrew Gelman zaproponował inne podejście ANOVA, postrzegane jako model wielopoziomowy .

Zbiór danych

Wyobraźmy sobie zbiór danych, dla którego na zmienną zależną mogą wpływać dwa czynniki będące potencjalnymi źródłami zmienności. Pierwszy czynnik ma poziomy ( ), a drugi ma poziomy ( ) . Każda kombinacja definiuje zabieg , w sumie zabiegów. Reprezentujemy liczbę kontrprób do obróbki przez i niech będzie indeksem kontrprób w tej obróbce ( ) .

Z tych danych możemy zbudować tabelę kontyngencji , gdzie i , a łączna liczba powtórzeń jest równa .

Plan eksperymentu jest zrównoważony, jeśli każdy zabieg ma taką samą liczbę powtórzeń, . W takim przypadku o projekcie mówi się również, że jest ortogonalny , co pozwala w pełni rozróżnić skutki obu czynników. Możemy więc pisać , i .

Model

Po zaobserwowaniu zmienności między wszystkimi punktami danych, na przykład za pomocą histogramu , „ do opisania takiej zmienności można wykorzystać prawdopodobieństwo ”. Miejmy zatem Oznaczmy przez w zmiennej losowej , która obserwowana wartość jest -ty środek do leczenia . Te dwa ANOVA modele wszystkie te zmienne jak zmienne niezależnie i zwykle wokół średniej, ze stałej wariancji ( homoskedastyczność ):

.

W szczególności średnia zmiennej odpowiedzi jest modelowana jako liniowa kombinacja zmiennych objaśniających:

,

gdzie jest średnią ogólną, jest addytywnym efektem głównym poziomu z pierwszego czynnika ( i -ty wiersz w tabeli kontyngencji ), jest addytywnym efektem głównym poziomu z drugiego czynnika ( j -ta kolumna w tabeli kontyngencji) oraz jest nieaddytywnym efektem interakcji leczenia z obu czynników (komórka w wierszu i i kolumnie j w tabeli kontyngencji).

Innym równoważnym sposobem opisania dwuczynnikowej ANOVA jest wspomnienie, że oprócz zmienności wyjaśnionej przez czynniki, pozostaje pewien szum statystyczny . Ta niewyjaśniona zmienność jest obsługiwana przez wprowadzenie jednej zmiennej losowej na punkt danych , zwanej błędem . Te zmienne losowe są postrzegane jako odchylenia od średnich i zakłada się, że są niezależne i mają rozkład normalny:

.

Założenia

Zgodnie z Gelmanem i Hillem, założenia ANOVA, a ogólniej ogólny model liniowy , są w porządku malejącym ważności:

  1. punkty danych są istotne w odniesieniu do badanej kwestii naukowej;
  2. na średnią zmiennej odpowiedzi wpływają addytywnie (jeśli nie składnik interakcji) i liniowo czynniki;
  3. błędy są niezależne;
  4. błędy mają tę samą wariancję;
  5. błędy są normalnie rozłożone.

Estymacja parametrów

Aby zapewnić identyfikowalność parametrów, możemy dodać następujące ograniczenia „sumy do zera”:

Testowanie hipotez

W podejściu klasycznym testowanie hipotez zerowych (o braku wpływu czynników) osiąga się poprzez ich istotność, co wymaga obliczenia sum kwadratów .

Testowanie, czy termin interakcji jest istotny, może być trudne ze względu na potencjalnie dużą liczbę stopni swobody .

Zobacz też

Uwagi

Bibliografia