Dwukierunkowa analiza wariancji - Two-way analysis of variance

W statystykach The dwukierunkowa analiza wariancji ( ANOVA ) jest przedłużeniem jednokierunkowej ANOVA , która bada wpływ dwóch różnych skategoryzowanych zmiennych niezależnych na jednej ciągłej zmiennej zależnej . Dwuczynnikowa ANOVA ma na celu nie tylko ocenę głównego efektu każdej zmiennej niezależnej, ale także czy istnieje między nimi jakakolwiek interakcja .

Historia

W 1925 r. Ronald Fisher wspomina o dwukierunkowej ANOVA w swojej słynnej książce „ Metody statystyczne dla pracowników naukowych” (rozdziały 7 i 8). W 1934 roku Frank Yates opublikował procedury dotyczące niezrównoważonej sprawy. Od tego czasu powstała obszerna literatura. Temat został zrecenzowany w 1993 roku przez Yasunori Fujikoshi . W 2005 roku Andrew Gelman zaproponował inne podejście ANOVA, postrzegane jako model wielopoziomowy .

Zbiór danych

Wyobraźmy sobie zbiór danych, dla którego na zmienną zależną mogą wpływać dwa czynniki będące potencjalnymi źródłami zmienności. Pierwszy czynnik ma poziomy ( ), a drugi ma poziomy ( ) . Każda kombinacja definiuje zabieg , w sumie zabiegów. Reprezentujemy liczbę kontrprób do obróbki przez i niech będzie indeksem kontrprób w tej obróbce ( ) . ${\ Displaystyle I}$ ${\ Displaystyle i \ w \ {1, \ ldots, ja \}}$ ${\ Displaystyle J}$ ${\ Displaystyle j \ w \ {1, \ ldots, J \}}$ ${\ Displaystyle (i, j)}$ ${\ Displaystyle I \ razy J}$ ${\ Displaystyle (i, j)}$ $n_{ij}$ $k$ ${\ Displaystyle k \ w \ {1, \ ldots, n_ {ij} \}}$

Z tych danych możemy zbudować tabelę kontyngencji , gdzie i , a łączna liczba powtórzeń jest równa . ${\ Displaystyle n_ {i +} = \ suma _ {j = 1} ^ {J} n_ {ij}}$ ${\ Displaystyle n_ {+ J} = \ suma _ {i = 1} ^ {I} n_ {ij}}$ ${\ Displaystyle n = \ suma _ {i, j} n_ {ij} = \ suma _ {i} n_ {i+} = \ suma _ {j} n_ {+ j}}$

Plan eksperymentu jest zrównoważony, jeśli każdy zabieg ma taką samą liczbę powtórzeń, . W takim przypadku o projekcie mówi się również, że jest ortogonalny , co pozwala w pełni rozróżnić skutki obu czynników. Możemy więc pisać , i . ${\ Displaystyle K}$ $\forall ja,j\;n_{ij}=K$ ${\ Displaystyle \ forall ja, j \; n_ {ij} = {\ Frac {n_ {i +} \ cdot n_ {+ j}} {n}}}$

Model

Po zaobserwowaniu zmienności między wszystkimi punktami danych, na przykład za pomocą histogramu , „ do opisania takiej zmienności można wykorzystać prawdopodobieństwo ”. Miejmy zatem Oznaczmy przez w zmiennej losowej , która obserwowana wartość jest -ty środek do leczenia . Te dwa ANOVA modele wszystkie te zmienne jak zmienne niezależnie i zwykle wokół średniej, ze stałej wariancji ( homoskedastyczność ): ${\ Displaystyle n}$ ${\ Displaystyle Y_ {ijk}}$ $y_{ijk}$ $k$ ${\ Displaystyle (i, j)}$ ${\ Displaystyle \ mu _ {ij}}$ ${\ Displaystyle \ sigma ^ {2}}$

${\ Displaystyle Y_ {ijk} \, | \, \ mu _ {ij}, \ sigma ^ {2} \; {\ overset {\ operatorname {iid}} {\ SIM}} \; {\ mathcal {N} }(\mu _{ij},\sigma ^{2})}$ .

W szczególności średnia zmiennej odpowiedzi jest modelowana jako liniowa kombinacja zmiennych objaśniających:

${\ Displaystyle \ mu _ {ij} = \ mu + \ alfa _ {i} + \ beta _ {j} + \ gamma _ {ij}}$ ,

gdzie jest średnią ogólną, jest addytywnym efektem głównym poziomu z pierwszego czynnika ( i -ty wiersz w tabeli kontyngencji ), jest addytywnym efektem głównym poziomu z drugiego czynnika ( j -ta kolumna w tabeli kontyngencji) oraz jest nieaddytywnym efektem interakcji leczenia z obu czynników (komórka w wierszu i i kolumnie j w tabeli kontyngencji). ${\ Displaystyle \ mu}$ ${\ Displaystyle \ alfa _ {i}}$ $i$ ${\ Displaystyle \ beta _ {j}}$ ${\ Displaystyle j}$ ${\ Displaystyle \ gamma _ {ij}}$ ${\ Displaystyle (i, j)}$

Innym równoważnym sposobem opisania dwuczynnikowej ANOVA jest wspomnienie, że oprócz zmienności wyjaśnionej przez czynniki, pozostaje pewien szum statystyczny . Ta niewyjaśniona zmienność jest obsługiwana przez wprowadzenie jednej zmiennej losowej na punkt danych , zwanej błędem . Te zmienne losowe są postrzegane jako odchylenia od średnich i zakłada się, że są niezależne i mają rozkład normalny: ${\ Displaystyle \ epsilon _ {ijk}}$ ${\ Displaystyle n}$

${\ Displaystyle Y_ {ijk} = \ mu _ {ij} + \ epsilon _ {ijk}{\ tekst {z}} \ epsilon _ {ijk}{\ overset {\ operatorname {iid} }{\ sim}}{ \mathcal {N}}(0,\sigma ^{2})}$ .

Założenia

Zgodnie z Gelmanem i Hillem, założenia ANOVA, a ogólniej ogólny model liniowy , są w porządku malejącym ważności:

punkty danych są istotne w odniesieniu do badanej kwestii naukowej;
na średnią zmiennej odpowiedzi wpływają addytywnie (jeśli nie składnik interakcji) i liniowo czynniki;
błędy są niezależne;
błędy mają tę samą wariancję;
błędy są normalnie rozłożone.

Estymacja parametrów

Aby zapewnić identyfikowalność parametrów, możemy dodać następujące ograniczenia „sumy do zera”:

${\ Displaystyle \ suma _ {i} \ alfa _ {i} = \ suma _ {j} \ beta _ {j} = \ suma _ {i} \ gamma _ {ij} = \ suma _ {j} \ gamma _{ij}=0}$

Testowanie hipotez

W podejściu klasycznym testowanie hipotez zerowych (o braku wpływu czynników) osiąga się poprzez ich istotność, co wymaga obliczenia sum kwadratów .

Testowanie, czy termin interakcji jest istotny, może być trudne ze względu na potencjalnie dużą liczbę stopni swobody .

Zobacz też

Analiza wariancji
Test F ( zawiera przykład jednokierunkowej ANOVA )
Model mieszany
Wielowymiarowa analiza wariancji (MANOVA)
Jednokierunkowa ANOVA
Powtarzane pomiary ANOVA
Test addytywności Tukeya

Uwagi

Bibliografia

George Casella (18 kwietnia 2008). Projekt statystyczny . Teksty Springera w statystyce. Springer . Numer ISBN 978-0-387-75965-4.

Languages

In other projects