Dwukierunkowa analiza wariancji - Two-way analysis of variance
W statystykach The dwukierunkowa analiza wariancji ( ANOVA ) jest przedłużeniem jednokierunkowej ANOVA , która bada wpływ dwóch różnych skategoryzowanych zmiennych niezależnych na jednej ciągłej zmiennej zależnej . Dwuczynnikowa ANOVA ma na celu nie tylko ocenę głównego efektu każdej zmiennej niezależnej, ale także czy istnieje między nimi jakakolwiek interakcja .
Historia
W 1925 r. Ronald Fisher wspomina o dwukierunkowej ANOVA w swojej słynnej książce „ Metody statystyczne dla pracowników naukowych” (rozdziały 7 i 8). W 1934 roku Frank Yates opublikował procedury dotyczące niezrównoważonej sprawy. Od tego czasu powstała obszerna literatura. Temat został zrecenzowany w 1993 roku przez Yasunori Fujikoshi . W 2005 roku Andrew Gelman zaproponował inne podejście ANOVA, postrzegane jako model wielopoziomowy .
Zbiór danych
Wyobraźmy sobie zbiór danych, dla którego na zmienną zależną mogą wpływać dwa czynniki będące potencjalnymi źródłami zmienności. Pierwszy czynnik ma poziomy ( ), a drugi ma poziomy ( ) . Każda kombinacja definiuje zabieg , w sumie zabiegów. Reprezentujemy liczbę kontrprób do obróbki przez i niech będzie indeksem kontrprób w tej obróbce ( ) .
Z tych danych możemy zbudować tabelę kontyngencji , gdzie i , a łączna liczba powtórzeń jest równa .
Plan eksperymentu jest zrównoważony, jeśli każdy zabieg ma taką samą liczbę powtórzeń, . W takim przypadku o projekcie mówi się również, że jest ortogonalny , co pozwala w pełni rozróżnić skutki obu czynników. Możemy więc pisać , i .
Model
Po zaobserwowaniu zmienności między wszystkimi punktami danych, na przykład za pomocą histogramu , „ do opisania takiej zmienności można wykorzystać prawdopodobieństwo ”. Miejmy zatem Oznaczmy przez w zmiennej losowej , która obserwowana wartość jest -ty środek do leczenia . Te dwa ANOVA modele wszystkie te zmienne jak zmienne niezależnie i zwykle wokół średniej, ze stałej wariancji ( homoskedastyczność ):
.
W szczególności średnia zmiennej odpowiedzi jest modelowana jako liniowa kombinacja zmiennych objaśniających:
,
gdzie jest średnią ogólną, jest addytywnym efektem głównym poziomu z pierwszego czynnika ( i -ty wiersz w tabeli kontyngencji ), jest addytywnym efektem głównym poziomu z drugiego czynnika ( j -ta kolumna w tabeli kontyngencji) oraz jest nieaddytywnym efektem interakcji leczenia z obu czynników (komórka w wierszu i i kolumnie j w tabeli kontyngencji).
Innym równoważnym sposobem opisania dwuczynnikowej ANOVA jest wspomnienie, że oprócz zmienności wyjaśnionej przez czynniki, pozostaje pewien szum statystyczny . Ta niewyjaśniona zmienność jest obsługiwana przez wprowadzenie jednej zmiennej losowej na punkt danych , zwanej błędem . Te zmienne losowe są postrzegane jako odchylenia od średnich i zakłada się, że są niezależne i mają rozkład normalny:
.
Założenia
Zgodnie z Gelmanem i Hillem, założenia ANOVA, a ogólniej ogólny model liniowy , są w porządku malejącym ważności:
- punkty danych są istotne w odniesieniu do badanej kwestii naukowej;
- na średnią zmiennej odpowiedzi wpływają addytywnie (jeśli nie składnik interakcji) i liniowo czynniki;
- błędy są niezależne;
- błędy mają tę samą wariancję;
- błędy są normalnie rozłożone.
Estymacja parametrów
Aby zapewnić identyfikowalność parametrów, możemy dodać następujące ograniczenia „sumy do zera”:
Testowanie hipotez
W podejściu klasycznym testowanie hipotez zerowych (o braku wpływu czynników) osiąga się poprzez ich istotność, co wymaga obliczenia sum kwadratów .
Testowanie, czy termin interakcji jest istotny, może być trudne ze względu na potencjalnie dużą liczbę stopni swobody .
Zobacz też
- Analiza wariancji
- Test F ( zawiera przykład jednokierunkowej ANOVA )
- Model mieszany
- Wielowymiarowa analiza wariancji (MANOVA)
- Jednokierunkowa ANOVA
- Powtarzane pomiary ANOVA
- Test addytywności Tukeya
Uwagi
Bibliografia
- George Casella (18 kwietnia 2008). Projekt statystyczny . Teksty Springera w statystyce. Springer . Numer ISBN 978-0-387-75965-4.