Analiza wariancji - Analysis of variance


Z Wikipedii, wolnej encyklopedii

Analiza wariancji ( ANOVA ) jest zbiorem modeli statystycznych i związanych z nimi procedur estymacji (takich jak „zmienności” wśród i między grupami) użyte do analizy różnic między grupą oznacza w próbce . ANOVA został opracowany przez statystyk i ewolucyjny biolog Ronald Fisher . W warunkach analizy wariancji ANOVA, obserwowana zmienność w szczególności o zmiennej rozdziela się na składniki, które można przypisać do różnych źródeł zmienności. W swojej najprostszej postaci, ANOVA dostarcza testu statystycznego , czy populacja oznacza kilku grup są równe, a zatem uogólnia t -test na więcej niż dwie grupy. ANOVA jest przydatna do porównywania (testowanie) trzy lub więcej grupy oznacza dla istotności statystycznej . Jest to podobne koncepcyjnie do wielu dwu-t w testach , ale jest bardziej konserwatywne, co skutkuje mniejszą typu I błędów , a więc nadaje się do szerokiego zakresu problemów praktycznych.

Historia

Natomiast analiza wariancji została zrealizowana w 20 wieku, poprzednicy przedłużyć wieków w przeszłość według Stigler. Są to testowanie hipotez podziałów sumy kwadratów, technik eksperymentalnych i model dodatku. Laplace został przeprowadzania testu hipotezy w 1770. Opracowanie metody najmniejszych kwadratów przez Laplace'a i Gaussa ok 1800 ulepszony sposób łączenia obserwacji (na istniejących rozwiązań, a następnie stosowane w astronomii i geodezji). To zainicjowany również wiele badań składek do sumy kwadratów. Laplace umiał oszacować wariancję z resztkową (zamiast całkowitej sumy kwadratów). Przez 1827 Laplace był przy najmniejszych kwadratów metod do rozwiązywania problemów dotyczących pomiarów ANOVA pływów atmosferycznych. Przed 1800 astronomowie pojedyncze błędy wynikające z obserwacji od czasu reakcji (dalej „ osobistych równanie ”) i że opracowano metody redukcji błędów. Metody doświadczalne stosowane w badaniu osobistym równania później zostały zaakceptowane przez powstającej dziedzinie psychologii, który rozwinął się silny (pełny silnia) metod eksperymentalnych, do których randomizacji i ślepych zostały dodane wkrótce. Wymownym non-matematyczne wyjaśnienie modelu efektów dodatek był dostępny w 1885 roku.

Ronald Fisher wprowadził termin wariancji i zaproponował jej formalnej analizy w 1918 roku artykułu korelacja między krewnymi na przypuszczenie o Prawa Mendla . Jego pierwsze zastosowanie analizy wariancji została opublikowana w 1921 roku Analiza wariancji stał się powszechnie znany po włączone Fishera 1925 książce metod statystycznych do badań pracowników .

Modele randomizacji zostały opracowane przez kilku badaczy. Pierwszy został opublikowany w języku polskim przez Jerzy Neyman w 1923 roku.

Jednym z atrybutów ANOVA które zapewniły jej wczesne popularność była obliczeniowa elegancja. Konstrukcja modelu dodatku umożliwia rozwiązania dla współczynników dodatkowych przez proste Algebra niż w obliczeniach macierzowych. W dobie kalkulatorów mechanicznych ta prostota była krytyczna. Określenie istotności statystycznej wymagane także dostęp do tabel funkcji F, które zostały dostarczone przez wczesnych tekstach statystycznych.

motywowanie przykład

Nie pasuje.
Fair dopasowanie
Bardzo dobre dopasowanie

Analiza wariancji może być używany jako narzędzie rozpoznawczej wyjaśnienia uwag. Pies pokazują stanowi przykład. Pies pokaz nie jest próbkowanie losowe rasy: jest to zwykle ograniczone do psów, które są dla dorosłych, czystej krwi, a wzorowa. Histogram wag psów z występu może wiarygodnie być dość skomplikowane, tak jak rozkład żółtopomarańczowej przedstawionym na rysunku. Załóżmy, że chcemy przewidzieć wagę psa w oparciu o pewien zestaw cech każdego psa. Jednym ze sposobów na to jest do wyjaśnienia rozkładu ciężarów poprzez podzielenie populacji psów na grupy na podstawie tych cech. Powodzenie grupowanie podzielone psy takie, że (a) każda grupa ma niską zmienność wag psa (co oznacza, że grupa jest stosunkowo jednorodny) i (B) średnią każdej grupy jest odrębny (jeśli obie grupy mają tę samą średnią, następnie nie jest uzasadnione, aby stwierdzić, że grupy są w rzeczywistości oddzielić w żaden znaczący sposób).

Na rysunkach w prawo grupy są określone jako X 1 , X 2 , itp pierwszego przykładu, psy są podzielone w zależności od produktu (interakcji) z dwóch grup: binarnych młodych vs stary i włosach krótkiej długości vs -haired (np, grupa 1 jest młody, psy krótkowłose, grupa 2 jest młody, długowłosy psy, etc.). Od rozkładów masy psa w każdej z grup (pokazane na niebiesko) ma stosunkowo dużą zmienność, a ponieważ środki są bardzo podobne we wszystkich grupach, grupowanie psy tych cech nie wytwarza skuteczny sposób, aby wyjaśnić różnice w masach psów wiedząc, która grupa jest pies nie pozwala nam przewidzieć jego ciężar znacznie lepsze niż po prostu znając psa jest w wystawie. Tak więc, ta grupa nie wyjaśnia zmienność w ogólnej dystrybucji (żółto-pomarańczowy).

Próba wyjaśnienia rozkład masy poprzez grupowanie psy jak zwierzę vs rasy pracy i mniej atletyczny vs bardziej sportowiec będzie prawdopodobnie nieco bardziej udane (targi fit). Najcięższe pokaż psy mogą być duże silnych ras pracy, podczas gdy rasy trzymane jako zwierzęta domowe wydają się być mniejsze, a więc lżejsze. Jak pokazano w drugim ilustracji Rozkłady odchylenia, które są znacznie mniejsze niż w pierwszym przypadku, a środki są rozpoznawalne. Jednakże znaczące nachodzenie rozkładu, na przykład, oznacza, że nie można odróżnić X 1 i X 2 niezawodnie. Grupowanie psy zgodnie z monetą może produkować dystrybucje, które wyglądają podobnie.

Próba wyjaśnienia wagę rasy może produkować bardzo dobre dopasowanie. Wszystkie Chihuahua są lekkie i wszystkie bernardyny są ciężkie. Różnica między ciężarami seterów i wskaźniki nie uzasadnia odrębnych ras. Analiza wariancji zapewnia formalnych narzędzi do uzasadnienia tych intuicyjnych sądów. Typowym zastosowaniem metody jest analiza danych doświadczalnych lub opracowanie modeli. Metoda ma kilka zalet w porównaniu z korelacją: nie wszystkie dane muszą być numeryczne i jeden wynik tej metody jest orzeczenie w ufności w stosunku objaśniające.

Tło i terminologia

ANOVA formą testowanie hipotez statystycznych często używane do analizy danych doświadczalnych. Wynik testu (liczony od hipotezy zerowej i próbki) nazywany jest statystycznie istotna, jeśli uzna to za mało prawdopodobne, aby doszło przez przypadek, przy założeniu prawdziwości hipotezy zerowej . Statystycznie znaczący wynik, gdy prawdopodobieństwo ( p-value ) jest mniejszy niż wstępnie określony próg (poziom istotności), uzasadnia odrzucenie hipotezy zerowej , ale tylko wtedy, gdy a priori prawdopodobieństwo hipotezy zerowej nie jest wysoka.

W typowym zastosowaniu ANOVA, hipoteza zerowa jest to, że wszystkie grupy są losowe próbki z tej samej populacji. Na przykład, badając wpływ różnych zabiegów na podobnych próbek pacjentów, hipoteza zerowa jest to, że wszystkie zabiegi mają ten sam efekt (być może brak). Odrzucenia hipotezy zerowej, rozumie się, że różnice w obserwowanych efektów obu grupach jest mało prawdopodobne ze względu na przypadek.

Przez budowę, testowanie hipotez ogranicza stopę błędów wpisuję (fałszywie dodatnie) do poziomu istotności. Eksperymentatorzy chcą również ograniczyć typ II błędów (fałszywie ujemnych). Stopa typu II błędów zależy w dużej mierze od wielkości próbki (stawka jest większa dla mniejszych próbek), poziom istotności (gdy średnia dowodu jest wysoki, szanse widokiem odkrycia są również wysokie) i wielkości efektu (mniejszej wielkości efektu jest bardziej podatna na błąd typu II).

Terminologia ANOVA jest w dużej mierze od statystycznej projektowaniu eksperymentów . Eksperymentator dostosowuje czynniki i środki odpowiedzi w próbie określenia efektu. Czynniki są przypisane do jednostek eksperymentalnych za pomocą kombinacji randomizacji i blokuje do zapewnienia ważności wyników. Oślepienie utrzymuje ważenia bezstronny. Odpowiedzi pokazują zmienność, która jest częściowo wynikiem efektu jest częściowo przypadkowy błąd.

ANOVA jest syntezą kilku pomysłów i jest ona wykorzystywana do wielu celów. W konsekwencji trudno jest zwięźle określić czy precyzyjnie.

„Klasyczny” ANOVA dla zrównoważonego danych robi trzy rzeczy na raz:

  1. Ponieważ analiza danych , ANOVA stosuje się rozkład danych dodatków i ich sumy kwadratów wskazują odchylenie każdego składnika rozkładu (lub, równoważnie, każdy zestaw warunków liniowego modelu).
  2. Porównanie średnich kwadratów, wraz z F -test  ... umożliwiają testowanie zagnieżdżonej sekwencji modeli.
  3. Ściśle związane z ANOVA jest liniowy model pasuje szacunków współczynników i błędów standardowych.

W skrócie, ANOVA to narzędzie statystyczne wykorzystywane na kilka sposobów, aby opracować i zatwierdzić wyjaśnienie zaobserwowanych danych.

Do tego:

  1. Jest to elegancki i obliczeniowo stosunkowo odporne na łamanie swoich założeniach.
  2. ANOVA zapewnia silny (wielokrotne porównania próbki) analizę statystyczną.
  3. Został on przystosowany do analizy różnych wzorów doświadczalnych.

W rezultacie: ANOVA „od dawna cieszył status bycia najczęściej używane (niektórzy powiedzieliby nadużywany) technika statystyczna w badaniach psychologicznych.” ANOVA „jest chyba najbardziej przydatna technika w zakresie wnioskowania statystycznego.”

ANOVA trudno jest uczyć, szczególnie w przypadku skomplikowanych eksperymentach z split-plot wzorów jest znany. W niektórych przypadkach właściwe stosowanie metody najlepiej określa problemu rozpoznawania obrazów, a następnie konsultacji z klasycznym teście autorytatywny.

Design-of-eksperymentów terminy

(Skrócone z „NIST Statistics Inżynieria Handbook”. Sekcja 5.7 Słowniczek terminologii DOE).

wyważona konstrukcja
Eksperymentalny projekt, gdzie wszystkie komórki (tj kombinacje leczenia) mają tę samą liczbę obserwacji.
Bloking
Harmonogram do prowadzenia terapii skojarzonej w badaniach eksperymentalnych tak, aby jakiekolwiek działania na podstawie wyników eksperymentalnych ze względu na znaną zmianę materiałów, operatorów maszyn, itd zatęża się w poziomie zmiennej blokujących. Powodem blokady jest izolowanie systematyczne działanie i zapobiec jego zasłaniając główne efekty. Blokowanie osiąga się przez ograniczenie randomizacją.
Projekt
Zestaw przebiegów doświadczalnych, które umożliwia dopasowanie do konkretnego modelu i oszacowanie efektów.
ŁANIA
Projekt eksperymentów. Podejście do rozwiązywania problemów obejmujących gromadzenie danych, która będzie wspierać ważne, obronić, i mających oparcie wniosków.
Efekt
Jak zmiany ustawień czynnik zmienia odpowiedź. Efektem jednego czynnika nazywany jest również główny efekt.
Błąd
Niewyjaśnione różnice w zbiorze obserwacji. Doe zazwyczaj wymagają zrozumienia zarówno błędu losowego i brak dopasowania błędu.
eksperymentalnym
Podmiot, który zastosowano szczególne połączenie leczenia.
czynniki
Wejścia procesu że badacz manipuluje powoduje zmianę sygnału na wyjściu.
Lack of fit błąd
Błąd, który pojawia się, gdy analiza pomija jeden lub więcej ważne terminy lub czynniki z modelu procesowego. W tym replikację w DOE umożliwia oddzielenie błędu doświadczalnego na składniki: brak dopasowania losowym (czysty) błędu.
Model
zależność matematyczna dotyczy zmian w danym przypadku zmiany jednego albo większej liczby czynników.
Błąd losowy
Błąd, który występuje z powodu naturalnej zmienności procesu. Błąd przypadkowy jest zazwyczaj zakłada się rozkład normalny o zerowej średniej i stałej wariancji. Błąd przypadkowy jest również nazywany błąd doświadczalny.
randomizacji
Harmonogram przydziału materiał do prowadzenia terapii i zabiegów w kombinacji DOE taki, że warunki w jednym biegu nie zależą od warunków w poprzednim okresie ani przewidzieć warunków w kolejnych seriach.
replikacja
Wykonywanie ta sama kombinacja leczenie więcej niż jeden raz. W tym replikacji umożliwia oszacowanie błędu losowego niezależnego od jakiegokolwiek braku dopasowania błędu.
Odpowiedzi
Wyjście (I) procesu. Czasami nazywany zmienna (e) zależny.
Leczenie
Zabieg jest określona kombinacja poziomów czynników, których działanie ma być w porównaniu z innymi metodami leczenia.

tabela ANOVA

Jednokierunkowa ANOVA
źródła df SS MSS F -ratio
W latach leczenia K-1 SST MST (SST / (k-1)) MST / MSE
Błąd N-k SSE MSE (SSE / (N-K))
Całkowity N-1
  • SSE - Sum-of-Square z powodu błędu
  • SST - Sum-of-placu Traktowania
  • MST - Mean Sum-of-kwadratowy Traktowania
  • MSE - Mean Sum-of-błąd kwadratowy
  • df - stopnie swobody
Dwukierunkowa ANOVA
Źródło df SS MSS F -ratio
W latach leczenia K-1 SSR MST (SSR / (k-1)) MST / MSE ( F -ratio wiersz)
między blokiem H-1 SSC MSV (SSC / (h-1)) MSV / MSE ( F kolumna -ratio)
Błąd (H-1), (K-1) SSE MSE (SSE / ((H-1) (k-1)))
Całkowity N-1
  • SSR - Sum-of-placu leczenia w rzędach (SST)
  • SSC - Sum-of-placu pomiędzy kolumną
  • MSV - Mean Suma wariancji

Klasy modeli

Istnieją trzy klasy modeli stosowanych w analizie wariancji, a te są opisane tutaj.

Modele Stałe-efekty

Model trwałe efekty (klasa I) analizy wariancji odnosi się do sytuacji, w której eksperymentator stosuje się jeden lub więcej zabiegów z tematyką eksperymentu, aby zobaczyć, czy zmienną odpowiedzi wartości zmieniają. Pozwala to eksperymentator oszacować zakresy wartości zmiennych odpowiedzi, że leczenie będzie generować w populacji jako całości.

Modele random-effects

Model efektów losowych (klasa II) jest stosowany, gdy zabiegi nie są stałe. Dzieje się tak, gdy różne poziomy czynnika są próbkowane z większej populacji. Ponieważ same poziomy są zmiennymi losowymi , przypuszczenia i sposób kontrastujący zabiegi (A wielozmiennego uogólnienia prostych różnice) różni się od modelu efektów stałych.

Modele mieszane efekty

Model mieszanych efektów (klasa III) zawiera czynników doświadczalnych zarówno stałych i losowych efektów typu, o odpowiednio różnych interpretacji i analizy dla obydwu typów.

Przykład: eksperymenty dydaktyczne mogą być wykonywane przez dział lub kolegium uniwersyteckiego znaleźć dobrego podręcznika wprowadzającego, przy czym każdy tekst uważany za leczenie. Model trwałe efekty byłoby porównać listę tekstów kandydujących. Model efektów losowych byłoby określić, czy istnieją istotne różnice między listą losowo wybranych tekstów. Model mieszanych efektów byłoby porównać teksty (stałe) spoczywających na losowo wybranych alternatyw.

Definiowanie stałych i efektów losowych okazało nieuchwytny, z konkurujących definicje niewątpliwie wiodącą ku tarapatów językowej.

założenia

Analiza wariancji badano z kilku podejść, z których najczęściej korzysta z modelu liniowego , który odnosi się do odpowiedzi na leczenie i bloków. Należy zauważyć, że model jest liniowy w parametrach, ale może być nieliniowa całej poziomów czynników. Interpretacja jest prosta, gdy dane są zrównoważone całej czynników, ale znacznie głębsze zrozumienie jest konieczne dla danych niezrównoważonych.

Analiza podręcznik pomocą rozkładu normalnego

Analiza wariancji mogą być przedstawione w odniesieniu do modelu liniowego , co sprawia, że następujące założenia co do rozkładu prawdopodobieństwa z odpowiedzi:

Odrębne założenia modelu podręcznikową oznacza, że błędy są niezależnie, identycznie, a rozkład normalny dla modeli trwałych efektów, to znaczy, że błędy ( ) są niezależne i

Analiza randomizacji opartej

W randomizowanym, kontrolowanym eksperymencie , zabiegi są losowo przypisane do jednostek doświadczalnych, zgodnie z protokołem eksperymentalnym. Ten randomizacji obiektywne i zadeklarowane przed eksperyment jest przeprowadzany. Celem losowego przydziału służy do testowania istotności hipotezy zerowej, zgodnie z ideami CS Peirce i Ronald Fisher . Analiza ta konstrukcja oparte zostało omówione i opracowane przez Francisa J. Anscombe na stacji Rothamsted Doświadczalnej i Oscar Kempthorne na Iowa State University . Kempthorne i jego uczniowie zrobić założenie addytywności leczenia jednostka , która jest omawiana w książkach Kempthorne i David R. Cox .

Jednostka traktowanie addytywności

W najprostszej formie, założenie jednostka obróbki addytywności stwierdza, że obserwowana odpowiedź z jednostki doświadczalnej gdy leczony może być zapisana jako suma odpowiedzi urządzenia i efektu leczenia , to znaczy

Założeniem jednostka obróbki addytywności wynika, że dla każdego leczenia , th leczenie ma dokładnie ten sam efekt na każdym urządzeniu eksperymentu.

Założeniem leczenia jednostka addytywności zwykle nie mogą być bezpośrednio sfałszowane według Cox i Kempthorne. Jednak wiele konsekwencje z leczeniem jednostkowej addytywności mogą być sfałszowane. Dla randomizowanych eksperymencie założeniu addytywności jednostki obróbki oznacza, że wariancja jest stała dla wszystkich terapii. Dlatego też, kontrapozycji koniecznym warunkiem dla jednostki obróbki addytywności, że wariancja jest stała.

Zastosowanie addytywności leczenia jednostka randomizacji i jest podobny do wnioskowania opartego na konstrukcji, która jest standardem w skończonej populacji próbek ankietowych .

Pochodzące model liniowy

Kempthorne wykorzystuje randomizacji rozprowadzającej, a pokrycie leczenia jednostka addytywności do wytworzenia pochodnej model liniowy , bardzo podobny do modelu omówionego wcześniej podręcznikach. Statystyka badań tego uzyskanego modelu liniowego jest ściśle przybliżona przez statystyk testowych odpowiednim normalnym modelu liniowego według twierdzenia aproksymacji i badań symulacji. Jednakże istnieją różnice. Na przykład, randomizacji oparte wyniki analizy przy małej, ale (bezwzględnie) negatywna korelacja między obserwacjami. W analizie opartej randomizacji, nie ma żadnego założenie o normalnym rozkładzie i na pewno nie założenie o niezależności . Wręcz przeciwnie, obserwacje są zależne !

Analiza randomizacji bazie wody ma tę wadę, że jego ekspozycji obejmuje żmudny algebraiczne i czasochłonną. Ponieważ analiza randomizacji oparte jest skomplikowany i jest ściśle przybliżona przez podejścia używając normalnego modelu liniowego, większość nauczycieli podkreślają normalne podejście modelu liniowego. Kilka statystycy analizie object modelowych symetrycznych randomizowanych badań.

Modele statystyczne dla danych obserwacyjnych

Jednakże, gdy stosuje się do danych z nierandomizowanych eksperymentów lub badaniach obserwacyjnych , analiza w oparciu o model brakuje nakaz randomizacją. Dla danych obserwacyjnych, wyprowadzenie przedziałów ufności musi używać subiektywne modele, jak podkreślił Ronald Fisher i jego zwolenników. W praktyce szacunki efektów leczenia z badań obserwacyjnych na ogół są często niespójne. W praktyce „modele statystyczne” i dane obserwacyjne są użyteczne dla hipotez sugeruje, że powinny być traktowane bardzo ostrożnie przez publiczność.

Streszczenie założeń

Normalne model podstawie analizy ANOVA zakłada niezależność normalność i jednorodność wariancji reszt. Analiza randomizacji oparte zakłada tylko jednorodność wariancji pozostałości (w konsekwencji jednostka obróbki addytywności) i wykorzystuje procedury randomizacji eksperymentu. Obie te analizy wymagają homoskedastyczność , jako założenie dla analizy normalnego modelu iw konsekwencji randomizacji i addytywności do analizy opartej randomizacji.

Jednak badania procesów, które zmieniają wariancji zamiast środki (zwane efekty dyspersyjne) zostały z powodzeniem przeprowadzone z wykorzystaniem ANOVA. Istnieją żadne niezbędne założenia do ANOVA w pełnej ogólności, ale F -test wykorzystywane do testowania hipotez i założeń ANOVA ma praktyczne ograniczenia, które są kontynuowania zainteresowanie.

Problemy, które nie spełniają założeń ANOVA często mogą być przekształcone w celu spełnienia założeń. Własnością jednostki obróbki addytywności nie jest niezmienny w ramach „zmiany skali”, tak statystycy często korzystają z przekształceń w celu osiągnięcia jednostkowych leczenia addytywności. Jeżeli można spodziewać się, że różnice w odpowiedzi na śledzić parametryczne rodziny rozkładów prawdopodobieństwa, to może określić statystyk (w protokołem eksperymentu lub obserwacyjnym badaniu), że reakcja jest przekształcony do stabilizowania wariancji. Również statystyka może określić, że logarytmiczne przekształca się w odniesieniu do odpowiedzi, które uważa się przestrzegać multiplikatywne model. Według Cauchy'ego funkcjonalnej równania twierdzenia The logarytm jest tylko ciągła transformacja, która przemienia prawdziwy mnożenie dodawaniem.

Charakterystyka

ANOVA jest używany w analizie badań porównawczych, w których tylko różnica w wynikach jest interesujące. Istotność statystyczna eksperymentu jest określana przez stosunek dwóch wariancji. Stosunek ten jest niezależny od kilku możliwych zmian do obserwacji doświadczalnych: dodanie stałej do wszystkich obserwacji nie zmienia znaczenie. Mnożąc wszystkie obserwacje przez stałą nie zmienia znaczenie. Więc ANOVA statystyczny wynik znaczenie jest niezależne od stałych stronniczości i skalowanie błędów, jak również jednostek stosowanych w wyrażaniu uwag. W dobie obliczeń mechanicznych było wspólne odjąć stałą ze wszystkich obserwacji (gdy odpowiednik spada prowadzących cyfr) w celu uproszczenia wprowadzania danych. Jest to przykład danych kodowania .

Logika

Obliczenia ANOVA można scharakteryzować jak obliczanie liczby środków i wariancji, dzieląc dwa odchylenia i porównanie stosunku do wartości podręcznika do określenia istotności statystycznej. Obliczanie efekt leczenia jest wówczas trywialne, „efektem jakiegokolwiek leczenia szacuje się poprzez różnicę między średnią z obserwacjami, które otrzymują leczenie i ogólną średnią”.

Podział sumy kwadratów

ANOVA wykorzystuje tradycyjną standardową terminologię. Definicyjne równanie wariancji próbki jest , gdzie dzielnik jest nazywany stopnie swobody (DF), podsumowanie jest nazywany suma kwadratów (SS), wynik nazywany jest średni kwadratowy (MS) i kwadratu terminy są odchylenia od próbka myśli. ANOVA szacuje 3 przykładowe wariancji: a całkowitej wariancji na podstawie wszystkich odchyleń obserwacji od Grand średniej, wariancji błędu w oparciu o wszystkich odchyleń obserwacji od ich odpowiednich środków leczniczych i wariancji leczenie. Zabieg wariancji jest oparta na odchyleniach traktowania oznacza z wielkim średniej, wynik jest mnożony przez liczbę obserwacji w każdej terapii w celu uwzględnienia różnicy między wariancją obserwacji i wariancji środków.

Podstawowym technika jest podział całkowitej sumy kwadratów SS do elementów związanych z efektów stosowanych w modelu. Na przykład, wzór uproszczonego ANOVA z jednego rodzaju obróbki na różnych poziomach.

Liczba stopni swobody DF może być podzielony w podobny sposób: jeden z tych składników (czyli błędu) określa rozkład chi-kwadrat , który opisuje skojarzony sumę kwadratów, natomiast samo odnosi się do „leczenia”, jeżeli istnieje brak efektu leczenia.

Zobacz także Lack-of-fit sumę kwadratów .

F -test

F -test służy do porównywania czynników całkowitego odchylenia. Na przykład, w jedną stronę, lub pojedynczy czynnik ANOVA, istotność statystyczna jest testowany przez porównanie statystyka testowa F

gdzie MS jest średni kwadratowy = liczba zabiegów i = liczba przypadków

do F -Dystrybucja z , stopniami swobody. Korzystanie z F -Dystrybucja jest naturalnym kandydatem, ponieważ statystyka badania jest stosunkiem dwóch skalowanych sum kwadratów, z których każdy następuje skalowany rozkład chi-kwadrat .

Oczekiwana wartość F jest (gdzie n jest leczenie wielkość próbki), który jest 1 bez efektu leczenia. Jako wartości wzrostu F powyżej 1, wskazuje na to, w coraz większym stopniu niezgodne z hipotezą zerową. Dwa widoczne Metody eksperymentalne zwiększenia F wzrasta od wielkości próbki i zmniejszenia wariancji błędu przy ścisłej kontroli doświadczalnych.

Istnieją dwa sposoby zawierania testowania hipotezy ANOVA, z których oba produkują ten sam wynik:

  • Metoda podręcznik jest porównanie obserwowanej wartości F o wartości krytycznej F ustalonej z tabel. Krytyczna wartość F jest funkcją stopnia swobody w liczniku i mianowniku i poziom istotności (a). Jeżeli F ≥ F Krytyczna , hipoteza zerowa jest odrzucana.
  • Sposób komputer oblicza prawdopodobieństwo (wartość p) o wartości F jest większa lub równa wartości obserwowanej. Hipoteza zerowa jest odrzucana, gdy to prawdopodobieństwo jest mniejsze niż lub równe z poziomem istotności (a).

ANOVA F -test znany jest niemal optymalny w sensie minimalizacji błędów fałszywie ujemnych na stałej stopie błędów fałszywie dodatnich (czyli maksymalizacji mocy na stałym poziomie istotności). Na przykład, aby przetestować hipotezę, że różne zabiegi medyczne mają dokładnie taki sam skutek, F -test „s p -values ściśle zbliżenie testu permutacji ” s wartości p : Przybliżenie jest szczególnie bliski, gdy projekt jest zrównoważony. Takie testy permutacji scharakteryzować testy z maksymalną mocą od wszystkich alternatywnych hipotez , obserwowany Rosenbaum. ANOVA F -test (od zerowej-hipotezy, że wszystkie zabiegi mają dokładnie ten sam efekt) jest zalecana jako egzaminu praktycznego, z powodu jego odporności przeciwko wielu alternatywnych rozkładów.

Rozszerzone logika

ANOVA składa się z oddzielnych części; Źródła podziału wariancji i testowania hipotez może być używane indywidualnie. ANOVA służy do wsparcia innych narzędzi statystycznych. Regresja jest użyty po raz pierwszy, aby dopasować bardziej złożone modele danych, a następnie ANOVA stosuje się do porównywania modeli z celem wybierając proste (R) modele, które odpowiednio opisują dane. „Takie modele mogą być w formie bez jakiegokolwiek odniesienia do analizy wariancji, ale narzędzia ANOVA mogą być następnie wykorzystane, aby trochę poczucie dopasowanych modeli, oraz do testowania hipotezy o partiach współczynników.” „[W] e myśleć o analizie wariancji jako sposób rozumienia i nadawania struktury wielopoziomowych modeli, a nie jako alternatywa dla regresji, ale jako narzędzie do podsumowania złożonych wniosków wysokich-wymiarowej ...”

Dla jednego czynnika

Najprostszym eksperyment odpowiednie do analizy ANOVA całkowicie randomizowane badanie z pojedynczym czynnikiem. Bardziej skomplikowane eksperymenty z jednego czynnika obejmować ograniczenia dotyczące randomizacji i to całkowicie losowych bloków i kwadrat łaciński (i warianty: grecko-kwadrat łaciński, etc.). Bardziej złożone eksperymenty mają wiele zawiłości wielu czynników. Stosunkowo pełne omówienie analizy (modeli, podsumowania danych tabeli, ANOVA) z całkowicie randomizowanych eksperymentu jest dostępny .

Dla wielu czynników

ANOVA uogólnia się do badania wpływu różnych czynników. Gdy eksperyment obejmuje obserwacje na wszystkich kombinacji poziomów poszczególnych czynników, jest określany jako silni . Czynnikowe eksperymenty są bardziej wydajne niż serii eksperymentów pojedynczy czynnik a wydajność rośnie wraz z liczbą czynników wzrostu. W konsekwencji czynnikowe są intensywnie używane.

Zastosowanie analizy wariancji do badania wpływu wielu czynników ma komplikacji. W 3-ANOVA czynniki X, Y i Z, model ANOVA zawiera handlowe główne efekty (x, y, z) i warunki oddziaływania (XY, XZ, YZ XYZ). Wszystkie terminy wymagają testów hipotezy. Rozprzestrzenianie względem interakcji zwiększa ryzyko, że niektóre testy hipoteza będzie produkować fałszywie dodatni przez przypadek. Na szczęście, doświadczenie mówi, że wysokie interakcji rzędu są rzadkie. Zdolność do wykrywania interakcji jest główną zaletą samodzielnego czynnika ANOVA. Testowanie jeden czynnik naraz ukrywa interakcje, ale produkuje pozornie niespójnych wyników eksperymentalnych.

Zaleca się ostrożność podczas napotkania interakcje; Warunki interakcji Test pierwszy i rozszerzyć poza analizę ANOVA jeśli występują interakcje. Teksty różnią się ich zaleceń dotyczących dalszego postępowania ANOVA po napotkaniu interakcję. Interakcje skomplikować interpretację danych doświadczalnych. Ani obliczenia istotności ani szacowane efekty leczenia mogą być brane za dobrą monetę. „Znaczna interakcja często maskują znaczenie głównych efektów.” Metody graficzne są zalecane w celu zwiększenia zrozumienia. Regresja jest często użyteczne. Długiej dyskusji interakcji jest dostępny w Cox (1958). Pewne interakcje mogą być usunięte (poprzez przemian), a inne nie.

Różnorodność technik są stosowane z wielu czynników ANOVA w celu zmniejszenia kosztów. Jedną z metod stosowana w czynnikowej konstrukcji jest zminimalizowanie replikacji (ewentualnie nie replikacji przy wsparciu oszustwa analitycznej ) i połączyć grup, gdy występują efekty statystycznie (lub praktycznie) nieistotne. Eksperyment z wielu nieistotnych czynników może zapaść w jednym z kilku czynników obsługiwanych przez wielu powtórzeniach.

Opracowane przykłady liczbowe

Kilka pełni przepracowanych przykłady liczbowe są dostępne. Prostym przypadku wykorzystuje jednokierunkowe (pojedynczy) współczynnik analizy. Bardziej skomplikowany wykorzystuje dwukierunkowej analizy (dwuskładnikowe).

analiza związana

Niektóre analizy jest wymagane w celu wsparcia projektu eksperymentu, podczas gdy inne analizy przeprowadzone po zmiany w czynnikach są formalnie uznane produkować statystycznie istotnych zmian w odpowiedziach. Ponieważ eksperymentowanie jest iteracyjny, wyniki jednego eksperymentu zmieniać plany następujące eksperymenty.

analizy przygotowawcze

Liczba jednostek doświadczalnych

W projektowaniu eksperymentu, liczba jednostek eksperymentalnych planowane jest do spełnienia celów eksperymentu. Eksperymentowanie jest często sekwencyjny.

Wczesne eksperymenty są często zaprojektowane, aby zapewnić średni-bezstronne oszacowania efektów leczenia i błędu doświadczalnego. Późniejsze eksperymenty są często zaprojektowane, aby przetestować hipotezę, że wpływ leczenia ma ważną wielkość; w tym przypadku, liczba jednostek eksperymentalnych jest tak dobrana, że ​​eksperyment jest w ramach budżetu i ma odpowiednią moc, wśród innych celów.

Raportowanie analiza wielkość próbki jest zwykle wymagane w psychologii. „Dostarczenie informacji na temat wielkości próby oraz proces, który doprowadził do spróbowania decyzje wielkości.” Analiza, co jest napisane w protokole eksperymentalnym przed eksperyment jest prowadzony, jest badana w wniosków o dotacje i administracyjnych płyt przeglądarki.

Oprócz analizy mocy, są mniej formalne sposoby wybierając liczbę jednostek eksperymentalnych. Należą do nich metody graficzne w oparciu o ograniczenie prawdopodobieństwa błędów fałszywie ujemnych, metody graficzne na podstawie oczekiwanego wzrostu wahań (powyżej reszt) oraz metody oparte na uzyskanie pożądanego odstępu pewność.

analiza mocy

Analiza mocy jest często stosowane w kontekście analizy wariancji w celu oceny prawdopodobieństwa powodzeniem odrzucenia hipotezy zerowej, jeśli przyjmiemy pewną konstrukcję ANOVA, wielkość efektu w populacji, wielkość próbki i istotności poziomu. Analiza mocy może pomóc w projekcie badania przez określenie wielkości próbki co byłoby wymagane, aby mieć realną szansę odrzucenia hipotezy zerowej, gdy hipoteza alternatywna jest prawdziwa.

wielkość efektu

Kilka standaryzowanych miary efektu zostały zaproponowane dla ANOVA podsumować siłę związku między predyktorem (ów) i zmiennej zależnej lub całkowitej znormalizowanej różnicy kompletnego modelu. Znormalizowane oszacowania efekt wielkości ułatwić porównanie wyników różnych badań i dyscyplin. Jednakże, podczas gdy efekt znormalizowane rozmiary są powszechnie stosowane w dużo literatury zawodowej, niestandaryzowanym miarą wielkości efektu, który ma natychmiast jednostki „znaczące” może być korzystne dla celów sprawozdawczych.

Analiza follow-up

To zawsze jest właściwe, aby dokładnie rozważyć odstających. Mają nieproporcjonalny wpływ na wnioski statystycznych i często są wynikiem błędów.

potwierdzenie modelu

Rozsądne jest, aby sprawdzić, czy założenia ANOVA zostały spełnione. Pozostałości są badane lub analizowane w celu potwierdzenia homoskedastyczność i normalności brutto. Pozostałości powinny mieć wygląd (zero Średni rozkład normalny) Hałas podczas wykreślono jako funkcję czasu i nic w tym modelowanych wartości danych. Trendy wskazywać na interakcji między czynnikami lub między obserwacjami. Jedna zasada: „Jeżeli największy odchylenie standardowe jest mniejsze niż dwukrotność najmniejsze odchylenie standardowe, możemy użyć metody oparte na założeniu, odchyleń standardowych i równe nasze wyniki będą jeszcze około poprawna”

Follow-up testy

Statystycznie znaczący efekt ANOVA często następuje z jednej lub więcej różnych prób kontrolnych. Można to zrobić, aby ocenić, które grupy różnią się od innych grup lub które do przetestowania różnych innych ukierunkowanych hipotez. Testy następcze są często wyróżniają się pod względem tego, czy są planowane ( a priori ) lub post hoc . Planowane testy są ustalane przed patrząc na dane i testy post hoc są wykonywane po spojrzeniu na dane.

Często jeden z „zabiegów” jest niczym, więc grupa leczenie może działać jako kontrolę. Test Dunnetta (modyfikacja testu t-Studenta) sprawdza, czy każda z pozostałych grup terapeutycznych ma taką samą średnią jako kontrolę.

Testy post hoc, takie jak Test Tukeya najczęściej porównać każda grupa znaczy z każdej innej grupy oznacza i zazwyczaj zawierają jakiś sposób sterowania za I błędów typu. Porównania, które są najczęściej planowane, mogą być proste lub złożone. Proste porównania porównać jedna grupa na myśli z jednej drugiej średniej grupowej. Porównania związku typowo porównać dwa zestawy grup oznacza, gdzie jeden zestaw zawiera dwie lub więcej grup (na przykład, porównanie średniej grupa oznacza grupy A, B i C, z grupy D). Porównania mogą również spojrzeć na testach tendencji, takich jak liniowe i kwadratowe związkach, gdy zmienna niezależna obejmuje zamówione poziomów.

ANOVA z następujących testów wielokrotnego porównania parami został skrytykowany z kilku powodów. Istnieje wiele takich testów (10 w jednej tabeli) oraz zalecenia dotyczące ich wykorzystania są niejasne lub sprzeczne.

projekty studyjne

Istnieje kilka rodzajów ANOVA. Wiele statystycy oprzeć ANOVA w projektowaniu eksperymentu , zwłaszcza na protokole, który określa losowego przypisania zabiegów dla pacjentów; OPIS protokołu z mechanizmu przypisaniu powinien zawierać informacje o strukturze leczenia oraz dowolnej blokady . Oczywistym jest również zastosowanie ANOVA danych obserwacyjnych przy użyciu odpowiedniego modelu statystycznego.

Niektóre popularne wzory stosować następujące rodzaje ANOVA:

  • Jednokierunkową ANOVA stosuje się w celu zbadania różnic między dwoma lub więcej niezależnych grup (środki), na przykład różnych poziomach stosowania mocznika w uprawie lub różnych poziomów działania antybiotyku o różnych gatunków bakterii, lub różnych poziomów efektu lekarstwo na grupach pacjentów. Jednakże, należy te grupy nie są niezależne, a nie jest kolejność grup (takich jak łagodną, umiarkowaną i ciężką chorobę), lub w przypadku dawki leku (na przykład od 5 mg / ml, 10 mg / ml, 20 mg / ml) podano w tej samej grupie pacjentów, wówczas tendencja rozwojowa powinny być stosowane. Zazwyczaj, jednakże, jednokierunkowy ANOVA stosuje się w celu zbadania różnic między co najmniej trzy grupy, ponieważ w przypadku dwie grupy mogą być pokryte przez t-test . Gdy istnieją tylko dwa środki do porównania, test t-Studenta i ANOVA F -test są równoważne; relacja ANOVA i t jest przez F  =  T 2 .
  • Silnia ANOVA jest używany, gdy eksperymentator chce zbadać wpływ interakcji między zabiegami.
  • Powtarzanych pomiarów ANOVA stosuje się, gdy same przedmioty są stosowane do każdego z leczenia (na przykład, w podłużnym badania ).
  • Analiza wariancji wieloczynnikowej (MANOVA) jest stosowany, gdy istnieje więcej niż jeden zmienną odpowiedzi .

Przestrogi

Symetryczne eksperymentów (tych z równą liczbie próbek każdego traktowania) są stosunkowo łatwe do interpretacji; Niesymetryczne eksperymenty oferują większą złożoność. Dla pojedynczego czynnika (jednokierunkowej ANOVA), dostosowanie do niezrównoważonego danych jest łatwe, ale niezrównoważony analiza brakuje zarówno wytrzymałość i siłę. W przypadku bardziej złożonych wzorów brak równowagi prowadzi do dalszych komplikacji. „Właściwość ortogonalności z głównych efektów i interakcji występujących w zrównoważonych danych nie przenieść do niesymetrycznego przypadku. Oznacza to, że zwykle analiza technik wariancji nie mają zastosowania. W konsekwencji, analiza niesymetrycznych silni jest znacznie trudniejsze niż na zrównoważony projekty „. W ogólnym przypadku, „Analiza wariancji może być również stosowana do niezrównoważonego danych, ale wówczas sumy kwadratów, średnia kwadratów i F -ratios zależy od kolejności, w jakiej źródła zmienności są brane pod uwagę.” Najprostsze techniki przenoszenia danych niesymetryczne przywrócić równowagę albo przez wyrzucając danych lub przez syntezę brakujące dane. Bardziej skomplikowane techniki stosuje się analizę regresji.

ANOVA jest (częściowo) test istotności. American Psychological Association uważa, że ​​znaczenie raportowania po prostu jest niewystarczająca i że zgłoszenie granice ufności jest korzystne.

Choć ANOVA jest konserwatywny (w utrzymywaniu poziomu istotności) przeciwko wielokrotnych porównań w jednym wymiarze, to nie jest konserwatywny przed porównaniem w wielu wymiarach.

uogólnienia

ANOVA uważane za szczególny przypadek regresji liniowej , która z kolei jest szczególnym przypadkiem ogólnego modelu liniowego . Wszystko pod uwagę uwagi sumą modelu (Fit) i resztkowej (błąd) należy zminimalizować.

Testu Kruskala-Wallisa oraz testu Friedmananieparametryczne testy, które nie opierają się na założeniu normalności.

Połączenie regresji liniowej

Poniżej wykonujemy usunąć połączenie między multi-ANOVA i regresji liniowej. Liniowo zmieniać kolejność danych, które obserwacji związane z odpowiedzią i czynniki gdzie oznacza różnych czynników i jest całkowitą liczbą czynników. W jednokierunkowej analizy wariancji i dwukierunkowej ANOVA . Ponadto zakładamy, że czynnik ma poziomy, a mianowicie . Teraz możemy jeden rozgrzany kodują czynniki do wektora wymiarowej .

Funkcja jeden gorący kodowania jest określone w taki sposób, że wejście jest

Wektor jest połączeniem wszystkich powyższych wektorów dla wszystkich . W ten sposób . W celu uzyskania w pełni ogólne -Way interakcji ANOVA musimy złączyć każdy dodatkowy termin interakcji w wektorze a następnie dodać termin przechwycenia. Pozwól że wektor być .

Z tego zapisu w miejscu, teraz mamy dokładnego połączenia z regresji liniowej. Po prostu regres odpowiedź przeciwko wektora . Jednak istnieje obawa o rozpoznawalności. W celu przezwyciężenia tych problemów możemy założyć, że suma parametrów w każdym zestawie interakcji jest równa zeru. Stąd, można użyć F -statistics lub innych metod w celu określenia znaczenia poszczególnych czynników.

Przykład

Możemy rozważyć przykład interakcji 2-drożny, gdzie zakładamy, że pierwszy czynnik ma 2 poziomy, a drugi czynnik ma 3 poziomy.

Określić , czy i w przypadku , to jest jeden gorący kodowania pierwszego czynnika i jest jednym gorąco kodowania drugiego czynnika.

Z tym,

gdzie ostatni termin jest terminem przechwycić. Dla bardziej konkretny przykład załóżmy, że
Następnie,

Zobacz też

Przypisy

Uwagi

Referencje

Dalsza lektura

Linki zewnętrzne