Ogólny model liniowy - General linear model

Ogólny model liniowy lub ogólny model regresji wieloczynnikowej to kompaktowy sposób jednocześnie pisząc kilka z wielu regresji liniowej modeli. W tym sensie nie jest to odrębny statystyczny model liniowy . Różne modele regresji liniowej wielokrotnej można zwięźle zapisać jako

gdzie Y jest macierzą z serią pomiarów wielowymiarowych (każda kolumna jest zbiorem pomiarów jednej ze zmiennych zależnych ), X jest macierzą obserwacji zmiennych niezależnych, która może być macierzą projektu (każda kolumna jest zbiorem obserwacji zmiennych niezależnych jedną ze zmiennych niezależnych), B jest macierzą zawierającą parametry, które zwykle mają być oszacowane, a U jest macierzą zawierającą błędy (szum). Zazwyczaj zakłada się, że błędy nie są skorelowane między pomiarami i są zgodne z wielowymiarowym rozkładem normalnym . Jeśli błędy nie są zgodne z wielowymiarowym rozkładem normalnym, uogólnione modele liniowe mogą być użyte do rozluźnienia założeń dotyczących Y i U .

Ogólny model liniowy zawiera szereg różnych modeli statystycznych: ANOVA , ANCOVA , MANOVA , MANCOVA , zwykłym regresji liniowej , t -test i F -test . Ogólny model liniowy jest uogólnieniem wielokrotnej regresji liniowej na przypadek więcej niż jednej zmiennej zależnej. Gdyby Y , B i U były wektorami kolumnowymi , powyższe równanie macierzowe przedstawiałoby wielokrotną regresję liniową.

Testy hipotez z ogólnym modelem liniowym można wykonać na dwa sposoby: wielowymiarowe lub jako kilka niezależnych testów jednowymiarowych . W testach wielowymiarowych kolumny Y są testowane razem, podczas gdy w testach jednowymiarowych kolumny Y są testowane niezależnie, tj. jako wielokrotne testy jednowymiarowe z tą samą macierzą projektu.

Porównanie do wielokrotnej regresji liniowej

Wielokrotna regresja liniowa to uogólnienie prostej regresji liniowej na przypadek więcej niż jednej zmiennej niezależnej oraz szczególny przypadek ogólnych modeli liniowych, ograniczony do jednej zmiennej zależnej. Podstawowym modelem wielokrotnej regresji liniowej jest

dla każdej obserwacji i = 1, ... , n .

W powyższym wzorze bierzemy pod uwagę n obserwacji jednej zmiennej zależnej ip zmiennych niezależnych. Zatem Y i jest i- obserwacją zmiennej zależnej, X ij jest i- obserwacją j- tej zmiennej niezależnej, j = 1, 2, ..., p . Wartości β j reprezentują parametry, które mają zostać oszacowane, a ε i jest i- tym niezależnym błędem normalnym o identycznym rozkładzie.

W bardziej ogólnej wielowymiarowej regresji liniowej istnieje jedno równanie o powyższej postaci dla każdej z m > 1 zmiennych zależnych, które mają ten sam zestaw zmiennych objaśniających, a zatem są szacowane jednocześnie ze sobą:

dla wszystkich obserwacji indeksowanych jako i = 1, ... , n oraz dla wszystkich zmiennych zależnych indeksowanych jako j = 1, ... , m .

Należy zauważyć, że ponieważ każda zmienna zależna ma swój własny zestaw parametrów regresji, które należy dopasować, z obliczeniowego punktu widzenia ogólna regresja wielowymiarowa jest po prostu sekwencją standardowych wielokrotnych regresji liniowych wykorzystujących te same zmienne objaśniające.

Porównanie do uogólnionego modelu liniowego

Ogólny model liniowy i uogólniony model liniowy (GLM) to dwie powszechnie stosowane rodziny metod statystycznych do powiązania pewnej liczby predyktorów ciągłych i/lub jakościowych z pojedynczą zmienną wynikową .

Główna różnica między tymi dwoma podejściami polega na tym, że ogólny model liniowy ściśle zakłada, że reszty będą podlegać warunkowo rozkładowi normalnemu , podczas gdy GLM rozluźnia to założenie i dopuszcza szereg innych rozkładów z rodziny wykładniczej dla reszt. Warto zauważyć, że ogólny model liniowy jest szczególnym przypadkiem GLM, w którym rozkład reszt jest zgodny z rozkładem warunkowo normalnym.

Rozkład reszt w dużej mierze zależy od rodzaju i rozkładu zmiennej wynikowej; różne typy zmiennych wynikowych prowadzą do różnorodności modeli w rodzinie GLM. Powszechnie stosowane modele w rodzinie GLM obejmują binarną regresję logistyczną dla wyników binarnych lub dychotomicznych, regresję Poissona dla wyników liczebności oraz regresję liniową dla wyników ciągłych o rozkładzie normalnym. Oznacza to, że GLM może być określany jako ogólna rodzina modeli statystycznych lub jako specyficzne modele dla określonych typów wyników.

Ogólny model liniowy Uogólniony model liniowy
Typowa metoda szacowania Najmniejsze kwadraty , najlepsza bezstronna liniowa prognoza Maksymalne prawdopodobieństwo lub bayesowskie
Przykłady ANOVA , ANCOVA , regresja liniowa Regresja liniowa , regresji logistycznej , regresji Poissona regresji gamma ogólnego modelu liniowego
Rozszerzenia i powiązane metody MANOVA , MANCOVA , liniowy model mieszany uogólniony liniowy model mieszany (GLMM), uogólnione równania estymujące (GEE)
Pakiet i funkcja R lm() w pakiecie statystyk (podstawa R) glm() w pakiecie statystyk (baza R)
Funkcja Matlab mvregress() glmfit()
Procedury SAS PROC GLM , PROC REG PROC GENMOD , PROC LOGISTIC (dla binarnych i uporządkowanych lub nieuporządkowanych wyników kategorycznych)
Polecenie Stata regres glm
Polecenie SPSS regresja , glm genlin, logistyka
Funkcja języka Wolfram i matematyki Dopasowanie modelu liniowego[] Uogólnione dopasowanie modelu liniowego[]
Polecenie Ewidoki ls glm

Aplikacje

Zastosowanie ogólnego modelu liniowego pojawia się w analizie wielu skanów mózgu w eksperymentach naukowych, gdzie Y zawiera dane ze skanerów mózgu, X zawiera eksperymentalne zmienne projektowe i błędy. Jest zwykle testowany w sposób jednowymiarowy (zwykle określany w tym ustawieniu jako jednowymiarowa masa ) i często jest określany jako statystyczne mapowanie parametryczne .

Zobacz też

Uwagi

Bibliografia

  • Christensen, Ronald (2002). Płaszczyzna odpowiedzi na złożone pytania: Teoria modeli liniowych (wyd. trzecie). Nowy Jork: Springer. Numer ISBN 0-387-95361-2.
  • Wichura, Michael J. (2006). Bezwspółrzędne podejście do modeli liniowych . Seria Cambridge w matematyce statystycznej i probabilistycznej. Cambridge: Wydawnictwo Uniwersytetu Cambridge. s. XIV+199. Numer ISBN 978-0-521-86842-6. MR  2283455 .
  • Rawlings, John O.; Pantula, Sastry G.; Dickey, David A., wyd. (1998). „Analiza regresji stosowanej”. Teksty Springera w statystyce. doi : 10.1007/b98890 . Numer ISBN 0-387-98454-2. Cytowanie dziennika wymaga |journal=( pomoc )