Twierdzenie Gaussa-Markowa - Gauss–Markov theorem

W statystykach The twierdzenie Gaussa-Markowa (lub po prostu Gauss twierdzenie niektórych autorów) stwierdza, że zwykli najmniejszych kwadratów (OLS) Estymator ma najmniejszą wariancję próbkowania w obrębie klasy z liniowych nieobciążonych estymatorów , jeśli błędy w modelu regresji liniowejnieskorelowane , mają równe wariancje i wartość oczekiwaną równą zero. Błędy nie muszą być ani normalne , ani niezależne i równomiernie rozłożone (tylko nieskorelowane ze średnią zerową i homoskedastyczne ze skończoną wariancją). Nie można odrzucić wymogu, aby estymator był nieobciążony, ponieważ estymatory obciążone istnieją z mniejszą wariancją. Zobacz na przykład estymator Jamesa-Steina (który również obniża liniowość), regresję grzbietową lub po prostu dowolny estymator zdegenerowany .

Twierdzenie zostało nazwane na cześć Carla Friedricha Gaussa i Andreya Markova , chociaż prace Gaussa znacznie poprzedzają prace Markowa. Ale podczas gdy Gauss wyprowadził wynik przy założeniu niezależności i normalności, Markow zredukował założenia do formy podanej powyżej. Dalsze uogólnienie na błędy niesferyczne podał Alexander Aitken .

Komunikat

Załóżmy, że mamy w notacji macierzowej,

rozszerzając się do,

gdzie są nielosowe ale un parametry obserwowalne, są nieprzypadkowe i obserwowalne (zwane „zmienne objaśniające”), są przypadkowe, a więc są przypadkowe. Zmienne losowe nazywane są „zakłóceniem”, „szumem” lub po prostu „błędem” (w dalszej części artykułu zostaną porównane z „pozostałościami”; zobacz błędy i reszty w statystykach ). Zauważ, że aby uwzględnić stałą w powyższym modelu, można wybrać wprowadzenie stałej jako zmiennej z nowo wprowadzoną ostatnią kolumną X będącą jednością, tj. dla all . Należy zauważyć, że chociaż jako przykładowe odpowiedzi, można zaobserwować następujące oświadczenia i argumenty w tym założeń, dowodów i inni zakładają pod jedynym warunkiem wiedząc, ale nie

Założenia Gaussa-Markowa dotyczą zbioru błędów losowych zmiennych :

  • Mają średnią zero:
  • homoscedastyczne , to znaczy wszystkie mają tę samą skończoną wariancję: dla wszystkich i
  • Określone terminy błędu nie są skorelowane:

Liniowy estymator od jest liniową kombinacją

w którym współczynniki nie mogą zależeć od podstawowych współczynników , ponieważ nie są one obserwowalne, ale mogą zależeć od wartości , ponieważ dane te są obserwowalne. (Zależność współczynników od każdego z nich jest zwykle nieliniowa; estymator jest liniowy w każdym, a zatem w każdym losowym, dlatego jest to regresja „liniowa” .) Mówi się, że estymator jest bezstronny wtedy i tylko wtedy, gdy

niezależnie od wartości . Teraz niech będzie jakaś liniowa kombinacja współczynników. Wtedy średni kwadratowy błąd odpowiedniej estymacji wynosi

innymi słowy, jest to oczekiwanie kwadratu sumy ważonej (poprzez parametry) różnic między estymatorami a odpowiadającymi im parametrami, które mają być oszacowane. (Ponieważ rozważamy przypadek, w którym wszystkie oszacowania parametrów są nieobciążone, ten błąd średniokwadratowy jest taki sam jak wariancja kombinacji liniowej.) Najlepszy liniowy nieobciążony estymator (NIEBIESKI) wektora parametrów to taki o najmniejszym błąd średniokwadratowy dla każdego wektora parametrów kombinacji liniowej. Jest to równoznaczne z warunkiem, że

jest dodatnią półokreśloną macierzą dla każdego innego liniowego nieobciążonego estymatora .

Zwykły Estymator najmniejszych kwadratów (OLS) jest funkcją

o a (gdzie oznacza transpozycję z ), która minimalizuje sumę kwadratów reszt (wartości misprediction)

Twierdzenie mówi teraz, że estymator OLS jest NIEBIESKI. Główną ideą dowodu jest to, że estymator najmniejszych kwadratów nie jest skorelowany z każdym liniowym nieobciążonym estymatorem równym zero, tj. z każdą kombinacją liniową, której współczynniki nie zależą od nieobserwowalnego, ale którego wartość oczekiwana jest zawsze równa zero.

Uwaga

Dowód, że MNK rzeczywiście MINIMALIZUJE sumę kwadratów reszt może postępować w następujący sposób z obliczeniem macierzy Hess i wykazaniem, że jest ona dodatnio określona.

Funkcja MSE, którą chcemy zminimalizować, to

dla modelu regresji wielokrotnej ze zmiennymi p . Pierwsza pochodna to
gdzie X to macierz projektu

Heskie matrycy z drugiej pochodnej jest

Zakładając, że kolumny są liniowo niezależne, czyli jest odwracalne, niech , wtedy

Teraz niech będzie wektorem własnym .

Pod względem mnożenia wektorów oznacza to

gdzie jest wartością własną odpowiadającą . Co więcej,

Wreszcie, ponieważ wektor własny był arbitralny, oznacza to, że wszystkie wartości własne są dodatnie, a zatem są dodatnio określone. A zatem,

jest rzeczywiście lokalnym minimum.

Dowód

Niech kolejny liniowy estymatorem z którym jest matryca niezerowe. Ponieważ ograniczamy się do bezstronnych estymatorów, minimalny błąd średniokwadratowy implikuje minimalną wariancję. Celem jest zatem pokazanie, że taki estymator ma wariancję nie mniejszą niż estymator MNK. Obliczamy:

W związku z tym, ponieważ jest un obserwowalne, jest bezstronna wtedy i tylko wtedy . Następnie:

Ponieważ DD' jest macierzą dodatnią półokreśloną, przewyższa ją o dodatnią półokreśloną macierz.

Uwagi na dowodzie

Jak stwierdzono wcześniej, warunek jest pozytywna półokreśloną matryca jest równoważne z właściwością, że najlepszym liniowy nieobciążonym estymatorem jest (najlepiej w tym sensie, że ma minimalnej wariancji). Aby to zobaczyć, niech inny liniowy bezstronny estymator .

Co więcej, równość obowiązuje wtedy i tylko wtedy, gdy . Obliczamy

Dowodzi to, że równość zachodzi wtedy i tylko wtedy, gdy daje to niepowtarzalność estymatora OLS jako NIEBIESKI.

Uogólniony estymator najmniejszych kwadratów

W uogólnione najmniejszych kwadratów (GLS), opracowany przez Aitken rozciąga twierdzenie Gaussa-Markowa do przypadku, w którym błąd wektor nie-skalarne macierzy kowariancji. Estymator Aitken jest również NIEBIESKI.

Twierdzenie Gaussa-Markowa jak stwierdzono w ekonometrii

W większości sposobów leczenia OLS zakłada się , że regresory (interesujące parametry) w macierzy projektu są ustalone w powtarzanych próbkach. Założenie to jest uważane za nieodpowiednie dla nauki w przeważającej mierze nieeksperymentalnej, takiej jak ekonometria . Zamiast tego, założenia twierdzenia Gaussa-Markowa są podane w zależności od .

Liniowość

Zakłada się, że zmienna zależna jest liniową funkcją zmiennych określonych w modelu. Specyfikacja musi być liniowa w swoich parametrach. Nie oznacza to, że musi istnieć liniowa zależność między zmienną niezależną i zmienną zależną. Zmienne niezależne mogą przybierać formy nieliniowe, o ile parametry są liniowe. Równanie kwalifikuje się jako liniowe, podczas gdy można je przekształcić w liniowe, zastępując innym parametrem, powiedzmy . Równanie z parametrem zależnym od zmiennej niezależnej nie kwalifikuje się jako liniowe, na przykład , gdzie jest funkcją .

Przekształcenia danych są często używane do przekształcania równania w postać liniową. Na przykład funkcja Cobba-Douglasa — często używana w ekonomii — jest nieliniowa:

Ale można to wyrazić w postaci liniowej, biorąc logarytm naturalny obu stron:

Założenie to obejmuje również kwestie specyfikacji: założenie, że wybrano odpowiednią formę funkcjonalną i nie ma pominiętych zmiennych .

Należy jednak mieć świadomość, że parametry minimalizujące reszty transformowanego równania niekoniecznie minimalizują reszty równania oryginalnego.

Ścisła egzogeniczność

We wszystkich obserwacjach oczekiwanie — uwarunkowane regresorami — składnika błędu wynosi zero:

gdzie jest wektorem danych regresorów dla i- tej obserwacji, a co za tym idzie jest macierzą danych lub macierzą projektu.

Z geometrycznego punktu widzenia założenie to implikuje, że i są do siebie ortogonalne , tak że ich iloczyn wewnętrzny (tj. moment poprzeczny) wynosi zero.

To założenie jest łamane, jeśli zmienne objaśniające są stochastyczne, na przykład gdy są mierzone z błędem lub są endogeniczne . Endogeniczność może być wynikiem jednoczesności , gdzie przyczynowość przepływa tam i z powrotem między zmienną zależną i niezależną. W celu rozwiązania tego problemu powszechnie stosuje się techniki zmiennych instrumentalnych .

Pełna ranga

Przykładowa macierz danych musi mieć pełną rangę kolumny .

W przeciwnym razie nie jest odwracalne i nie można obliczyć estymatora OLS.

Naruszeniem tego założenia jest doskonała wielowspółliniowość , tzn. niektóre zmienne objaśniające są zależne liniowo. Jeden ze scenariuszy, w którym tak się stanie, nazywa się „pułapką na zmienną fikcyjną”, gdy podstawowa zmienna fikcyjna nie jest pominięta, co skutkuje doskonałą korelacją między zmiennymi fikcyjnymi a wyrazem stałym.

Współliniowość (o ile nie jest „doskonała”) może występować, co skutkuje mniej wydajnym, ale nadal bezstronnym oszacowaniem. Szacunki będą mniej precyzyjne i bardziej wrażliwe na poszczególne zestawy danych. Wielokoliniowość można wykryć między innymi na podstawie numeru warunku lub współczynnika inflacji wariancji .

Błędy sferyczne

Zewnętrzny iloczyn wektora błędu musi być kulista.

Oznacza to, że składnik błędu ma jednolitą wariancję ( homoskedastyczność ) i nie ma zależności szeregowej. Jeśli to założenie zostanie naruszone, OLS jest nadal bezstronny, ale nieefektywny. Termin „błędy sferyczne” opisuje wielowymiarowy rozkład normalny: jeśli w wielowymiarowej gęstości normalnej, równanie jest wzorem na kulę o środku μ o promieniu σ w przestrzeni n-wymiarowej.

Heteroskedastyczność występuje, gdy wielkość błędu jest skorelowana ze zmienną niezależną. Na przykład w regresji dotyczącej wydatków na żywność i dochodów błąd jest skorelowany z dochodem. Osoby o niskich dochodach wydają na ogół podobną kwotę na żywność, podczas gdy osoby o wysokich dochodach mogą wydawać bardzo duże kwoty lub nawet tak mało, jak osoby o niskich dochodach. Heteroskedastyka może być również spowodowana zmianami w praktykach pomiarowych. Na przykład, gdy urzędy statystyczne poprawiają swoje dane, błąd pomiaru maleje, więc składnik błędu maleje z czasem.

To założenie jest naruszone, gdy występuje autokorelacja . Autokorelację można zwizualizować na wykresie danych, gdy istnieje większe prawdopodobieństwo, że dana obserwacja leży powyżej dopasowanej linii, jeśli sąsiednie obserwacje również leżą powyżej dopasowanej linii regresji. Autokorelacja jest powszechna w danych szeregów czasowych, w których seria danych może wykazywać „bezwładność”. Jeśli zmienna zależna zajmuje trochę czasu, aby w pełni zaabsorbować wstrząs. Może również wystąpić autokorelacja przestrzenna, obszary geograficzne mogą mieć podobne błędy. Autokorelacja może być wynikiem błędnej specyfikacji, takiej jak wybór niewłaściwej formy funkcjonalnej. W takich przypadkach korekta specyfikacji jest jednym z możliwych sposobów radzenia sobie z autokorelacją.

W przypadku występowania błędów sferycznych, uogólniony estymator najmniejszych kwadratów może być NIEBIESKI.

Zobacz też

Inne bezstronne statystyki

Bibliografia

Dalsza lektura

Linki zewnętrzne