Analiza regresji - Regression analysis

Linia regresji dla 50 losowych punktów w rozkładzie Gaussa wokół linii y=1,5x+2 (nie pokazano).

W modelowaniu statystycznym analiza regresji to zestaw procesów statystycznych służących do szacowania relacji między zmienną zależną (często nazywaną zmienną „wyniku” lub „odpowiedzi”) a jedną lub większą liczbą zmiennych niezależnych (często nazywanych „predyktorami”, „zmiennymi towarzyszącymi”, „zmienne objaśniające” lub „cechy”). Najpopularniejszą formą analizy regresji jest regresja liniowa , w której znajduje się linię (lub bardziej złożoną kombinację liniową ), która najlepiej pasuje do danych zgodnie z określonym kryterium matematycznym. Na przykład metoda zwykłych najmniejszych kwadratów oblicza unikalną linię (lub hiperpłaszczyznę ), która minimalizuje sumę kwadratów różnic między prawdziwymi danymi a tą linią (lub hiperpłaszczyzną). Z określonych powodów matematycznych (patrz regresja liniowa ), pozwala to badaczowi oszacować warunkowe oczekiwanie (lub średnią wartość populacji ) zmiennej zależnej, gdy zmienne niezależne przyjmują dany zestaw wartości. Mniej powszechne formy regresji wykorzystują nieco inne procedury do oszacowania alternatywnych parametrów lokalizacji (np. regresja kwantylowa lub analiza warunków koniecznych) lub oszacowania warunkowego oczekiwania w ramach szerszego zbioru modeli nieliniowych (np. regresja nieparametryczna ).

Analiza regresji służy przede wszystkim do dwóch koncepcyjnie odrębnych celów.

Po pierwsze, analiza regresji jest szeroko wykorzystywana do przewidywania i prognozowania , gdzie jej zastosowanie w znacznym stopniu pokrywa się z dziedziną uczenia maszynowego .

Po drugie, w niektórych sytuacjach analiza regresji może być wykorzystana do wywnioskowania związków przyczynowych między zmienną niezależną i zmienną zależną. Co ważne, same regresje ujawniają jedynie relacje między zmienną zależną a zbiorem zmiennych niezależnych w ustalonym zbiorze danych. Aby użyć regresji odpowiednio do przewidywania lub wywnioskowania związków przyczynowych, badacz musi dokładnie uzasadnić, dlaczego istniejące relacje mają moc predykcyjną dla nowego kontekstu lub dlaczego związek między dwiema zmiennymi ma interpretację przyczynową. To ostatnie jest szczególnie ważne, gdy badacze mają nadzieję oszacować związki przyczynowe na podstawie danych obserwacyjnych .

Historia

Najwcześniejszą formą regresji była metoda najmniejszych kwadratów , opublikowana przez Legendre'a w 1805 r. i przez Gaussa w 1809 r. Zarówno Legendre, jak i Gauss zastosowali tę metodę do problemu wyznaczania na podstawie obserwacji astronomicznych orbit ciał wokół Słońca (głównie komety, ale później także nowo odkryte mniejsze planety). Gauss opublikował dalsze rozwinięcie teorii najmniejszych kwadratów w 1821 roku, w tym wersję twierdzenia Gaussa-Markowa .

Termin „regresja” został ukuty przez Francisa Galtona w XIX wieku w celu opisania zjawiska biologicznego. Zjawisko polegało na tym, że wzrost potomków wysokich przodków ma tendencję do zmniejszania się w kierunku normalnej średniej (zjawisko znane również jako regresja w kierunku średniej ). Dla Galtona regresja miała tylko to biologiczne znaczenie, ale jego praca została później rozszerzona przez Udny Yule i Karla Pearsona na bardziej ogólny kontekst statystyczny. W pracy Yule'a i Pearsona łączny rozkład zmiennych odpowiedzi i objaśniających przyjmuje się za gaussowski . Założenie to zostało osłabione przez RA Fishera w swoich pracach z lat 1922 i 1925. Fisher założył, że warunkowy rozkład zmiennej odpowiedzi jest gaussowski, ale łączny rozkład nie musi być. Pod tym względem założenie Fishera jest bliższe sformułowaniu Gaussa z 1821 roku.

W latach pięćdziesiątych i sześćdziesiątych ekonomiści wykorzystywali elektromechaniczne „kalkulatory biurkowe” do obliczania regresji. Przed 1970 r. uzyskanie wyniku jednej regresji zajmowało czasami nawet 24 godziny.

Metody regresji są nadal obszarem aktywnych badań. W ostatnich dziesięcioleciach opracowano nowe metody dla solidnej regresji , regresji obejmującej skorelowane odpowiedzi, takie jak szeregi czasowe i krzywe wzrostu , regresji, w której predyktorem (zmienna niezależna) lub zmiennymi odpowiedzi są krzywe, obrazy, wykresy lub inne złożone obiekty danych, metody regresji uwzględniające różne rodzaje brakujących danych, regresja nieparametryczna , metody bayesowskie dla regresji, regresja, w której zmienne predyktorów są mierzone z błędem, regresja z większą liczbą zmiennych predykcyjnych niż obserwacje oraz wnioskowanie przyczynowe z regresją.

Model regresji

W praktyce badacze najpierw wybierają model, który chcieliby oszacować, a następnie stosują wybraną przez siebie metodę (np. zwykłą metodę najmniejszych kwadratów ) do oszacowania parametrów tego modelu. Modele regresji obejmują następujące komponenty:

  • Nieznane parametry , często określane jako skalar lub wektor .
  • Zmienne niezależne , które są obserwowane w danych i często są oznaczane jako wektor (gdzie oznacza wiersz danych).
  • Zmienna zależna , która jest obserwowana w danych i często oznaczana skalarem .
  • Terminy błędu , które nie są bezpośrednio obserwowane w danych i często są oznaczane skalarem .

W różnych obszarach zastosowań zamiast zmiennych zależnych i niezależnych stosuje się różne terminologie .

Większość modeli regresji proponuje, że jest to funkcja i , reprezentująca składnik błędu addytywnego , który może zastępować niemodelowane determinanty lub losowy szum statystyczny:

Celem naukowców jest oszacowanie funkcji , która najlepiej pasuje do danych. Aby przeprowadzić analizę regresji, należy określić formę funkcji . Czasami forma tej funkcji opiera się na wiedzy o relacji między i która nie opiera się na danych. Jeśli taka wiedza nie jest dostępna, wybiera się elastyczną lub wygodną formę. Na przykład prosta jednowymiarowa regresja może zaproponować , co sugeruje, że badacz uważa, że jest to rozsądne przybliżenie dla statystycznego procesu generującego dane.

Gdy badacze określą preferowany model statystyczny , różne formy analizy regresji dostarczają narzędzi do szacowania parametrów . Na przykład metoda najmniejszych kwadratów (w tym jej najpopularniejsza odmiana, zwykła metoda najmniejszych kwadratów ) znajduje wartość minimalizującą sumę kwadratów błędów . Dana metoda regresji ostatecznie zapewni oszacowanie , zwykle oznaczane w celu odróżnienia oszacowania od prawdziwej (nieznanej) wartości parametru, który wygenerował dane. Korzystając z tego oszacowania, badacz może następnie wykorzystać dopasowaną wartość do przewidywania lub oceny dokładności modelu w wyjaśnianiu danych. To, czy badacz jest wewnętrznie zainteresowany oszacowaniem , czy przewidywaną wartością , będzie zależeć od kontekstu i ich celów. Jak opisano w zwykłych metodach najmniejszych kwadratów , metoda najmniejszych kwadratów jest szeroko stosowana, ponieważ szacowana funkcja przybliża oczekiwanie warunkowe . Jednak alternatywne warianty (np. najmniejsze odchylenia bezwzględne lub regresja kwantylowa ) są przydatne, gdy badacze chcą modelować inne funkcje .

Należy zauważyć, że musi istnieć wystarczająca ilość danych do oszacowania modelu regresji. Załóżmy na przykład, że badacz ma dostęp do wierszy danych z jedną zmienną zależną i dwiema niezależnymi: . Załóżmy dalej, że badacz chce oszacować dwuwymiarowy model liniowy metodą najmniejszych kwadratów : . Jeśli badacz ma dostęp tylko do punktów danych, może znaleźć nieskończenie wiele kombinacji , które równie dobrze wyjaśniają dane: można wybrać dowolną kombinację, która spełnia , z których wszystkie prowadzą do, a zatem są poprawnymi rozwiązaniami, które minimalizują sumę kwadratów reszt . Aby zrozumieć, dlaczego istnieje nieskończenie wiele opcji, zauważ, że układ równań należy rozwiązać dla 3 niewiadomych, co sprawia, że ​​układ jest niedookreślony . Alternatywnie można wizualizować nieskończenie wiele trójwymiarowych płaszczyzn, które przechodzą przez stałe punkty.

Bardziej ogólnie, aby oszacować model najmniejszych kwadratów z różnymi parametrami, trzeba mieć różne punkty danych. Jeśli , to generalnie nie istnieje zestaw parametrów, które idealnie pasowałyby do danych. Wielkość pojawia się często w analizie regresji i jest określana jako stopnie swobody w modelu. Ponadto, aby oszacować model najmniejszych kwadratów, zmienne niezależne muszą być liniowo niezależne : nie można odtworzyć żadnej ze zmiennych niezależnych przez dodanie i pomnożenie pozostałych zmiennych niezależnych. Jak omówiono w zwykłych najmniejszych kwadratach , warunek ten zapewnia, że jest to macierz odwracalna, a zatem istnieje unikalne rozwiązanie .

Podstawowe założenia

Sama regresja jest po prostu obliczeniem z wykorzystaniem danych. Aby zinterpretować wynik regresji jako znaczącą wielkość statystyczną mierzącą relacje w świecie rzeczywistym, badacze często opierają się na szeregu klasycznych założeń . Należą do nich często:

  • Próba jest reprezentatywna dla całej populacji.
  • Zmienne niezależne są mierzone bez błędu.
  • Odchylenia od modelu mają wartość oczekiwaną zerową, uzależnioną od zmiennych towarzyszących:
  • Wariancja reszt jest stała we wszystkich obserwacjach ( homoskedastyczność ).
  • Reszty nie są ze sobą skorelowane . Matematycznie macierz wariancji-kowariancji błędów jest diagonalna .

Garść warunków wystarczy, aby estymator najmniejszych kwadratów posiadał pożądane właściwości: w szczególności założenia Gaussa-Markowa implikują, że oszacowania parametrów będą bezstronne , spójne i wydajne w klasie liniowych nieobciążonych estymatorów. Praktycy opracowali różne metody, aby zachować niektóre lub wszystkie z tych pożądanych właściwości w warunkach rzeczywistych, ponieważ te klasyczne założenia prawdopodobnie nie będą się dokładnie sprawdzać. Na przykład, modelowanie błędów w zmiennych może prowadzić do rozsądnych szacunków, gdy zmienne niezależne są mierzone z błędami. Błędy standardowe zgodne z heteroskedastyką pozwalają na zmianę wariancji pomiędzy wartościami . Błędy skorelowane, które istnieją w podzbiorach danych lub są zgodne z określonymi wzorcami, można obsługiwać między innymi za pomocą klastrowych błędów standardowych, regresji ważonej geograficznie lub błędów standardowych Neweya-Westa . Gdy wiersze danych odpowiadają lokalizacji w przestrzeni, wybór sposobu modelowania w jednostkach geograficznych może mieć poważne konsekwencje. Poddziedzina ekonometrii koncentruje się w dużej mierze na opracowywaniu technik, które pozwalają naukowcom wyciągać rozsądne wnioski z rzeczywistego świata w rzeczywistych warunkach, w których klasyczne założenia nie są dokładne.

Regresja liniowa

W regresji liniowej specyfikacja modelu polega na tym, że zmienna zależna jest kombinacją liniową parametrów ( ale nie musi być liniowa w przypadku zmiennych niezależnych ). Na przykład w prostej regresji liniowej do modelowania punktów danych występuje jedna zmienna niezależna: , oraz dwa parametry i :

linia prosta:

W wielokrotnej regresji liniowej istnieje kilka zmiennych niezależnych lub funkcji zmiennych niezależnych.

Dodanie terminu do poprzedniej regresji daje:

parabola:

To wciąż jest regresja liniowa; chociaż wyrażenie po prawej stronie jest kwadratowe w zmiennej niezależnej , w parametrach jest liniowe , a

W obu przypadkach jest to termin błędu, a indeks dolny indeksuje konkretną obserwację.

Zwracając naszą uwagę do przypadku linii prostej: Biorąc pod uwagę losową próbkę z populacji, szacujemy parametry populacji i otrzymujemy próbny model regresji liniowej:

Reszta , , jest różnicą między przewidywaną przez model wartością zmiennej zależnej , a rzeczywistą wartością zmiennej zależnej , . Jedną z metod estymacji jest zwykła metoda najmniejszych kwadratów . Ta metoda pozwala uzyskać oszacowania parametrów, które minimalizują sumę kwadratów reszt , SSR :

Minimalizacja tej funkcji daje w wyniku zestaw równań normalnych , zestaw równoczesnych równań liniowych w parametrach, które są rozwiązywane w celu uzyskania estymatorów parametrów, .

Ilustracja regresji liniowej na zbiorze danych.

W przypadku regresji prostej wzory na estymacje metodą najmniejszych kwadratów to

gdzie jest średnią (średnią) wartości i jest średnią wartości.

Przy założeniu, że składnik błędu populacji ma stałą wariancję, oszacowanie tej wariancji wyraża się wzorem:

Nazywa się to błędem średniokwadratowym (MSE) regresji. Mianownik to wielkość próby pomniejszona o liczbę parametrów modelu oszacowanych na podstawie tych samych danych, w przypadku regresorów lub w przypadku użycia wyrazu wolnego. W tym przypadku mianownik to .

Błędy standardowe oszacowań parametrów podano wzorem

Przy dalszym założeniu, że składnik błędu populacji ma rozkład normalny, badacz może wykorzystać te oszacowane błędy standardowe do utworzenia przedziałów ufności i przeprowadzenia testów hipotez dotyczących parametrów populacji .

Ogólny model liniowy

W bardziej ogólnym modelu regresji wielokrotnej istnieją zmienne niezależne:

gdzie jest -ta obserwacja na -tej zmiennej niezależnej. Jeżeli pierwsza zmienna niezależna przyjmuje wartość 1 dla wszystkich , wówczas nazywana jest przecięciem regresji .

Oszacowania parametrów metodą najmniejszych kwadratów uzyskuje się z równań normalnych. Resztę można zapisać jako

Normalne równania to

W notacji macierzowej równania normalne są zapisane jako

gdzie element jest , element wektora kolumnowego jest , a element jest . Tak jest , jest i jest . Rozwiązaniem jest

Diagnostyka

Po zbudowaniu modelu regresji ważne może być potwierdzenie dopasowania modelu i statystycznej istotności szacowanych parametrów. Powszechnie stosowane kontrole dobroci dopasowania obejmują R-kwadrat , analizy wzorca reszt i testowanie hipotez. Istotność statystyczną można sprawdzić za pomocą testu F ogólnego dopasowania, a następnie testów t poszczególnych parametrów.

Interpretacje tych testów diagnostycznych opierają się w dużej mierze na założeniach modelu. Chociaż badanie reszt może być wykorzystane do unieważnienia modelu, wyniki testu t lub testu F są czasami trudniejsze do zinterpretowania, jeśli naruszone zostaną założenia modelu. Na przykład, jeśli składnik błędu nie ma rozkładu normalnego, w małych próbach oszacowane parametry nie będą zgodne z rozkładami normalnymi i komplikują wnioskowanie. Jednak przy stosunkowo dużych próbach można powołać się na centralne twierdzenie graniczne , tak że testowanie hipotezy może przebiegać przy użyciu asymptotycznych przybliżeń.

Ograniczone zmienne zależne

W ekonometrii często pojawiają się ograniczone zmienne zależne , które są zmiennymi odpowiedzi, które są zmiennymi kategorialnymi lub zmiennymi ograniczonymi do określonego zakresu .

Zmienna odpowiedzi może być nieciągła („ograniczona”, aby leżeć w pewnym podzbiorze rzeczywistej linii). W przypadku zmiennych binarnych (zero lub jeden), jeśli analiza przebiega zgodnie z regresją liniową najmniejszych kwadratów, model nazywa się liniowym modelem prawdopodobieństwa . Modele nieliniowe dla binarnych zmiennych zależnych obejmują model probitowy i logitowy . Wielowymiarowy model probitowy to standardowa metoda szacowania łącznego związku między kilkoma binarnymi zmiennymi zależnymi i niektórymi zmiennymi niezależnymi. Dla zmiennych kategorycznych o więcej niż dwóch wartościach istnieje logit wielomianowy . W przypadku zmiennych porządkowych o więcej niż dwóch wartościach istnieją uporządkowane modele logitowe i uporządkowane modele probitowe . Modele regresji cenzurowanej mogą być stosowane, gdy zmienna zależna jest obserwowana tylko czasami, a modele z korektą Heckmana mogą być stosowane, gdy próba nie jest losowo wybrana z populacji będącej przedmiotem zainteresowania. Alternatywą dla takich procedur jest regresja liniowa oparta na korelacji polichorycznej (lub korelacji wieloseryjnych) pomiędzy zmiennymi kategorialnymi. Takie procedury różnią się założeniami dotyczącymi rozkładu zmiennych w populacji. Jeżeli zmienna jest dodatnia z niskimi wartościami i reprezentuje powtarzalność wystąpienia zdarzenia, można zastosować modele liczenia, takie jak regresja Poissona lub ujemny model dwumianowy.

Regresja nieliniowa

Gdy funkcja modelu nie jest liniowa w parametrach, sumę kwadratów należy zminimalizować za pomocą procedury iteracyjnej. Wprowadza to wiele komplikacji, które są podsumowane w Różnice między liniowymi i nieliniowymi najmniejszymi kwadratami .

Interpolacja i ekstrapolacja

W środku interpolowana linia prosta reprezentuje najlepszą równowagę między punktami powyżej i poniżej tej linii. Kropkowane linie reprezentują dwie skrajne linie. Pierwsze krzywe przedstawiają wartości szacunkowe. Krzywe zewnętrzne reprezentują prognozę dla nowego pomiaru.

Modele regresji przewidują wartość zmiennej Y przy znanych wartościach zmiennych X. Przewidywanie w zakresie wartości w zbiorze danych używanym do dopasowywania modelu jest nieformalnie nazywane interpolacją . Przewidywanie poza tym zakresem danych jest znane jako ekstrapolacja . Przeprowadzanie ekstrapolacji w dużym stopniu opiera się na założeniach regresji. Im dalej ekstrapolacja wychodzi poza dane, tym więcej jest miejsca na niepowodzenie modelu z powodu różnic między założeniami a danymi próbki lub wartościami rzeczywistymi.

Generalnie zaleca się, aby podczas ekstrapolacji do szacowanej wartości zmiennej zależnej dołączyć przedział predykcji , który reprezentuje niepewność. Takie przedziały mają tendencję do szybkiego rozszerzania się, gdy wartości zmiennej niezależnej (zmiennych) niezależnej (zmiennych) wykraczają poza zakres objęty obserwowanymi danymi.

Z takich i innych powodów niektórzy twierdzą, że ekstrapolacja może być nierozsądna.

Nie obejmuje to jednak pełnego zestawu błędów modelowania, jakie można popełnić: w szczególności założenia określonej postaci dla relacji między Y i X . Prawidłowo przeprowadzona analiza regresji będzie zawierała ocenę dopasowania przyjętej formy do obserwowanych danych, ale może to zrobić tylko w zakresie rzeczywiście dostępnych wartości zmiennych niezależnych. Oznacza to, że każda ekstrapolacja jest szczególnie uzależniona od założeń dotyczących strukturalnej postaci relacji regresji. Najlepszą radą jest tutaj to, że relacji liniowa w zmiennych i liniowa w parametrach nie powinna być wybierana tylko dla wygody obliczeniowej, ale aby cała dostępna wiedza została wykorzystana w konstruowaniu modelu regresji. Jeśli ta wiedza obejmuje fakt, że zmienna zależna nie może wyjść poza pewien zakres wartości, można to wykorzystać przy wyborze modelu – nawet jeśli obserwowany zbiór danych nie ma wartości szczególnie zbliżonych do takich granic. Konsekwencje tego kroku wyboru odpowiedniej formy funkcjonalnej dla regresji mogą być duże, gdy rozważy się ekstrapolację. Może przynajmniej zapewnić, że każda ekstrapolacja wynikająca z dopasowanego modelu jest „realistyczna” (lub zgodna z tym, co wiadomo).

Obliczenia mocy i wielkości próbki

Nie ma ogólnie przyjętych metod powiązania liczby obserwacji z liczbą zmiennych niezależnych w modelu. Jedną z metod wymyślonych przez Gooda i Hardina jest , gdzie jest rozmiar próbki, jest liczbą zmiennych niezależnych i jest liczbą obserwacji potrzebnych do osiągnięcia pożądanej precyzji, jeśli model miał tylko jedną zmienną niezależną. Na przykład badacz buduje model regresji liniowej przy użyciu zestawu danych zawierającego 1000 pacjentów ( ). Jeśli badacz uzna, że ​​do precyzyjnego zdefiniowania linii prostej potrzeba pięciu obserwacji ( ), to maksymalna liczba zmiennych niezależnych, jakie może obsłużyć model, wynosi 4, ponieważ

Inne metody

Chociaż parametry modelu regresji są zwykle szacowane metodą najmniejszych kwadratów, inne metody, które zostały wykorzystane, to:

Oprogramowanie

Wszystkie główne pakiety oprogramowania statystycznego przeprowadzają analizę regresji metodą najmniejszych kwadratów i wnioskowanie. Prostą regresję liniową i regresję wielokrotną przy użyciu najmniejszych kwadratów można przeprowadzić w niektórych aplikacjach arkuszy kalkulacyjnych i niektórych kalkulatorach. Chociaż wiele pakietów oprogramowania statystycznego może wykonywać różne rodzaje nieparametrycznej i solidnej regresji, metody te są mniej wystandaryzowane; różne pakiety oprogramowania implementują różne metody, a metoda o podanej nazwie może być różnie zaimplementowana w różnych pakietach. Specjalistyczne oprogramowanie do regresji zostało opracowane do użytku w dziedzinach takich jak analiza ankiet i neuroobrazowanie.

Zobacz też

Bibliografia

Dalsze czytanie

Evan J. Williams, „I. Regresja”, s. 523-41.
Julian C. Stanley , „II. Analiza wariancji”, s. 541–554.

Zewnętrzne linki