Regresja Poissona - Poisson regression

W statystykach , regresja Poissona jest ogólny model liniowy forma analizy regresji wykorzystywany do modelowania danych zliczania i stoły awaryjnych . Regresja Poissona zakłada, że zmienna odpowiedzi Y ma rozkład Poissona i zakłada, że logarytm jej oczekiwanej wartości może być modelowany przez kombinację liniową nieznanych parametrów . Model regresji Poissona jest czasami nazywany modelem log-liniowym , zwłaszcza gdy jest używany do modelowania tabel kontyngencji.

Ujemna regresja dwumianowa jest popularnym uogólnieniem regresji Poissona, ponieważ rozluźnia wysoce restrykcyjne założenie, że wariancja jest równa średniej z modelu Poissona. Tradycyjny negatywny dwumianowy model regresji, powszechnie znany jako NB2, opiera się na rozkładzie mieszaniny Poissona-gamma. Model ten jest popularny, ponieważ modeluje niejednorodność Poissona z rozkładem gamma.

Modele regresji Poissona są uogólnionymi modelami liniowymi z logarytmem jako (kanoniczną) funkcją łączenia , a rozkładem Poissona jako założonym rozkładem prawdopodobieństwa odpowiedzi.

Modele regresji

Jeżeli jest wektorem zmiennych niezależnych , to model przyjmuje postać ${\ Displaystyle \ mathbf {x} \ w \ mathbb {R} ^ {n}}$

{\ Displaystyle \ log (\ nazwa operatora {E} (Y \ mid \ mathbf {x} )) = \ alfa + \ mathbf {\ beta} '\ mathbf {x}}

gdzie i . Czasami jest to napisane bardziej zwięźle jako ${\ Displaystyle \ alfa \ w \ mathbb {R}}$ ${\ Displaystyle \ mathbf {\ beta} \ w \ mathbb {R} ^ {n}}$

{\ Displaystyle \ log (\ nazwa operatora {E} (Y \ mid \ mathbf {x} )) = {\ pogrubienie {\ theta}} '\ mathbf {x}, \,}

gdzie x jest teraz ( n + 1)-wymiarowym wektorem składającym się z n niezależnych zmiennych połączonych z liczbą jeden. Tutaj θ jest po prostu α połączone z β .

Zatem, gdy dany model regresji Poissona θ i wektor wejściowy x , przewidywana średnia powiązanego rozkładu Poissona jest dana wzorem

{\ Displaystyle \ operatorname {E} (Y \ mid \ mathbf {x} ) = e ^ {{\ pogrubienie {\ theta}} '\ mathbf {x}}. \,}

Jeśli Y _i są niezależnymi obserwacjami o odpowiadających wartościach x _i zmiennych predykcyjnych, to θ można oszacować przez maksymalne prawdopodobieństwo . Szacunki maksymalnego prawdopodobieństwa nie zawierają wyrażenia w formie zamkniętej i należy je znaleźć metodami numerycznymi. Powierzchnia prawdopodobieństwa dla regresji Poissona z maksymalnym prawdopodobieństwem jest zawsze wklęsła, dzięki czemu metoda Newtona-Raphsona lub inne metody oparte na gradientach są odpowiednimi technikami estymacji.

Szacowanie parametrów w oparciu o maksymalną wiarygodność

Mając zestaw parametrów θ i wektor wejściowy x , średnia przewidywanego rozkładu Poissona , jak podano powyżej, jest dana wzorem

{\ Displaystyle \ lambda : = \ operatorname {e} (Y \ mid x) = e ^ {\ theta 'x}, \,}

a zatem funkcja masy prawdopodobieństwa rozkładu Poissona jest dana przez

{\ Displaystyle p (y \ mid x; \ theta ) = {\ Frac {\ lambda ^ {y}} {y!}} e ^ {- \ lambda} = {\ Frac {e ^ {y \ theta 'x }e^{-e^{\theta 'x}}}{y!}}}

Załóżmy teraz, że otrzymujemy zestaw danych składający się z m wektorów wraz z zestawem m wartości . Wtedy dla danego zbioru parametrów θ prawdopodobieństwo uzyskania tego konkretnego zbioru danych jest podane przez ${\ Displaystyle X_ {i} \ w \ mathbb {R} ^ {n + 1}, \, i = 1, \ ldots, m}$ ${\ Displaystyle y_ {1}, \ ldots, y_ {m} \ w \ mathbb {N}}$

{\ Displaystyle p (y_ {1}, \ ldots, y_ {m} \ mid x_ {1}, \ ldots, x_ {m}; \ theta ) = \ prod _ {i = 1} ^ {m} {\ frac {e^{y_{i}\theta 'x_{i}}e^{-e^{\theta 'x_{i}}}}{y_{i}!}}.}

Metodą największego prawdopodobieństwa , chcemy znaleźć zbiór parametrów θ, który czyni to prawdopodobieństwo jak największym. Aby to zrobić, równanie jest najpierw przepisywane jako funkcja wiarygodności pod względem θ :

{\ Displaystyle L (\ theta \ mid X, Y) = \ prod _ {i = 1} ^ {m} {\ Frac {e ^ {y_ {i}} \ theta 'x_ {i}} e ^ {-e ^{\theta 'x_{i}}}}{y_{i}!}}.}

Zauważ, że wyrażenie po prawej stronie nie uległo zmianie. Formuła w tej formie jest zazwyczaj trudna do pracy; zamiast tego używa się logarytmicznego prawdopodobieństwa :

{\ Displaystyle \ ell (\ theta \ mid X Y) = \ log L (\ theta \ mid X Y) = \ suma _ {i = 1} ^ {m} \ lewo (y_ {i} \ theta ' x_{i}-e^{\theta 'x_{i}}-\log(y_{i}!)\right).}

Zauważ, że parametry θ pojawiają się tylko w pierwszych dwóch wyrazach każdego terminu w podsumowaniu. Dlatego, zakładając, że interesuje nas tylko znalezienie najlepszej wartości dla θ, możemy pominąć y _i ! i po prostu napisz

{\ Displaystyle \ ell (\ theta \ mid X, Y) = \ suma _ {i = 1} ^ {m} \ lewo (y_ {i} \ theta 'x_ {i} -e ^ {\ theta ' x_ { i}}\prawda).}

Aby znaleźć maksimum, musimy rozwiązać równanie, które nie ma rozwiązania w postaci zamkniętej. Jednak ujemny logarytm prawdopodobieństwa , , jest funkcją wypukłą, a więc standardowe techniki optymalizacji wypukłej , takie jak opadanie gradientu, mogą być stosowane w celu znalezienia optymalnej wartości θ . ${\ Displaystyle {\ Frac {\ częściowy \ ell (\ theta \ średni X, Y)} {\ częściowy \ theta}} = 0}$ $-\ell (\theta \mid X,Y)$

Regresja Poissona w praktyce

Regresja Poissona może być odpowiednia, gdy zmienną zależną jest liczba, na przykład zdarzenia, takie jak nadejście połączenia telefonicznego do call center. Zdarzenia muszą być niezależne w tym sensie, że nadejście jednego połączenia nie uczyni innego bardziej lub mniej prawdopodobnym, ale prawdopodobieństwo zdarzeń na jednostkę czasu jest rozumiane jako związane ze współzmiennymi, takimi jak pora dnia.

„Ekspozycja” i offset

Regresja Poissona może być również odpowiednia dla danych dotyczących wskaźnika, gdzie wskaźnik jest liczbą zdarzeń podzieloną przez pewną miarę ekspozycji tej jednostki (konkretnej jednostki obserwacji). Na przykład biolodzy mogą policzyć gatunki drzew w lesie: zdarzenia będą obserwacjami drzew, narażenie będzie jednostką powierzchni, a wskaźnik będzie liczbą gatunków na jednostkę powierzchni. Demografowie mogą modelować śmiertelność na obszarach geograficznych jako liczbę zgonów podzieloną przez osobolat. Mówiąc bardziej ogólnie, częstość zdarzeń można obliczyć jako zdarzenia w jednostce czasu, co pozwala na zmianę okna obserwacji dla każdej jednostki. W tych przykładach narażenie jest odpowiednio jednostką powierzchni, osobolat i jednostką czasu. W regresji Poissona jest to traktowane jako przesunięcie , gdzie zmienna ekspozycji wchodzi po prawej stronie równania, ale z oszacowaniem parametru (dla log(ekspozycji)) ograniczonym do 1.

{\ Displaystyle \ log (\ operatorname {E} (Y \ mid x)) = \ log ({\ tekst {ekspozycja}}) + \ theta „x}

co oznacza

{\ Displaystyle \ log (\ nazwa operatora {E} (Y \ mid x)) - \ log ({\ tekst {ekspozycja}}) = \ log \ lewo ({\ Frac {\ operatorname {E} (Y \ mid x) )}{\text{ekspozycja}}}\right)=\theta 'x}

Przesunięcie w przypadku GLM w R można osiągnąć za pomocą offset()funkcji:

glm(y ~ offset(log(exposure)) + x, family=poisson(link=log) )

Nadmierna dyspersja i zerowa inflacja

Cechą charakterystyczną rozkładu Poissona jest to, że jego średnia jest równa jego wariancji. W pewnych okolicznościach okaże się, że obserwowana wariancja jest większa niż średnia; jest to znane jako nadmierna dyspersja i wskazuje, że model nie jest odpowiedni. Częstym powodem jest pominięcie odpowiednich zmiennych objaśniających lub obserwacji zależnych. W pewnych okolicznościach problem nadmiernej dyspersji można rozwiązać, stosując zamiast tego estymację quasi-prawdopodobieństwa lub ujemny rozkład dwumianowy .

Ver Hoef i Boveng opisali różnicę między quasi-Poissonem (zwanym również naddyspersją z quasi-prawdopodobieństwem) a ujemnym dwumianem (równoważnym z gamma-Poissonem) w następujący sposób: Jeśli E ( Y ) = μ , model quasi-Poissona zakłada var( Y ) = θμ natomiast gamma-Poissona zakłada var( Y ) = μ (1 + κμ ), gdzie θ jest parametrem quasi-Poissona naddyspersji, a κ jest parametrem kształtu ujemnego rozkładu dwumianowego . W przypadku obu modeli parametry są szacowane przy użyciu iteracyjnej przeważonej metody najmniejszych kwadratów . W przypadku quasi-Poissona wagi wynoszą μ / θ . W przypadku ujemnego dwumianu wagi wynoszą μ /(1 + κμ ). Przy dużym μ i znacznej zmienności pozapoissona ujemne wagi dwumianowe są ograniczone do 1/ κ . Ver Hoef i Boveng omówili przykład, w którym dokonali wyboru między tymi dwoma, wykreślając średnie kwadraty reszt w stosunku do średniej.

Innym częstym problemem związanym z regresją Poissona są zera nadmiarowe: jeśli działają dwa procesy, jeden określający, czy występują zdarzenia zero lub jakiekolwiek zdarzenia, a proces Poissona określający liczbę zdarzeń, będzie więcej zer niż w przypadku regresji Poissona. przewidywać. Przykładem może być dystrybucja papierosów wypalonych w ciągu godziny przez członków grupy, w której niektóre osoby są niepalącymi.

Inne uogólnione modele liniowe, takie jak ujemny model dwumianowy lub model z wartością zerową, mogą w takich przypadkach działać lepiej.

Zastosowanie w analizie przeżycia

Regresja Poissona tworzy modele proporcjonalnego hazardu, jedną z klas analizy przeżycia : patrz modele proporcjonalnego hazardu dla opisów modeli Coxa.

Rozszerzenia

Uregulowana regresja Poissona

Szacując parametry regresji Poissona, zazwyczaj próbuje się znaleźć wartości dla θ, które maksymalizują prawdopodobieństwo wyrażenia postaci

{\ Displaystyle \ suma _ {i = 1} ^ {m} \ log (p (y_ {i}; e ^ {\ theta 'x_ {i}})),}

gdzie m oznacza liczbę przykładów w zbiorze danych i jest funkcją masy prawdopodobieństwa z rozkładem Poissona ze średnią zestawu do . Regularyzacja może zostać dodana do tego problemu optymalizacji poprzez maksymalizację ${\ Displaystyle p (y_ {i}; e ^ {\ theta 'x_ {i}})}$ ${\ Displaystyle e ^ {\ theta 'x_ {i}}}$

{\ Displaystyle \ suma _ {i = 1} ^ {m} \ log (p (y_ {i}; e ^ {\ theta 'x_ {i}}})) - \ lambda \ lewo \ | \ theta \ prawo \ |_{2}^{2},}

dla jakiejś dodatniej stałej . Ta technika, podobna do regresji grzbietowej , może zredukować nadmierne dopasowanie . ${\ Displaystyle \ lambda}$

Zobacz też

Bibliografia

Dalsza lektura

Cameron, AC; Trivedi, PK (1998). Analiza regresji danych liczebnościowych . Wydawnictwo Uniwersytetu Cambridge. Numer ISBN 978-0-521-63201-0.
Christensen, Ronald (1997). Modele log-liniowe i regresja logistyczna . Teksty Springera w statystyce (wyd. drugie). Nowy Jork: Springer-Verlag. Numer ISBN 978-0-387-98247-2. MR 1633357 .
Gouriéroux, Chrześcijanin (2000). „Ekonometria dyskretnych zmiennych dodatnich: model Poissona” . Ekonometria jakościowych zmiennych zależnych . Nowy Jork: Cambridge University Press. s. 270–83. Numer ISBN 978-0-521-58985-7.
Greene, William H. (2008). „Modele dla liczby zdarzeń i czasu trwania”. Analiza ekonometryczna (wyd. 8). Upper Saddle River: Prentice Hall. s. 906 -944. Numer ISBN 978-0-13-600383-0.
Hilbe, JM (2007). Ujemna regresja dwumianowa . Wydawnictwo Uniwersytetu Cambridge. Numer ISBN 978-0-521-85772-7.
Jones, Andrew M.; i in. (2013). „Modele danych zliczania”. Stosowana Ekonomia Zdrowia . Londyn: Routledge. s. 295-341. Numer ISBN 978-0-415-67682-3.
Myers, Raymond H.; i in. (2010). „Logistyczne i modele regresji Poissona”. Uogólnione modele liniowe z zastosowaniami w inżynierii i naukach (druga red.). New Jersey: Wiley. s. 176–183. Numer ISBN 978-0-470-45463-3.

Languages

In other projects