Estymacja trendu liniowego - Linear trend estimation

Estymacja trendu liniowego to technika statystyczna ułatwiająca interpretację danych. Gdy szereg pomiarów procesu traktuje się na przykład jako szereg czasowy , estymację trendu można wykorzystać do sformułowania i uzasadnienia stwierdzeń dotyczących tendencji w danych, odnosząc pomiary do czasów, w których miały one miejsce. Model ten można następnie wykorzystać do opisania zachowania obserwowanych danych bez wyjaśniania go. W tym przypadku estymacja trendu liniowego wyraża dane jako liniową funkcję czasu i może być również wykorzystana do określenia istotności różnic w zestawie danych połączonych czynnikiem kategorycznym. Przykładem tego ostatniego z nauk biomedycznych mogą być poziomy cząsteczki we krwi lub tkankach pacjentów z postępującą chorobą – na przykład łagodną, ​​umiarkowaną i ciężką. Jest to w przeciwieństwie do ANOVA , która jest zarezerwowana dla trzech lub więcej niezależnych grup (np. choroba serca, rak, zapalenie stawów) (patrz poniżej).

W szczególności przydatne może być określenie, czy pomiary wykazują tendencję wzrostową lub spadkową, która jest statystycznie odróżniona od zachowania losowego . Niektóre przykłady to określenie trendu średnich dziennych temperatur w danej lokalizacji od zimy do lata oraz określenie trendu w globalnej serii temperatur w ciągu ostatnich 100 lat. W tym drugim przypadku ważne są kwestie jednorodności (np. czy seria jest równie wiarygodna na całej swojej długości).

Wpasowanie w trend: najmniejsze kwadraty

Biorąc pod uwagę zestaw danych i chęć stworzenia pewnego rodzaju modelu tych danych, istnieje wiele różnych funkcji, które można wybrać do dopasowania. Jeśli nie ma wcześniejszego zrozumienia danych, najprostszą funkcją do dopasowania jest linia prosta z wartościami danych na osi y i czasem ( t = 1, 2, 3, ...) na osi x.

Po podjęciu decyzji o dopasowaniu linii prostej można to zrobić na różne sposoby, ale najczęstszym wyborem jest dopasowanie metodą najmniejszych kwadratów . Ta metoda minimalizuje sumę kwadratów błędów w serii danych y .

Biorąc pod uwagę zbiór punktów w czasie i wartości danych obserwowanych dla tych punktów w czasie, wartości i są wybierane tak, aby

jest zminimalizowany. Tutaj na + b jest linią trendu, więc suma kwadratów odchyleń od linii trendu jest minimalizowana. Zawsze można to zrobić w formie zamkniętej, ponieważ jest to przypadek prostej regresji liniowej .

W dalszej części tego artykułu „trend” będzie oznaczał nachylenie linii najmniejszych kwadratów, ponieważ jest to powszechna konwencja.

Trendy w danych losowych

Przed rozważeniem trendów w danych rzeczywistych warto zrozumieć trendy w danych losowych .

Wartości zacieniowane na czerwono są większe niż 99% pozostałych; niebieski, 95%; zielony, 90%. W tym przypadku wartości V omówione w tekście dla (jednostronnego) 95% ufności są postrzegane jako 0,2.

Jeśli przeanalizowana zostanie seria, o której wiadomo, że jest losowa – uczciwy spadek kości lub wygenerowane komputerowo liczby pseudolosowe – i linia trendu zostanie dopasowana do danych, szanse na oszacowanie dokładnie zerowego trendu są znikome. Oczekuje się jednak, że trend będzie niewielki. Jeśli pojedyncza seria obserwacji jest generowana z symulacji, które wykorzystują daną wariancję szumu, która jest równa obserwowanej wariancji naszych interesujących serii danych i danej długości (powiedzmy 100 punktów), duża liczba takich symulowanych serii (powiedzmy, 100 000 serii) można wygenerować. Te 100 000 szeregów można następnie analizować indywidualnie w celu obliczenia szacunkowych trendów w każdej serii, a wyniki te ustalają rozkład szacowanych trendów, których można się spodziewać na podstawie takich losowych danych – patrz diagram. Taki rozkład będzie normalny zgodnie z centralnym twierdzeniem granicznym, z wyjątkiem przypadków patologicznych. Można teraz wybrać poziom pewności statystycznej S – typowa jest ufność 95%; 99% byłoby bardziej rygorystyczne, 90% luźniejsze – i można zadać następujące pytanie: jaka jest graniczna wartość trendu V , która spowodowałaby, że S % trendów będzie pomiędzy − V a +V ?

Powyższą procedurę można zastąpić testem permutacji . W tym celu zbiór 100 000 wygenerowanych serii zostałby zastąpiony przez 100 000 serii skonstruowanych przez losowe przetasowanie obserwowanych serii danych; Oczywiście tak skonstruowany szereg byłby pozbawiony trendu, więc przy podejściu wykorzystującym dane symulowane szeregi te można wykorzystać do wygenerowania granicznych wartości trendu V i − V .

W powyższej dyskusji rozkład trendów obliczono metodą symulacji na podstawie dużej liczby prób. W prostych przypadkach (normalnie rozłożony losowy szum jest klasykiem) rozkład trendów można obliczyć dokładnie bez symulacji.

Przedział (- V , V ) może być wykorzystany przy podejmowaniu decyzji, czy trend oszacowany na podstawie rzeczywistych danych prawdopodobnie nie pochodzi z serii danych, która rzeczywiście ma trend zerowy. Jeżeli oszacowana wartość parametru regresji a leży poza tym zakresem, to taki wynik mógł wystąpić tylko przy prawdziwym zerowym trendzie, np. jeden raz na dwadzieścia, jeśli zastosowano wartość ufności S =95%; w tym przypadku można powiedzieć, że przy stopniu pewności S odrzucamy hipotezę zerową, że prawdziwy trend bazowy wynosi zero.

Należy jednak zauważyć, że jakąkolwiek wybierzemy wartość S , wówczas dany ułamek, 1 −  S , szeregów rzeczywiście losowych, zostanie zadeklarowany (fałszywie, konstrukcyjnie) jako mający znaczący trend. I odwrotnie, pewien ułamek szeregów, które w rzeczywistości mają trend niezerowy, nie zostanie uznany za posiadający trend.

Dane jako trend plus szum

Aby przeanalizować serię danych (w czasie), zakładamy, że można ją przedstawić jako trend plus szum:

gdzie i są nieznanymi stałymi, a 's są losowo rozłożonymi błędami . Jeśli można odrzucić hipotezę zerową, że błędy są niestacjonarne , to szereg niestacjonarny { y t } nazywamy trend-stacjonarny . Metoda najmniejszych kwadratów zakłada, że ​​błędy są niezależnie rozłożone z rozkładem normalnym . Jeśli nie jest to przypadek, testy hipoteza o nieznanych parametrów i b mogą być niedokładne. Najprościej jest, jeśli wszystkie mają ten sam rozkład, ale jeśli nie (jeśli niektóre mają wyższą wariancję , co oznacza, że ​​te punkty danych są skutecznie mniej pewne), można to wziąć pod uwagę podczas dopasowywania metodą najmniejszych kwadratów, ważąc każdy punkt przez odwrotność wariancji tego punktu.

W większości przypadków, gdy istnieje tylko jeden szereg czasowy do analizy, wariancję 's szacuje się, dopasowując trend w celu uzyskania szacowanych wartości parametrów, a tym samym pozwalając na przewidywane wartości

odejmowanie od danych (a tym samym detrendowanie danych) i pozostawienie reszt jako danych detrendowanych oraz oszacowanie wariancji od reszt — jest to często jedyny sposób oszacowania wariancji .

Po znamy „szum” z serii, możemy ocenić znaczenie trendu uzależniając hipotezy zerowej, że trend, nie różni się od 0. Z powyższej dyskusji na temat trendów w danych losowych ze znanej wariancji , my znać rozkład obliczonych trendów, jakich można się spodziewać na podstawie danych losowych (bez trendów). Jeżeli szacowany trend , jest większy niż wartość krytyczna dla pewnego poziomu istotności , wówczas szacowany trend jest uważany za znacząco różny od zera na tym poziomie istotności, a hipoteza zerowa o zerowym trendzie bazowym jest odrzucana.

Zastosowanie liniowej linii trendu było przedmiotem krytyki, co doprowadziło do poszukiwania alternatywnych podejść, aby uniknąć jej wykorzystania w estymacji modelu. Jedno z alternatywnych podejść obejmuje testy pierwiastka jednostkowego i technikę kointegracji w badaniach ekonometrycznych.

Szacowany współczynnik związany ze zmienną trendu liniowego, taką jak czas, jest interpretowany jako miara wpływu szeregu nieznanych lub znanych, ale niemierzalnych czynników na zmienną zależną w jednej jednostce czasu. Ściśle mówiąc, ta interpretacja ma zastosowanie tylko do ram czasowych estymacji. Poza tymi ramami czasowymi nie wiadomo, jak te niemierzalne czynniki zachowują się zarówno pod względem jakościowym, jak i ilościowym. Ponadto liniowość trendu czasowego rodzi wiele pytań:

(i) Dlaczego miałby być liniowy?

(ii) Jeśli trend jest nieliniowy, to w jakich warunkach jego włączenie wpływa na wielkość oraz statystyczną istotność oszacowań innych parametrów w modelu?

(iii) Włączenie do modelu liniowego trendu czasowego z założenia wyklucza występowanie fluktuacji tendencji zmiennej zależnej w czasie; czy jest to koniecznie ważne w konkretnym kontekście?

(iv) I czy w modelu istnieje fałszywa zależność, ponieważ leżąca u podstaw zmienna sprawcza sama w sobie podlega trendowi czasowemu?

W odpowiedzi na te pytania opublikowano wyniki badań matematyków, statystyków, ekonometryków i ekonomistów. Na przykład szczegółowe uwagi na temat znaczenia liniowych trendów czasowych w modelu regresji podano w Cameron (2005); Granger, Engle i wielu innych ekonometryków pisało o stacjonarności, testowaniu pierwiastków jednostkowych, kointegracji i kwestiach pokrewnych (streszczenie niektórych prac w tym zakresie można znaleźć w dokumencie informacyjnym Królewskiej Szwedzkiej Akademii Nauk (2003) a Ho-Trieu i Tucker (1990) napisali o logarytmicznych trendach czasowych z wynikami wskazującymi, że liniowe trendy czasowe są szczególnymi przypadkami cykli .

Przykład: zaszumione szeregi czasowe

W zaszumionych szeregach czasowych trudniej dostrzec trend. Na przykład, jeśli prawdziwy szereg to 0, 1, 2, 3 wszystkie plus jakiś niezależny „szum” o rozkładzie normalnym e o odchyleniu standardowym  E , a mamy przykładowy szereg o długości 50, to jeśli E  = 0,1 trend będzie oczywisty ; jeśli E  = 100 trend będzie prawdopodobnie widoczny; ale jeśli E  = 10000 trend zostanie pogrzebany w hałasie.

Jeśli weźmiemy pod uwagę konkretny przykład, globalny zapis temperatury powierzchni z ostatnich 140 lat przedstawiony przez IPCC : wówczas zmienność międzyroczna wynosi około 0,2°C, a trend około 0,6°C w ciągu 140 lat, z 95% przedziałem ufności wynoszącym 0,2 °C (przypadkowo mniej więcej taka sama wartość, jak zmienność międzyroczna). Stąd trend jest statystycznie różny od 0. Jednak, jak zauważono w innym miejscu, ten szereg czasowy nie jest zgodny z założeniami niezbędnymi do zachowania poprawności najmniejszych kwadratów.

Dobroć dopasowania ( r- kwadrat) i trend

Ilustracja wpływu filtrowania na r 2 . Czarny = dane niefiltrowane; czerwony = dane uśredniane co 10 punktów; niebieski = dane uśredniane co 100 punktów. Wszystkie mają ten sam trend, ale częstsze filtrowanie prowadzi do wyższego r 2 dopasowanej linii trendu.

Proces dopasowywania najmniejszych kwadratów daje wartość – r-kwadrat ( r 2 ) – która wynosi 1 minus stosunek wariancji reszt do wariancji zmiennej zależnej. Mówi, jaka część wariancji danych jest wyjaśniona dopasowaną linią trendu. To nie nie odnoszą się do istotności statystycznej linii trendu (patrz wykres); statystyczną istotność trendu określa jej statystyka t . Często filtrowanie szeregu zwiększa r 2 , nie zmieniając przy tym dopasowanego trendu.

Prawdziwe dane mogą wymagać bardziej skomplikowanych modeli

Dotychczas zakładano, że dane składają się z trendu plus szumu, przy czym szum w każdym punkcie danych jest niezależnymi i identycznie rozłożonymi zmiennymi losowymi i ma rozkład normalny . Rzeczywiste dane (na przykład dane klimatyczne) mogą nie spełniać tych kryteriów. Jest to ważne, ponieważ ma ogromny wpływ na łatwość, z jaką można analizować statystyki, aby uzyskać jak najwięcej informacji z serii danych. Jeśli istnieją inne efekty nieliniowe, które są skorelowane ze zmienną niezależną (takie jak wpływy cykliczne), zastosowanie estymacji trendu metodą najmniejszych kwadratów jest nieważne. Również tam, gdzie odchylenia są znacznie większe niż wynikowy trend liniowy, wybór punktu początkowego i końcowego może znacząco zmienić wynik. Oznacza to, że model jest matematycznie błędnie określony . Wnioskowania statystyczne (testy na obecność trendu, przedziały ufności dla trendu itp.) są nieważne, chyba że odpowiednio uwzględniono odchylenia od standardowych założeń, na przykład w następujący sposób:

W R trend liniowy danych można oszacować za pomocą funkcji „tslm” pakietu „prognoza”.

Trendy w danych klinicznych

Badania medyczne i biomedyczne często mają na celu ustalenie powiązania w zestawach danych, takich jak (jak wskazano powyżej) trzy różne choroby. Ale dane mogą być również powiązane w czasie (takie jak zmiana działania leku od wartości wyjściowej do miesiąca 1, do miesiąca 2) lub przez czynnik zewnętrzny, który może, ale nie musi być określony przez badacza i/lub osobę badaną. (takich jak brak bólu, łagodny ból, umiarkowany ból, silny ból). W takich przypadkach można by oczekiwać, że statystyka testu efektu (np. wpływ statyny na poziom cholesterolu , środek przeciwbólowy na stopień bólu lub zwiększenie dawki leku na mierzalny wskaźnik) będzie się zmieniać w bezpośredniej kolejności w miarę rozwoju efektu. Załóżmy, że średni poziom cholesterolu przed i po przepisaniu statyny spada z 5,6 mmol/l na początku do 3,4 mmol/l po jednym miesiącu i do 3,7 mmol/l po dwóch miesiącach. Przy wystarczającej mocy ANOVA najprawdopodobniej wykryje znaczny spadek po jednym i dwóch miesiącach, ale spadek nie jest liniowy. Ponadto może być wymagany test post hoc . Alternatywnym testem może być powtarzany pomiar (dwukierunkowy) ANOVA lub test Friedmana , w zależności od charakteru danych. Niemniej jednak, ponieważ grupy są uporządkowane, standardowa ANOVA jest nieodpowiednia. Jeśli poziom cholesterolu spadnie z 5,4 do 4,1 do 3,7, widać wyraźny trend liniowy. Tę samą zasadę można zastosować do wpływu częstości alleli/ genotypu , gdzie można argumentować, że SNP w nukleotydach XX, XY, YY są w rzeczywistości trendem braku Y, jednego Y, a następnie dwóch Y.

Matematyka estymacji trendu liniowego jest wariantem standardowej ANOVA, dającej różne informacje i byłaby najbardziej odpowiednim testem, jeśli badacze stawiają hipotezę o efekcie trendu w swojej statystyce testowej. Jednym z przykładów [1] są poziomy trypsyny w surowicy w sześciu grupach pacjentów uporządkowanych według dekady wieku (10-19 lat do 60-69 lat). Poziomy trypsyny (ng/ml) rosną w bezpośrednim liniowym trendzie 128, 152, 194, 207, 215, 218. Jak można się było spodziewać, „standardowa” ANOVA daje p  < 0,0001, podczas gdy liniowe oszacowanie trendu daje p  = 0,00006. Nawiasem mówiąc, można rozsądnie argumentować, że ponieważ wiek jest naturalnym wskaźnikiem zmiennym w sposób ciągły, nie powinien być kategoryzowany na dekady, a efekt wieku i trypsyny w surowicy poszukiwany przez korelację (zakładając, że dostępne są surowe dane). Kolejny przykład dotyczy substancji mierzonej w czterech punktach czasowych w różnych grupach: średnia [SD] (1) 1,6 [0,56], (2) 1,94 [0,75], (3) 2,22 [0,66], (4) 2,40 [0,79 ], co jest wyraźnym trendem. ANOVA daje p  = 0,091, ponieważ ogólna wariancja przekracza średnie, podczas gdy estymacja trendu liniowego daje p  = 0,012. Jednakże, gdyby dane zostały zebrane w czterech punktach czasowych u tych samych osób, estymacja trendu liniowego byłaby niewłaściwa i zastosowano dwuczynnikową (powtarzalne pomiary) ANOVA.

Zobacz też

Uwagi

Bibliografia

  • Bianchi, M.; Boyle, M.; Hollingsworth, D. (1999). „Porównanie metod szacowania trendów”. Litery ekonomii stosowanej . 6 (2): 103–109. doi : 10.1080/135048599353726 .
  • Cameron, S. (2005). „Sprawianie, że analiza regresji jest bardziej użyteczna, II”. Ekonometria . Maidenhead: Szkolnictwo wyższe McGraw Hill. s. 171–198. Numer ISBN 0077104285.
  • Chatfield, C. (1993). „Obliczanie prognoz interwałowych”. Journal of Business and Economic Statistics . 11 (2): 121–135. doi : 10.1080/07350015.1993.10509938 .
  • Ho-Trieu, Holandia; Tucker, J. (1990). „Kolejna uwaga na temat wykorzystania logarytmicznego trendu czasowego”. Przegląd Marketingu i Ekonomiki Rolnictwa . 58 (1): 89–90. DOI: 10.22004/ag.econ.12288
  • Kungl. Vetenskapsakademien (Królewska Szwedzka Akademia Nauk) (2003). „Ekonometria szeregów czasowych: kointegracja i autoregresyjna warunkowa heteroskedastyczność”. Zaawansowane informacje o nagrodzie Banku Szwecji w dziedzinie nauk ekonomicznych ku pamięci Alfreda Nobla .
  • Arianos, S.; Węgiel, A.; Turk, C. (2011). „Samopodobieństwo średnich kroczących wyższego rzędu” . Przegląd fizyczny E . 84 (4): 046113. doi : 10.1103/physreve.84.046113 . PMID  22181233 .