t -statystyczna - t-statistic

W statystykach The t -statistic jest stosunek odejściu szacunkowej wartości parametru od jego wartości hipotezę jej błędu standardowego . Jest on stosowany w testowaniu hipotez poprzez Studenta t -test . T -statistic stosuje się w t -Test w celu określenia, czy w celu obsługi lub odrzucenia hipotezy zerowej. Jest bardzo podobny do wskaźnika Z, ale z tą różnicą, że statystyka t jest używana, gdy wielkość próby jest mała lub odchylenie standardowe populacji jest nieznane. Na przykład statystyka t jest używana do szacowania średniej populacji na podstawie rozkładu próbkowania średnich z próby, jeśli odchylenie standardowe populacji jest nieznane. Jest również używany wraz z wartością p podczas przeprowadzania testów hipotez, w których wartość p mówi nam, jakie są szanse na wystąpienie wyników.

Definicja i cechy

Niech będzie estymatorem parametru β w pewnym modelu statystycznym . Wówczas statystyka t dla tego parametru jest dowolną wielkością w postaci

gdzie β 0 jest nieprzypadkową, znaną stałą, która może, ale nie musi odpowiadać rzeczywistej nieznanej wartości parametru β , i jest błędem standardowym estymatora dla β .

Domyślnie pakiety statystyczne raportują statystyki t- statystyczne z β 0 = 0 (te statystyki t są używane do testowania istotności odpowiedniego regresora). Jeśli jednak do przetestowania hipotezy postaci H 0 : β = β 0 potrzebna jest statystyka t , wówczas można zastosować niezerowe β 0 .

Jeżeli jest to zwykły najmniejszych kwadratów estymator w klasycznym modelu regresji liniowej (to jest z rozkładu normalnego i homoscedastic warunki błędu), a jeżeli rzeczywista wartość parametru P jest równe p 0 , następnie rozkład próbkowania z następujących t -statistic jest także studenta t -Dystrybucja z ( n - K ) stopniach swobody, w której n oznacza liczbę obserwacji, a k oznacza liczbę regresorów (łącznie z osią).

W większości modeli estymator jest zgodny dla β i ma rozkład asymptotyczny normalnie . Jeśli prawdziwa wartość parametru β jest równa β 0, a wielkość prawidłowo szacuje asymptotyczną wariancję tego estymatora, to statystyka t będzie miała asymptotyczny rozkład normalny .

W niektórych modelach rozkład statystyki t różni się od rozkładu normalnego, nawet asymptotycznie. Na przykład, gdy szereg czasowy z pierwiastkiem jednostkowym jest regresowany w rozszerzonym teście Dickeya-Fullera , test t- statystyka będzie asymptotycznie mieć jeden z rozkładów Dickeya-Fullera (w zależności od ustawienia testu).

Posługiwać się

Najczęściej t statystyki są wykorzystywane w Studenta t -tests , forma weryfikacja hipotez statystycznych , a także w niektórych obliczeń przedziałów ufności .

Kluczową właściwością statystyki t jest to, że jest to wielkość kluczowa - choć zdefiniowana na podstawie średniej z próby, jej rozkład próbkowania nie zależy od parametrów populacji, a zatem może być stosowany niezależnie od tego, jakie to mogą być.

Można też dzieli a resztkowa przez próbkę odchylenia standardowego :

aby obliczyć oszacowanie liczby odchyleń standardowych, dana próba pochodzi ze średniej, jako próbnej wersji wyniku z , przy czym z-score wymaga parametrów populacji.

Prognoza

Biorąc pod uwagę rozkład normalny z nieznaną średnią i wariancją, statystyka t przyszłej obserwacji po dokonaniu n obserwacji jest statystyką pomocniczą - wielkością kluczową ( niezależną od wartości μ i σ 2 ), która jest statystyką (obliczone na podstawie obserwacji). Pozwala to na obliczenie częstego przedziału predykcji (predykcyjnego przedziału ufności ) poprzez następujący rozkład t:

Rozwiązanie dla daje rozkład prognozy

z którego można obliczyć predykcyjne przedziały ufności - mając prawdopodobieństwo p, można obliczyć takie przedziały, że w 100 p % przypadków następna obserwacja przypadnie w tym przedziale.

Historia

Termin „statystyka t ” jest skrótem od „statystyki testowej hipotezy”. W statystyce rozkład t został po raz pierwszy wyprowadzony jako rozkład późniejszy w 1876 roku przez Helmerta i Lürotha . Rozkład t pojawił się również w bardziej ogólnej formie, jak rozkład Pearsona typu IV w artykule Karla Pearsona z 1895 roku. Jednak T-Distribution, znana również jako Student's T Distribution, ma swoją nazwę od Williama Sealy'ego Gosseta, który jako pierwszy opublikował wynik w języku angielskim w swoim artykule z 1908 roku zatytułowanym „The Probable Error of a Mean” (w Biometrika ), używając swojego pseudonimu ” Student ”, ponieważ jego pracodawca wolał, aby ich pracownicy używali pseudonimów przy publikowaniu prac naukowych zamiast ich prawdziwego nazwiska, więc użył nazwiska„ Student ”, aby ukryć swoją tożsamość. Gosset pracował w browarze Guinnessa w Dublinie , Irlandia , i był zainteresowany problematyką małych próbek - na przykład, właściwości chemiczne jęczmienia gdzie Przykładowe rozmiary może być tak mało jak 3. Stąd drugiej wersji etymologii terminu Studenta jest to, że Guinness nie chciał, aby ich konkurenci wiedzieli, że używają testu t do określenia jakości surowca. Chociaż to William Gosset, na cześć którego powstał termin „Student”, w rzeczywistości dzięki pracy Ronalda Fishera dystrybucja stała się znana jako „dystrybucja studenta” i „ test t Studenta

Pojęcia pokrewne

Zobacz też

Bibliografia

Linki zewnętrzne