Błędy i pozostałości - Errors and residuals

W statystykach i optymalizacji , błędy i pozostałości są dwa ściśle powiązane i łatwo pomylić środki z odchyleniem od obserwowanej wartości elementu do próby statystycznej od jego „wartości teoretycznej”. Błędów (lub zakłóceń ) od obserwowanej wartości jest odchylenie od obserwowanej wartości z (nieobserwowalnej) prawdziwej wartości ilości zainteresowania (na przykład, średnia liczba ludności ), a resztkowa od obserwowanej wartości jest różnica między obserwowana wartość i szacunkowa wartość interesującej nas wielkości (na przykład średnia z próby ). Rozróżnienie to jest najważniejsze w analizie regresji , gdzie pojęcia są czasami nazywane błędami regresji i resztami regresji i gdzie prowadzą do pojęcia reszt studenckich .

Wstęp

Załóżmy, że istnieje seria obserwacji z rozkładu jednowymiarowego i chcemy oszacować średnią tego rozkładu (tzw. model lokalizacji ). W tym przypadku błędami są odchylenia obserwacji od średniej populacji, natomiast reszty są odchyleniami obserwacji od średniej z próby.

Błąd statystyczny (lub zaburzenia ) jest ilość w wyniku którego różni obserwacji od jej wartości oczekiwanej , przy czym ten ostatni w odniesieniu do całej populacji , z którego jednostka statystyczna została wybrana losowo. Na przykład, jeśli średni wzrost w populacji 21-letnich mężczyzn wynosi 1,75 metra, a jeden losowo wybrany mężczyzna ma 1,80 metra, to „błąd” wynosi 0,05 metra; jeśli losowo wybrany mężczyzna ma 1,70 metra wzrostu, to „błąd” wynosi −0,05 metra. Wartość oczekiwana, będąca średnią z całej populacji, jest zazwyczaj nieobserwowalna, a co za tym idzie nie można również zaobserwować błędu statystycznego.

Z drugiej strony, reszta (lub odchylenie dopasowania) jest obserwowalnym oszacowaniem nieobserwowalnego błędu statystycznego. Rozważ poprzedni przykład z wzrostem mężczyzn i załóżmy, że mamy losową próbkę n osób. Średnia próbka mogła służyć jako dobry estymatora w populacji średniej. Potem będzie:

  • Różnica między wzrostem każdego mężczyzny w próbie a nieobserwowalną średnią populacji jest błędem statystycznym , natomiast
  • Różnica między wzrostem każdego człowieka w próbce a obserwowalną średnią próbki jest pozostałością .

Należy pamiętać, że ze względu na definicję próbki średniej, suma reszt ramach próby losowej jest koniecznie zero, a zatem pozostałości muszą nie niezależne . Natomiast błędy statystyczne są niezależne, a ich suma w próbie losowej prawie na pewno nie jest równa zeru.

Można standaryzować błędów statystycznych (zwłaszcza o rozkładzie normalnym ), w z-średniej (czyli „standardowe”) ocenę, a pozostałości standaryzować w A t -statistic lub bardziej ogólnie studentyzowanego pozostałości .

W rozkładach jednowymiarowych

Jeśli założymy populację o rozkładzie normalnym ze średnią μ i odchyleniem standardowym σ i niezależnie dobierzemy osobniki, to mamy

a średnia próbki

jest zmienną losową o rozkładzie takim, że:

Te błędy statystyczne są następnie

z oczekiwanymi wartościami zerowymi, natomiast reszty

Suma kwadratów błędów statystycznych podzielona przez σ 2 ma rozkład chi-kwadrat z n stopniami swobody :

Jednak tej wielkości nie można zaobserwować, ponieważ średnia populacji jest nieznana. Natomiast suma kwadratów reszt jest obserwowalna. Iloraz tej sumy przez σ 2 ma rozkład chi-kwadrat z tylko n  − 1 stopniami swobody:

Ta różnica między n i n  − 1 stopniem swobody skutkuje poprawką Bessela dla estymacji wariancji próby populacji o nieznanej średniej i nieznanej wariancji. Korekta nie jest konieczna, jeśli znana jest średnia populacji.

Uwaga

Godne uwagi jest to, że można wykazać, że suma kwadratów reszt i średnia z próbki są od siebie niezależne, używając np . twierdzenia Basu . Fakt ten oraz podane powyżej rozkłady normalne i chi-kwadrat stanowią podstawę obliczeń dotyczących statystyki t :

gdzie oznacza błędy, oznacza odchylenie standardowe próby dla próby o rozmiarze n i nieznanej σ , a mianownik uwzględnia odchylenie standardowe błędów zgodnie z:

Rozkłady prawdopodobieństwa licznika i mianownika osobno zależą od wartości nieobserwowalnego odchylenia standardowego populacji σ , ale σ pojawia się zarówno w liczniku, jak i mianowniku i anuluje. To dobrze, ponieważ oznacza to, że chociaż nie znamy  σ , znamy rozkład prawdopodobieństwa tego ilorazu: ma on rozkład t-Studenta z n  − 1 stopniami swobody. Możemy zatem użyć tego ilorazu, aby znaleźć przedział ufności dla  μ . Ta statystyka t może być interpretowana jako „liczba błędów standardowych oddalonych od linii regresji”.

Regresje

W analizie regresji rozróżnienie między błędami a resztami jest subtelne i ważne i prowadzi do koncepcji uśrednionych reszt . Biorąc pod uwagę funkcję nieobserwowalną, która wiąże zmienną niezależną ze zmienną zależną – powiedzmy prostą – odchylenia obserwacji zmiennej zależnej od tej funkcji są błędami nieobserwowalnymi. Jeśli przeprowadza się regresję na niektórych danych, to odchylenia obserwacji zmiennej zależnej od dopasowanej funkcji są resztami. Jeśli model liniowy ma zastosowanie, wykres rozrzutu reszt wykreślony względem zmiennej niezależnej powinien być losowy w pobliżu zera bez trendu do reszt. Jeśli dane wykazują trend, model regresji jest prawdopodobnie niepoprawny; na przykład prawdziwa funkcja może być wielomianem kwadratowym lub wyższego rzędu. Jeśli są losowe lub nie mają trendu, ale „rozlewają się” – wykazują zjawisko zwane heteroskedastycznością . Jeśli wszystkie reszty są równe lub nie rozchodzą się, wykazują homoskedastyczność .

Jednak w wyrażeniu błąd średniokwadratowy (MSE) pojawia się różnica terminologiczna . Średniokwadratowy błąd regresji jest liczbą obliczoną z sumy kwadratów obliczonych reszt , a nie błędów nieobserwowalnych . Jeśli ta suma kwadratów zostanie podzielona przez n , liczbę obserwacji, wynikiem jest średnia kwadratów reszt. Ponieważ jest to tendencyjne oszacowanie wariancji nieobserwowanych błędów, obciążenie usuwa się dzieląc sumę kwadratów reszt przez df = n  −  p  − 1, zamiast n , gdzie df jest liczbą stopni swobody ( n minus liczba parametrów (z wyłączeniem wyrazu wolnego) p szacowane - 1). Stanowi to bezstronne oszacowanie wariancji nieobserwowanych błędów i jest nazywane błędem średniokwadratowym.

Inna metoda obliczania średniego kwadratu błędu podczas analizy wariancji regresji liniowej przy użyciu techniki takiej jak ta używana w ANOVA (są takie same, ponieważ ANOVA jest rodzajem regresji), suma kwadratów reszt (czyli suma kwadratów błędu) dzieli się przez stopnie swobody (gdzie stopnie swobody są równe n  −  p  − 1, gdzie p to liczba parametrów oszacowanych w modelu (po jednym dla każdej zmiennej w równaniu regresji, nie uwzględniając wyrazu wolnego) ). Następnie można również obliczyć średni kwadrat modelu, dzieląc sumę kwadratów modelu minus stopnie swobody, czyli po prostu liczbę parametrów. Następnie wartość F można obliczyć, dzieląc średni kwadrat modelu przez średni kwadrat błędu, a następnie możemy określić istotność (dlatego chcesz zacząć od średnich kwadratów).

Jednak ze względu na zachowanie procesu regresji rozkłady reszt w różnych punktach danych (zmiennej wejściowej) mogą się różnić, nawet jeśli same błędy mają identyczny rozkład. Konkretnie, w regresji liniowej , w której błędy mają identyczny rozkład, zmienność reszt danych wejściowych w środku domeny będzie wyższa niż zmienność reszt na końcach domeny: regresje liniowe lepiej dopasowują się do punktów końcowych niż w środku. Znajduje to również odzwierciedlenie w funkcjach wpływu różnych punktów danych na współczynniki regresji : punkty końcowe mają większy wpływ.

Tak więc, aby porównać reszty dla różnych danych wejściowych, należy skorygować reszty o oczekiwaną zmienność reszt, co nazywa się uczennicowaniem . Jest to szczególnie ważne w przypadku wykrywania wartości odstających , gdy dany przypadek różni się w jakiś sposób od drugiego w zbiorze danych. Na przykład można się spodziewać dużej pozostałości w środku domeny, ale uważa się ją za wartość odstającą na końcu domeny.

Inne zastosowania słowa „błąd” w statystykach

Użycie terminu „błąd”, jak omówiono w powyższych sekcjach, oznacza odchylenie wartości od hipotetycznej wartości nieobserwowanej. W statystykach występują również co najmniej dwa inne zastosowania, oba odnoszące się do obserwowalnych błędów predykcji:

Średni kwadrat błędu (MSE) odnosi się do ilości, w którym wartości przewidywanych estymatora różnią się od ilości produktów oszacowano (na ogół na zewnątrz próbki, w której wzór oszacowano). Korzeń średni błąd kwadratowy (RMSE) to pierwiastek kwadratowy z MSE. Suma kwadratów błędów (SSE) jest MSE pomnożony przez wielkość próbki.

Suma kwadratów reszt (SSR) to suma kwadratów odchyleń wartości rzeczywistych od wartości przewidywanych w ramach próby użytej do estymacji. Jest to podstawa dooszacowania metodą najmniejszych kwadratów , gdzie współczynniki regresji są dobrane tak, aby SSR był minimalny (tj. jego pochodna wynosi zero).

Podobnie suma błędów bezwzględnych (SAE) jest sumą wartości bezwzględnych reszt, która jest minimalizowana w podejściu do regresji z najmniejszymi odchyleniami bezwzględnymi .

Średni błąd (ME) jest nastawienie . Średnią resztkowa (MR) jest zawsze zero dla najmniejszych kwadratów estymatorów.

Zobacz też

Bibliografia

Zewnętrzne linki