Niedopasowana suma kwadratów - Lack-of-fit sum of squares

W statystycznych , A suma kwadratów z powodu braku dopasowania lub więcej krótko do sumy kwadratów lack of dopasowanie , jest jednym ze składników przegrodą z sumy kwadratów z reszt w sposób analizy wariancji , używane w licznik w F-test z hipotezy zerowej , która mówi, że proponowany model dobrze pasuje. Drugi składnik to błędna suma kwadratów .

Suma kwadratów błędu czystego jest sumą kwadratów odchyleń każdej wartości zmiennej zależnej od średniej wartości ze wszystkich obserwacji mających wspólną wartość (wartości) zmiennej niezależnej . Są to błędy, których nigdy nie można było uniknąć za pomocą żadnego równania predykcyjnego, które przypisywało przewidywaną wartość zmiennej zależnej jako funkcję wartości zmiennej niezależnej (zmiennych niezależnych). Pozostałą pozostałą sumę kwadratów przypisuje się niedopasowaniu modelu, ponieważ matematycznie możliwe byłoby całkowite wyeliminowanie tych błędów.

Szkic pomysłu

Aby suma kwadratów niedopasowania różniła się od sumy kwadratów reszt , musi istnieć więcej niż jedna wartość zmiennej odpowiedzi dla co najmniej jednej z wartości zbioru zmiennych predykcyjnych. Na przykład rozważ dopasowanie linii

metodą najmniejszych kwadratów . Jako oszacowania α i β przyjmuje się wartości, które minimalizują sumę kwadratów reszt, tj. Sumę kwadratów różnic między obserwowaną wartością y a dopasowaną wartością y . Aby mieć niedopasowaną sumę kwadratów, która różni się od rezydualnej sumy kwadratów, należy zaobserwować więcej niż jedną wartość y dla każdej z jednej lub więcej wartości x . Następnie dzieli się „sumę kwadratów z powodu błędu”, tj. Sumę kwadratów reszt, na dwa składniki:

suma kwadratów z powodu błędu = (suma kwadratów z powodu „czystego” błędu) + (suma kwadratów z powodu braku dopasowania).

Suma kwadratów z powodu „czystego” błędu jest sumą kwadratów różnic między każdą zaobserwowaną wartością y a średnią wszystkich wartości y odpowiadających tej samej wartości x .

Suma kwadratów z powodu braku dopasowania jest ważoną sumą kwadratów różnic między każdą średnią wartości y odpowiadających tej samej wartości x i odpowiadającej dopasowanej wartości y , przy czym waga w każdym przypadku jest po prostu liczbą obserwowanych Y -values do tego x -wartość. Ponieważ właściwością regresji najmniejszych kwadratów jest to, że wektor, którego składowe są „czystymi błędami” i wektor składowych niedopasowania, są względem siebie ortogonalne, zachodzi następująca równość:

Stąd rezydualna suma kwadratów została całkowicie rozłożona na dwa składniki.

Szczegóły matematyczne

Rozważ dopasowanie linii z jedną zmienną predykcyjną. Zdefiniuj i jako indeks każdej z n odrębnych wartości x , j jako indeks obserwacji zmiennej odpowiedzi dla danej wartości x , a n i jako liczbę wartości y powiązanych z i- wartością x . Wartość każdej obserwacji zmiennej odpowiedzi można przedstawić za pomocą

Pozwolić

być estymatami metodą najmniejszych kwadratów nieobserwowalnych parametrów α i β na podstawie obserwowanych wartości x i oraz Y i j .   

Pozwolić

być dopasowanymi wartościami zmiennej odpowiedzi. Następnie

resztami , które są obserwowalnymi oszacowaniami nieobserwowalnych wartości składnika błędu  ε ij . Ze względu na naturę metody najmniejszych kwadratów cały wektor reszt z  

komponenty skalarne z konieczności spełniają te dwa ograniczenia

Jest więc ograniczona do leżenia w ( N  - 2) -wymiarowej podprzestrzeni R N , tj. Istnieje N  - 2 „ stopnie swobody błędu”.  

Teraz pozwól

być średnią wszystkich wartości Y związanych z i- tą wartością x .

Sumę kwadratów z powodu błędu dzielimy na dwa składniki:

Rozkłady prawdopodobieństwa

Sumy kwadratów

Załóżmy, że składniki błędu ε i jniezależne i mają rozkład normalny z wartością oczekiwaną  0 i wariancją σ 2 . Traktujemy x i jako stałe, a nie losowe. Wtedy zmienne odpowiedzi Y i j są losowe tylko dlatego, że błędy ε i j są losowe.      

Można wykazać, że jeśli model liniowy jest poprawny, to suma kwadratów z powodu błędu podzielona przez wariancję błędu,

ma rozkład chi-kwadrat z N  - 2 stopniami swobody.

Ponadto, biorąc pod uwagę całkowitą liczbę obserwacji N , liczbę poziomów zmiennej niezależnej n oraz liczbę parametrów w modelu p :

  • Suma kwadratów z powodu czystego błędu, podzielona przez wariancję błędu σ 2 , ma rozkład chi-kwadrat z N  -  n stopniami swobody;
  • Suma kwadratów z powodu braku dopasowania, podzielona przez wariancję błędu σ 2 , ma rozkład chi-kwadrat z n  -  p stopniami swobody (tutaj p  = 2, ponieważ w modelu prostoliniowym istnieją dwa parametry);
  • Dwie sumy kwadratów są prawdopodobnie niezależne.

Statystyka testowa

Wynika z tego, że statystyka

ma rozkład F z odpowiednią liczbą stopni swobody w liczniku i mianowniku, pod warunkiem, że model jest poprawny. Jeśli model jest błędny, to rozkład prawdopodobieństwa mianownika jest nadal taki, jak podano powyżej, a licznik i mianownik są nadal niezależne. Ale licznik ma wówczas noncentral rozkład chi-kwadrat , a co za tym idzie iloraz jako całość ma noncentral F-dystrybucji .

Używa się tej statystyki F do testowania hipotezy zerowej, że model liniowy jest poprawny. Ponieważ niecentralny rozkład F jest stochastycznie większy niż (centralny) rozkład F, odrzuca się hipotezę zerową, jeśli statystyka F jest większa niż krytyczna wartość F. Krytyczne odpowiada wartość wskazuje na dystrybuantę z rozkładu F z x równą żądanej poziomie ufności i stopnie swobody d 1  = ( N  -  P ) i D 2  = ( N  -  n ).

Można wykazać, że założenia dotyczące normalnego rozkładu błędów i niezależności pociągają za sobą, że ten test braku dopasowania jest testem współczynnika wiarygodności tej hipotezy zerowej.

Zobacz też

Uwagi