Podział sum kwadratów - Partition of sums of squares

Podział sumy kwadratów jest pojęciem, które przenika wiele z wnioskowania statystycznego i statystyki opisowej . Dokładniej, jest to podział sum kwadratów odchyleń lub błędów . Matematycznie suma kwadratów odchyleń jest nieskalowaną lub nieskorygowaną miarą rozproszenia (zwaną również zmiennością ). Po przeskalowaniu pod kątem liczby stopni swobody szacuje wariancję lub rozrzut obserwacji o ich średnią wartość. Podział sumy kwadratów odchyleń na różne składniki umożliwia przypisanie ogólnej zmienności w zbiorze danych różnym typom lub źródłom zmienności, przy czym względną ważność każdego z nich określa się ilościowo przez wielkość każdego składnika ogólnej sumy kwadratów.

Tło

Odległość od dowolnego punktu w zbiorze danych do średniej danych jest odchyleniem. Można to zapisać jako , gdzie jest i-tym punktem danych i jest oszacowaniem średniej. Jeśli wszystkie takie odchylenia zostaną podniesione do kwadratu, a następnie zsumowane, jak w , daje to „suma kwadratów” dla tych danych.

Gdy do zbioru zostanie dodanych więcej danych, suma kwadratów wzrośnie, z wyjątkiem mało prawdopodobnych przypadków, takich jak nowe dane równe średniej. Zwykle więc suma kwadratów będzie rosła wraz z rozmiarem zbioru danych. To przejaw tego, że jest nieskalowany.

W wielu przypadkach liczba stopni swobody to po prostu liczba danych w zbiorze minus jeden. Piszemy to jako n  − 1, gdzie n to liczba danych.

Skalowanie (znane również jako normalizowanie) oznacza dostosowywanie sumy kwadratów tak, aby nie rosła wraz ze wzrostem rozmiaru zbioru danych. Jest to ważne, gdy chcemy porównać próbki o różnej wielkości, np. próbkę 100 osób z próbą 20 osób. Gdyby suma kwadratów nie była znormalizowana, jej wartość byłaby zawsze większa dla próby 100 osób niż dla próby 20 osób. Aby przeskalować sumę kwadratów, dzielimy ją przez stopnie swobody, tj. obliczamy sumę kwadratów na stopień swobody lub wariancję. Z kolei odchylenie standardowe to pierwiastek kwadratowy z wariancji.

Powyższe opisuje, w jaki sposób suma kwadratów jest używana w statystyce opisowej; zobacz artykuł o całkowitej sumie kwadratów, aby zapoznać się z zastosowaniem tej szerokiej zasady do statystyki inferencyjnej .

Dzielenie sumy kwadratów w regresji liniowej

Twierdzenie. Mając model regresji liniowej zawierający stałą , oparty na próbie zawierającej n obserwacji, całkowitą sumę kwadratów można podzielić w następujący sposób na wyjaśnioną sumę kwadratów (ESS) i resztową sumę kwadratów (RSS):

gdzie równanie to jest równoważne każdej z następujących postaci:

gdzie jest wartością oszacowaną przez linię regresji mającą , , ..., jako oszacowane współczynniki .

Dowód

Wymóg, aby model zawierał stałą lub równoważnie, że macierz projektu zawiera kolumnę jedynek zapewnia, że tj . .

Dowód można również wyrazić w postaci wektorowej w następujący sposób:

Eliminacja terminów w ostatnim wierszu wykorzystywała fakt, że

Dalsze partycjonowanie

Należy zauważyć, że resztowa suma kwadratów może być dalej podzielona jako suma kwadratów niedopasowania plus suma kwadratów z powodu czystego błędu.

Zobacz też

Bibliografia