Podział sum kwadratów - Partition of sums of squares
Aby uzyskać szersze omówienie tego tematu, zobacz Analiza wariancji .
Ten artykuł dotyczy podziału sum kwadratów w statystyce. Inne zastosowania — zobacz Suma kwadratów .
Przekierowuje tutaj „partycjonowanie wariancji”. Nie należy go mylić z rozkładem wariancji .
Podział sumy kwadratów jest pojęciem, które przenika wiele z wnioskowania statystycznego i statystyki opisowej . Dokładniej, jest to podział sum kwadratów odchyleń lub błędów . Matematycznie suma kwadratów odchyleń jest nieskalowaną lub nieskorygowaną miarą rozproszenia (zwaną również zmiennością ). Po przeskalowaniu pod kątem liczby stopni swobody szacuje wariancję lub rozrzut obserwacji o ich średnią wartość. Podział sumy kwadratów odchyleń na różne składniki umożliwia przypisanie ogólnej zmienności w zbiorze danych różnym typom lub źródłom zmienności, przy czym względną ważność każdego z nich określa się ilościowo przez wielkość każdego składnika ogólnej sumy kwadratów.
Odległość od dowolnego punktu w zbiorze danych do średniej danych jest odchyleniem. Można to zapisać jako , gdzie jest i-tym punktem danych i jest oszacowaniem średniej. Jeśli wszystkie takie odchylenia zostaną podniesione do kwadratu, a następnie zsumowane, jak w , daje to „suma kwadratów” dla tych danych.
Gdy do zbioru zostanie dodanych więcej danych, suma kwadratów wzrośnie, z wyjątkiem mało prawdopodobnych przypadków, takich jak nowe dane równe średniej. Zwykle więc suma kwadratów będzie rosła wraz z rozmiarem zbioru danych. To przejaw tego, że jest nieskalowany.
W wielu przypadkach liczba stopni swobody to po prostu liczba danych w zbiorze minus jeden. Piszemy to jako n − 1, gdzie n to liczba danych.
Skalowanie (znane również jako normalizowanie) oznacza dostosowywanie sumy kwadratów tak, aby nie rosła wraz ze wzrostem rozmiaru zbioru danych. Jest to ważne, gdy chcemy porównać próbki o różnej wielkości, np. próbkę 100 osób z próbą 20 osób. Gdyby suma kwadratów nie była znormalizowana, jej wartość byłaby zawsze większa dla próby 100 osób niż dla próby 20 osób. Aby przeskalować sumę kwadratów, dzielimy ją przez stopnie swobody, tj. obliczamy sumę kwadratów na stopień swobody lub wariancję. Z kolei odchylenie standardowe to pierwiastek kwadratowy z wariancji.
Powyższe opisuje, w jaki sposób suma kwadratów jest używana w statystyce opisowej; zobacz artykuł o całkowitej sumie kwadratów, aby zapoznać się z zastosowaniem tej szerokiej zasady do statystyki inferencyjnej .
Christensen, Ronald (2002). Płaszczyzna odpowiedzi na złożone pytania: Teoria modeli liniowych (wyd. trzecie). Nowy Jork: Springer. Numer ISBN0-387-95361-2.
Opublikowane jako: Whittle, P. (1983). Przewidywanie i regulacja za pomocą liniowych metod najmniejszych kwadratów . Wydawnictwo Uniwersytetu Minnesoty. Numer ISBN0-8166-1148-3.
Whittle, P. (20 kwietnia 2000). Prawdopodobieństwo poprzez oczekiwanie (wyd. 4). Skoczek. Numer ISBN0-387-98955-2.