Tendencji centralnej - Central tendency
W statystykach , o tendencji centralnej (lub miarą tendencji centralnej ) jest centralnym lub typowa wartość dla rozkładu prawdopodobieństwa . Może być również nazywany centrum lub lokalizacją dystrybucji. Potocznie miary tendencji centralnej nazywane są często średnimi . Termin tendencja centralna pochodzi z końca lat dwudziestych.
Najczęstszymi miarami tendencji centralnej są średnia arytmetyczna , mediana i moda . Tendencję średnią można obliczyć albo dla skończonego zbioru wartości, albo dla rozkładu teoretycznego, takiego jak rozkład normalny . Czasami autorzy używają centralnej tendencji do określenia „tendencji danych ilościowych do skupienia się wokół jakiejś centralnej wartości”.
Centralnej tendencji rozkładu zazwyczaj przeciwstawia się jego rozproszenie lub zmienność ; dyspersja i tendencja centralna są często charakteryzowanymi właściwościami rozkładów. Analiza może ocenić, czy dane mają silną czy słabą tendencję centralną na podstawie ich rozproszenia.
Środki
Poniższe można zastosować do danych jednowymiarowych. W zależności od okoliczności właściwe może być przekształcenie danych przed obliczeniem tendencji centralnej. Przykładami są kwadratury wartości lub logarytmowanie. To, czy transformacja jest odpowiednia i jaka powinna być, zależy w dużej mierze od analizowanych danych.
- Średnia arytmetyczna lub po prostu średnia
- suma wszystkich pomiarów podzielona przez liczbę obserwacji w zbiorze danych.
- Mediana
- środkowa wartość oddzielająca wyższą połowę od dolnej połowy zbioru danych. Mediana i moda są jedynymi miarami tendencji centralnej, które można wykorzystać do danych porządkowych , w których wartości są uszeregowane względem siebie, ale nie są mierzone bezwzględnie.
- Tryb
- najczęstsza wartość w zbiorze danych. Jest to jedyna centralna miara tendencji, którą można stosować z danymi nominalnymi , które mają czysto jakościowe przyporządkowania kategorii.
- Średnia geometryczna
- n ty pierwiastek z iloczynu wartości danych, gdzie nie są n z nich. Ta miara jest ważna tylko dla danych, które są mierzone w absolutnie dodatniej skali.
- Średnia harmoniczna
- odwrotnością średniej arytmetycznej z odwrotności wartości danych. Ta miara jest również ważna tylko dla danych, które są mierzone w absolutnie dodatniej skali.
- Ważona średnia arytmetyczna
- średnia arytmetyczna obejmująca ważenie niektórych elementów danych.
- Średnia obcięta lub średnia obcięta
- średnia arytmetyczna wartości danych po odrzuceniu pewnej liczby lub proporcji najwyższych i najniższych wartości danych.
- Średnia międzykwartylowa
- średnia obcięta na podstawie danych z zakresu międzykwartylowego .
- Średniotonowy
- średnia arytmetyczna maksymalnych i minimalnych wartości zbioru danych.
- Środkowy
- średnia arytmetyczna pierwszego i trzeciego kwartyla .
- Trymean
- ważona średnia arytmetyczna mediany i dwóch kwartyli.
- Winsorized średnia
- średnia arytmetyczna, w której wartości skrajne zastępowane są wartościami bliższymi medianie.
Każde z powyższych można zastosować do każdego wymiaru danych wielowymiarowych, ale wyniki mogą nie być niezmienne względem obrotów przestrzeni wielowymiarowej. Ponadto istnieją
- Mediana geometryczna
- co minimalizuje sumę odległości do punktów danych. Jest to to samo, co mediana w przypadku zastosowania do danych jednowymiarowych, ale nie jest tożsame z przyjmowaniem mediany każdego wymiaru niezależnie. Nie jest niezmienna dla różnych przeskalowań różnych wymiarów.
- Średnia kwadratowa (często znana jako średnia kwadratowa )
- przydatne w inżynierii, ale rzadko używane w statystyce. Dzieje się tak, ponieważ nie jest dobrym wskaźnikiem środka rozkładu, gdy rozkład zawiera wartości ujemne.
- Uproszczona głębokość
- prawdopodobieństwo, że losowo wybrany simpleks o wierzchołkach z danego rozkładu będzie zawierał dany środek
- Mediana Tukeya
- punkt o właściwości, że każda zawierająca go półprzestrzeń zawiera również wiele punktów próbkowania
Rozwiązania problemów wariacyjnych
Kilka miar tendencji centralnej można scharakteryzować jako rozwiązanie problemu wariacyjnego, w sensie rachunku wariacyjnego , czyli minimalizacji zmienności względem centrum. Oznacza to, że przy danej miary rozproszenia statystycznego prosi się o miarę tendencji centralnej, która minimalizuje zmienność: taką, że zmienność względem centrum jest minimalna wśród wszystkich wyborów centrum. Mówiąc żartobliwie, „rozproszenie poprzedza lokalizację”. Te miary są początkowo zdefiniowane w jednym wymiarze, ale można je uogólnić na wiele wymiarów. To centrum może, ale nie musi być wyjątkowe. W sensie L p przestrzeni , korespondencja jest:
L str | dyspersja | tendencji centralnej |
---|---|---|
L 0 | współczynnik zmienności | tryb |
L 1 | średnie odchylenie bezwzględne | mediana ( mediana geometryczna ) |
L 2 | odchylenie standardowe | średnia ( centroid ) |
L ∞ | maksymalne odchylenie | średniotonowy |
Powiązane funkcje nazywane są p -normami : odpowiednio 0-"normą", 1-normą, 2-normą i ∞-normą. Funkcja odpowiadająca przestrzeni L 0 nie jest normą i dlatego często jest cytowana w cudzysłowie: 0-"norma".
W równaniach, dla danego (skończonego) zbioru danych X , pomyślanego jako wektor x = ( x 1 ,…, x n ) , rozproszenie wokół punktu c jest „odległość” od x do stałego wektora c = ( c ,…, c ) w normie p (znormalizowanej przez liczbę punktów n ):
Dla p = 0 i p = ∞ funkcje te definiuje się przyjmując granice odpowiednio jako p → 0 i p → ∞ . Dla p = 0 wartościami granicznymi są 0 0 = 0 i a 0 = 0 lub a ≠ 0 , więc różnica staje się po prostu równością, więc norma 0 zlicza liczbę nierównych punktów. Dla p = ∞ dominuje największa liczba, a zatem ∞-norma jest maksymalną różnicą.
Wyjątkowość
Średnie ( L 2 w środku) i średnica ( L ∞ środku) są unikatowe (jeśli istnieją), podczas gdy środkowa ( L 1 w środku) i tryb ( l 0 w środku) nie są w ogóle wyjątkowy. Można to rozumieć w kategoriach wypukłości funkcji towarzyszących ( funkcji przymusu ).
2-norma i ∞-norma są ściśle wypukłe , a zatem (poprzez optymalizację wypukłą) minimalizator jest unikalny (jeśli istnieje) i istnieje dla rozkładów ograniczonych. Zatem odchylenie standardowe od średniej jest niższe niż odchylenie standardowe od dowolnego innego punktu, a maksymalne odchylenie od środka zakresu jest mniejsze niż odchylenie maksymalne od dowolnego innego punktu.
1-norma nie jest ściśle wypukła, natomiast ścisła wypukłość jest potrzebna, aby zapewnić unikatowość minimalizatora. W związku z tym mediana (w tym sensie minimalizacji) nie jest na ogół unikalna, aw rzeczywistości każdy punkt między dwoma centralnymi punktami dyskretnego rozkładu minimalizuje średnie odchylenie bezwzględne.
0-"norma" nie jest wypukła (a więc nie jest normą). W związku z tym tryb nie jest unikalny – na przykład w rozkładzie równomiernym trybem jest dowolny punkt.
Grupowanie
Zamiast pojedynczego punktu centralnego, można poprosić o wiele punktów, tak aby zminimalizować odchylenie od tych punktów. Prowadzi to do analizy skupień , w której każdy punkt w zestawie danych jest grupowany z najbliższym „środkiem”. Najczęściej użycie 2-normy uogólnia średnią na k -średnie grupowanie , podczas gdy użycie 1-normy uogólnia (geometryczną) medianę na grupowanie k -średnich . Użycie normy 0 po prostu uogólnia tryb (najczęstsza wartość) na używanie k najczęstszych wartości jako centrów.
W przeciwieństwie do statystyk jednoośrodkowych, tego wieloośrodkowego grupowania nie można ogólnie obliczyć w wyrażeniu w formie zamkniętej , a zamiast tego należy go obliczyć lub przybliżyć metodą iteracyjną ; jednym z ogólnych podejść są algorytmy maksymalizacji oczekiwań .
Geometria informacji
Pojęcie „centrum” jako minimalizujące zmienność można uogólnić w geometrii informacji jako rozkład, który minimalizuje rozbieżność (uogólnioną odległość) od zbioru danych. Najczęstszym przypadkiem jest oszacowanie największego prawdopodobieństwa , gdzie oszacowanie największego prawdopodobieństwa (MLE) maksymalizuje prawdopodobieństwo (minimalizuje oczekiwane zaskoczenie ), które można zinterpretować geometrycznie za pomocą entropii do pomiaru zmienności: MLE minimalizuje entropię krzyżową (równoważnie entropia względna , Kullback– rozbieżność Leiblera).
Prostym przykładem tego jest centrum danych nominalnych: zamiast trybu (jedyny „centrum”) o pojedynczej wartości, często używa się miary empirycznej ( rozkład częstotliwości podzielony przez wielkość próby ) jako „środka” . Na przykład, biorąc pod uwagę dane binarne , powiedzmy orły lub resztki, jeśli zbiór danych składa się z 2 orłów i 1 reszka, to trybem jest "orzeł", ale miarą empiryczną jest 2/3 orłów, 1/3 resztek, co minimalizuje entropia krzyżowa (całkowite zaskoczenie) ze zbioru danych. Perspektywa ta jest również wykorzystywana w analizie regresji , gdzie metoda najmniejszych kwadratów znajduje rozwiązanie minimalizujące odległości od niej i analogicznie w regresji logistycznej oszacowanie maksymalnego prawdopodobieństwa minimalizuje zaskoczenie (odległość informacyjna).
Relacje między średnią, medianą i modą
Dla rozkładów jednomodalnych znane są następujące granice i są one ostre:
gdzie μ to średnia, ν to mediana, θ to moda , a σ to odchylenie standardowe.
Dla każdej dystrybucji,
Zobacz też
- Moment centralny
- Wartość oczekiwana
- Parametr lokalizacji
- Mieć na myśli
- Średnia populacja
- Średnia próbki