Tryb (statystyki) - Mode (statistics)

Tryb jest wartością, która pojawia się najczęściej w zbiorze wartości danych. Jeśli X jest dyskretną zmienną losową, modą jest wartość x (tj. X = x ), przy której funkcja masy prawdopodobieństwa przyjmuje wartość maksymalną. Innymi słowy, jest to wartość, która będzie najprawdopodobniej próbkowana.

Podobnie jak statystycznej średniej i mediany , tryb jest sposobem wyrażania, w (zazwyczaj) jednego numeru, ważne informacje o zmiennej losowej lub populacji . Wartość liczbowa modu jest taka sama, jak średnia i mediana w rozkładzie normalnym i może być bardzo różna w przypadku bardzo skośnych rozkładów .

Mod niekoniecznie jest unikalny dla danego rozkładu dyskretnego , ponieważ funkcja masy prawdopodobieństwa może przyjmować tę samą maksymalną wartość w kilku punktach x 1 , x 2 itd. Najbardziej skrajny przypadek występuje w rozkładach jednorodnych , gdzie wszystkie wartości występują równie często.

Gdy funkcja gęstości prawdopodobieństwa rozkładu ciągłego ma wiele lokalnych maksimów , często odnosi się do wszystkich lokalnych maksimów jako modów rozkładu. Taka ciągła dystrybucja nazywana jest multimodalną (w przeciwieństwie do unimodalnej ). Mod ciągłego rozkładu prawdopodobieństwa jest często uważany za dowolną wartość x, przy której jej funkcja gęstości prawdopodobieństwa ma lokalnie maksymalną wartość, więc każdy pik jest modą.

W symetrycznych rozkładach unimodalnych , takich jak rozkład normalny , średnia (jeśli została zdefiniowana), mediana i mod wszystkie są zgodne. W przypadku próbek, jeśli wiadomo, że pochodzą one z symetrycznego unimodalnego rozkładu, średnia z próby może być wykorzystana jako oszacowanie trybu populacji.

Tryb próbki

Tryb próbki to element, który najczęściej występuje w kolekcji. Na przykład tryb próbki [1, 3, 6, 6, 6, 6, 7, 7, 12, 12, 17] wynosi 6. Biorąc pod uwagę listę danych [1, 1, 2, 4, 4] jego tryb nie jest wyjątkowy. W takim przypadku zbiór danych jest określany jako bimodalny , podczas gdy zbiór zawierający więcej niż dwa tryby można opisać jako multimodalny .

W przypadku próbki z rozkładu ciągłego, takiej jak [0,935 ..., 1,211 ..., 2,430 ..., 3,668 ..., 3,874 ...], pojęcie jest bezużyteczne w swojej surowej postaci, ponieważ nie ma dwóch wartości będzie dokładnie taka sama, więc każda wartość wystąpi dokładnie raz. Aby oszacować modę rozkładu bazowego, zwykłą praktyką jest dyskretyzacja danych przez przypisanie wartości częstotliwości do przedziałów o równej odległości, jak przy tworzeniu histogramu , skutecznie zastępując wartości środkowymi przedziałami, do których są przypisane. Tryb jest wówczas wartością, przy której histogram osiąga swój szczyt. W przypadku próbek o małej lub średniej wielkości wynik tej procedury jest wrażliwy na wybór szerokości interwału, jeśli zostanie wybrana zbyt wąska lub zbyt szeroka; zwykle należy mieć spory ułamek danych skoncentrowany w stosunkowo niewielkiej liczbie przedziałów (od 5 do 10), podczas gdy część danych wykraczających poza te przedziały jest również spora. Alternatywnym podejściem jest oszacowanie gęstości jądra , które zasadniczo rozmywa próbki punktowe w celu uzyskania ciągłego oszacowania funkcji gęstości prawdopodobieństwa, która może zapewnić oszacowanie modu.

Poniższy przykład kodu MATLAB (lub Octave ) oblicza tryb próbki:

X = sort(x);                               % x is a column vector dataset
indices   =  find(diff([X; realmax]) > 0); % indices where repeated values change
[modeL,i] =  max (diff([0; indices]));     % longest persistence length of repeated values
mode      =  X(indices(i));

Algorytm wymaga jako pierwszego kroku sortowania próbki w porządku rosnącym. Następnie oblicza dyskretną pochodną posortowanej listy i znajduje indeksy, dla których ta pochodna jest dodatnia. Następnie oblicza dyskretną pochodną tego zestawu wskaźników, lokalizując maksimum tej pochodnej wskaźników, a na koniec ocenia posortowaną próbkę w punkcie, w którym występuje to maksimum, co odpowiada ostatniemu członowi ciągu powtarzających się wartości.

Porównanie średniej, mediany i trybu

Wizualizacja geometryczna modu, mediany i średniej dowolnej funkcji gęstości prawdopodobieństwa.
Porównanie typowych średnich wartości {1, 2, 2, 3, 4, 7, 9}
Rodzaj Opis Przykład Wynik
Średnia arytmetyczna Suma wartości zbioru danych podzielona przez liczbę wartości (1 + 2 + 2 + 3 + 4 + 7 + 9) / 7 4
Mediana Średnia wartość oddzielająca większą i mniejszą połowę zbioru danych 1, 2, 2, 3 , 4, 7, 9 3
Tryb Najczęstsza wartość w zbiorze danych 1, 2 , 2 , 3, 4, 7, 9 2

Posługiwać się

W przeciwieństwie do średniej i mediany, pojęcie modu ma również sens w przypadku „ danych nominalnych ” (tj. Nieskładających się z wartości liczbowych w przypadku średniej lub nawet wartości uporządkowanych w przypadku mediany). Na przykład, biorąc próbkę nazwisk koreańskich , można by stwierdzić, że „ Kim ” występuje częściej niż jakiekolwiek inne imię. Wtedy „Kim” byłby trybem próbki. W każdym systemie głosowania, w którym o zwycięstwie decyduje wielość, pojedyncza wartość modalna określa zwycięzcę, podczas gdy wynik multimodalny wymagałby przeprowadzenia procedury rozstrzygającej.

W przeciwieństwie do mediany, koncepcja modu ma sens dla każdej zmiennej losowej przyjmującej wartości z przestrzeni wektorowej , w tym liczb rzeczywistych (jednowymiarowa przestrzeń wektorowa) i liczb całkowitych (które można uznać za osadzone w liczbach rzeczywistych). Na przykład rozkład punktów na płaszczyźnie będzie miał zazwyczaj średnią i modę, ale pojęcie mediany nie ma zastosowania. Mediana ma sens, gdy istnieje liniowy porządek możliwych wartości. Uogólnienia pojęcia mediany do pomieszczeń wyższych wymiarów są mediana geometryczny i Centerpoint .

Wyjątkowość i wyrazistość

W przypadku niektórych rozkładów prawdopodobieństwa oczekiwana wartość może być nieskończona lub nieokreślona, ​​ale jeśli została zdefiniowana, jest niepowtarzalna. Średnia (skończonej) próbki jest zawsze określona. Mediana jest wartością taką, że ułamki, które jej nie przekraczają i nie spadają poniżej niej, wynoszą co najmniej 1/2. Niekoniecznie jest wyjątkowy, ale nigdy nie jest nieskończony ani całkowicie nieokreślony. Dla próbki danych jest to wartość „w połowie”, gdy lista wartości jest uporządkowana według rosnącej wartości, gdzie zwykle dla listy o parzystej długości bierze się średnią liczbową z dwóch wartości najbliższych „połowie”. Wreszcie, jak powiedziano wcześniej, tryb niekoniecznie jest wyjątkowy. Niektóre rozkłady patologiczne (na przykład dystrybucja Cantora ) nie mają w ogóle zdefiniowanego trybu. W przypadku skończonej próbki danych trybem jest jedna (lub więcej) wartości w próbce.

Nieruchomości

Zakładając zdefiniowanie i dla uproszczenia wyjątkowość, poniżej przedstawiono niektóre z najciekawszych właściwości.

  • Wszystkie trzy miary mają następującą właściwość: Jeśli zmienna losowa (lub każda wartość z próby) jest poddawana transformacji liniowej lub afinicznej , która zastępuje X przez aX + b , to tak samo jest ze średnią, medianą i modą .
  • Z wyjątkiem bardzo małych próbek tryb jest niewrażliwy na „ wartości odstające ” (takie jak sporadyczne, rzadkie, fałszywe odczyty eksperymentalne). Mediana jest również bardzo solidna w obecności wartości odstających, podczas gdy średnia jest raczej wrażliwa.
  • W ciągłych rozkładach unimodalnych mediana często leży między średnią a modą, około jednej trzeciej drogi przechodzącej od średniej do postaci. We wzorze mediana ≈ (2 × średnia + moda) / 3. Ta reguła, ze względu na Karla Pearsona , często ma zastosowanie do nieco niesymetrycznych rozkładów, które przypominają rozkład normalny, ale nie zawsze jest prawdziwa i ogólnie te trzy statystyki mogą pojawiać się w dowolnej kolejności.
  • W przypadku rozkładów jednomodalnych, tryb mieści się w zakresie 3 odchyleń standardowych średniej, a średnia kwadratowa odchylenia o trybie mieści się między odchyleniem standardowym a dwukrotnością odchylenia standardowego.

Przykład wypaczonej dystrybucji

Przykładem wypaczonej dystrybucji jest majątek osobisty : niewielu ludzi jest bardzo bogatych, ale niektórzy są niezwykle bogaci. Jednak wielu jest raczej biednych.

Dobrze znana klasa rozkładów, które można dowolnie wypaczać, jest określona przez rozkład logarytmiczno-normalny . Uzyskuje się ją poprzez transformację zmiennych losowych X posiadający rozkład normalny do zmiennej losowej Y = e X . Wtedy logarytm zmiennej losowej Y ma rozkład normalny, stąd nazwa.

Biorąc pod uwagę średnią z ľ X wynosi 0, mediana Y wynosi 1, niezależnie od standardowego odchylenia Ď z X . Dzieje się tak dlatego, że X ma rozkład symetryczny, więc jego mediana jest także 0. Przekształcenie od X do Y jest monotoniczna, a więc znalezienie medianę e 0 = 1 dla Y .

Gdy X ma odchylenie standardowe σ = 0,25, rozkład Y jest słabo pochylony. Korzystając ze wzorów na rozkład logarytmiczno-normalny , znajdujemy:

Rzeczywiście, mediana wynosi około jednej trzeciej na drodze od średniej do formy.

Gdy X ma większe odchylenie standardowe, σ = 1 , rozkład Y jest silnie wypaczony. Teraz

W tym przypadku praktyczna reguła Pearsona zawodzi.

Stan Van Zwet

Van Zwet wyprowadził nierówność, która zapewnia warunki wystarczające do utrzymania tej nierówności. Nierówność

Tryb ≤ Mediana ≤ Średnia

trzyma, jeśli

F (mediana - x ) + F (mediana + x ) ≥ 1

dla wszystkich x, gdzie F () jest skumulowaną funkcją dystrybucji.

Rozkłady unimodalne

Dla rozkładu jednomodalnego można wykazać, że mediana i średnia leżą w granicach (3/5) 1/2 ≈ 0,7746 odchyleń standardowych. W symbolach

gdzie jest wartością bezwzględną.

Podobna zależność zachodzi między medianą a modą : mieszczą się one w granicach 3 1/2 ≈ 1,732 odchyleń standardowych od siebie:

Historia

Termin tryb pochodzi od Karla Pearsona w 1895 roku.

Pearson używa terminu mod zamiennie z maksymalną rzędną . W przypisie mówi: „Uważam, że wygodnie jest używać terminu mod na odciętą odpowiadającą rzędnej maksymalnej częstotliwości”.

Zobacz też

Bibliografia

Linki zewnętrzne