Obcięta średnia - Truncated mean

Obcięty średniej lub średnia obcięta jest statystyczną miarą tendencji centralnej , podobnie jak średnia i mediana . Polega ona na obliczeniu średniej po odrzuceniu danych części rozkładu prawdopodobieństwa lub próbki na górnym i dolnym końcu i zazwyczaj odrzuceniu równej ilości obu. Liczba punktów do odrzucenia jest zwykle podawana jako procent całkowitej liczby punktów, ale można ją również podać jako stałą liczbę punktów.

W większości zastosowań statystycznych odrzuca się od 5 do 25 procent końców. Na przykład, biorąc pod uwagę zestaw 8 punktów, przycięcie o 12,5% spowodowałoby odrzucenie minimalnej i maksymalnej wartości w próbie: wartości najmniejszej i największej oraz obliczyłoby średnią z pozostałych 6 punktów. Średnia obcięta 25% (gdy odrzuca się najniższe 25% i najwyższe 25%) jest znana jako średnia międzykwartylowa .

Medianę można uznać za w pełni obciętą średnią i jest ona najbardziej solidna. Podobnie jak w przypadku innych estymatorów przyciętych , główną zaletą średniej obciętej jest solidność i wyższa wydajność dla rozkładów mieszanych i rozkładów o dużych ogonach (takich jak rozkład Cauchy'ego ), kosztem niższej sprawności dla niektórych innych mniej silnie ogonowych rozkładów (takich jak rozkład normalny). Dla rozkładów pośrednich różnice między efektywnością średniej i mediany nie są duże, np. Dla rozkładu t-studenta z 2 stopniami swobody wariancje dla średniej i mediany są prawie równe.

Terminologia

W niektórych regionach Europy Środkowej jest również znany jako średnia Windsor , ale tej nazwy nie należy mylić ze średnią Winsorized : w tym drugim przypadku obserwacje, które średnia obcięta odrzuciłaby, są zamiast tego zastępowane przez największą / najmniejszą z pozostałych wartości.

Odrzucenie tylko maksimum i minimum jest znane jako zmodyfikowana średnia , szczególnie w statystykach zarządzania. Jest to również znane jako średnia olimpijska (na przykład w rolnictwie w Stanach Zjednoczonych, jak wybory dotyczące średnich dochodów z upraw ), ze względu na wykorzystanie w zawodach olimpijskich, takich jak ISU System Oceniania w łyżwiarstwie figurowym , w celu uczynienia wyniku solidnym do pojedynczego wyniku odstającego sędzia.

Interpolacja

Jeżeli procent punktów do odrzucenia nie daje liczby całkowitej, średnią obciętą można zdefiniować przez interpolację, zazwyczaj interpolację liniową, między najbliższymi liczbami całkowitymi. Na przykład, jeśli trzeba obliczyć 15% średnią obciętą próbki zawierającej 10 pozycji, ściśle oznaczałoby to odrzucenie 1 punktu z każdego końca (odpowiednik 10% średniej obciętej). W przypadku interpolacji należałoby zamiast tego obliczyć 10% średnią obciętą (odrzucając 1 punkt z każdego końca) i 20% średnią obciętą (odrzucając 2 punkty z każdego końca), a następnie interpolować, w tym przypadku uśredniając te dwie wartości. Podobnie, interpolując 12% średnią obciętą, należałoby wziąć średnią ważoną : zważ 10% średnią obciętą przez 0,8, a 20% średnią obciętą przez 0,2.

Zalety

Średnia obcięta jest użytecznym estymatorem, ponieważ jest mniej wrażliwa na wartości odstające niż średnia, ale nadal daje rozsądne oszacowanie tendencji centralnej lub średniej dla wielu modeli statystycznych. W związku z tym jest określany jako solidny estymator . Na przykład, w przypadku sędziowania olimpijskiego, obcięcie wartości maksymalnej i minimalnej uniemożliwia jednemu sędziemu zwiększenie lub obniżenie wyniku ogólnego poprzez przyznanie wyjątkowo wysokiego lub niskiego wyniku.

Jedną z sytuacji, w których może być korzystne zastosowanie skróconą średnią kiedy szacowania parametrów lokalizacji o rozkładzie Cauchy'ego , w kształcie dzwonu z rozkładu prawdopodobieństwa (dużo) ogony grubsze niż w przypadku rozkładu normalnego . Można wykazać, że obcięta średnia ze środkowych 24% statystyk kolejności próby (tj. Obcięcie próby o 38% na każdym końcu) daje oszacowanie parametru lokalizacji populacji, które jest bardziej wydajne niż użycie mediany próbki lub pełnego próbka średnia. Jednak ze względu na grube ogony rozkładu Cauchy'ego efektywność estymatora maleje w miarę wykorzystywania większej ilości próbki w estymacji. Należy zauważyć, że w przypadku rozkładu Cauchy'ego ani skrócona średnia, średnia z pełnej próby ani mediana próby nie reprezentują estymatora maksymalnego prawdopodobieństwa , ani nie są tak asymptotycznie wydajne jak estymator maksymalnego prawdopodobieństwa; Jednak oszacowanie maksymalnego prawdopodobieństwa jest trudniejsze do obliczenia, co pozostawia obciętą średnią jako użyteczną alternatywę.

Wady

Obcięta średnia wykorzystuje więcej informacji z rozkładu lub próby niż mediana , ale jeśli podstawowy rozkład nie jest symetryczny , jest mało prawdopodobne, że obcięta średnia z próby da nieobciążony estymator dla średniej lub mediany.

Testy statystyczne

Możliwe jest przeprowadzenie testu t-Studenta na podstawie skróconego średnią, która nazywa się Yuen T-test, który ma także kilka wdrożeń w R .

Przykłady

Metoda punktacji stosowana w wielu dyscyplinach sportowych, które są oceniane przez zespół sędziowski, to skrócona średnia: odrzucić najniższe i najwyższe wyniki; obliczyć średnią wartość pozostałych wyników .

Libor oprocentowanie odniesienia jest obliczana jako średnia obcięta: podano 18 odpowiedzi, są odprowadzane górna 4 i dolna 4, a pozostałe 10 uśrednia (uzyskując współczynnik przegłębienia 4/18 ≈ 22%).

Rozważ zestaw danych składający się z:

{92, 19, 101 , 58, 1053 , 91, 26, 78, 10, 13, -40 , 101 , 86, 85, 15, 89, 89, 28, -5 , 41} (N = 20, średnia = 101,5)

Piąty percentyl (-6,75) mieści się w przedziale od -40 do -5, a 95 centyl (148,6) w przedziale od 101 do 1053 (wartości zaznaczone pogrubioną czcionką). Wówczas średnia obcięta o 5% skutkowałaby następującymi wynikami:

{92, 19, 101, 58, 91, 26, 78, 10, 13, 101, 86, 85, 15, 89, 89, 28, -5, 41} (N = 18, średnia = 56,5)

Ten przykład można porównać z przykładem wykorzystującym procedurę Winsorising .

Zobacz też

Bibliografia