Współczynnik korelacji rang Kendalla - Kendall rank correlation coefficient
W statystykach The współczynnik korelacji rang Kendall , powszechnie określane jako τ współczynnika Kendalla (po grecką literą τ , tau), to statystyka używany do pomiaru porządkowego stowarzyszenie między dwoma mierzonych wielkości. Test τ jest nieparametrycznego testu hipotezy uzależnienia od statystycznej w oparciu o współczynnik τ.
Jest to miara korelacji rang : podobieństwo uporządkowania danych uszeregowanych według każdej z wielkości. Jego nazwa pochodzi od Maurice'a Kendalla , który opracował go w 1938 roku, chociaż Gustav Fechner zaproponował podobną miarę w kontekście szeregów czasowych w 1897 roku.
Intuicyjnie, korelacja Kendalla między dwiema zmiennymi będzie wysoka, gdy obserwacje mają podobną (lub identyczną dla korelacji 1) rangę (tj. względną etykietę pozycji obserwacji w ramach zmiennej: 1., 2., 3. itd.) między tymi dwoma zmiennych i niski, gdy obserwacje mają różną (lub całkowicie inną dla korelacji -1) rangę między tymi dwiema zmiennymi.
Zarówno Kendalla, jak i Spearmana można sformułować jako szczególne przypadki bardziej ogólnego współczynnika korelacji .
Definicja
Niech będzie zbiorem obserwacji połączonych zmiennych losowych X i Y , tak że wszystkie wartości ( ) i ( ) są unikalne (dla uproszczenia pominięto więzi). O każdej parze obserwacji i , gdzie , mówi się, że są zgodne, jeśli porządek sortowania i jest zgodny: to znaczy, jeśli oba i są zgodne lub oba i ; w przeciwnym razie mówi się, że są niezgodne .
Współczynnik τ Kendalla jest zdefiniowany jako:
Gdzie jest współczynnik dwumianowy dla liczby sposobów wyboru dwóch pozycji z n pozycji.
Nieruchomości
Mianownik jest całkowita ilość kombinacji pary, a więc współczynnik musi znajdować się w przedziale od -1 ≤ τ ≤ 1.
- Jeśli zgodność między dwoma rankingami jest doskonała (tj. obie rankingi są takie same), współczynnik ma wartość 1.
- Jeśli rozbieżność między dwoma rankingami jest doskonała (tj. jeden ranking jest odwrotnością drugiego), współczynnik ma wartość -1.
- Jeśli X i Y są niezależne , wtedy oczekiwalibyśmy, że współczynnik będzie w przybliżeniu równy zero.
- Wyraźnym wyrażeniem współczynnika rangi Kendalla jest .
Test hipotezy
Współczynnik rang Kendalla jest często używany jako statystyka testowa w teście hipotez statystycznych w celu ustalenia, czy dwie zmienne można uznać za statystycznie zależne. Test ten jest nieparametryczny , ponieważ nie opiera się na żadnych założeniach dotyczących rozkładów X lub Y ani rozkładu ( X , Y ).
Zgodnie z hipotezą zerową niezależności X i Y , dystrybucja próbek od τ ma oczekiwaną wartość zero. Dokładnego rozkładu nie można scharakteryzować za pomocą wspólnych rozkładów, ale można go obliczyć dokładnie dla małych próbek; dla większych próbek często stosuje się przybliżenie do rozkładu normalnego , ze średnią zerową i wariancją
- .
Rachunkowość krawatów
Mówi się, że para jest remisowana, jeśli lub ; związana para nie jest ani zgodna, ani niezgodna. Gdy w danych pojawiają się powiązane pary, współczynnik można modyfikować na kilka sposobów, aby utrzymać go w przedziale [−1, 1]:
Tau-a
Tau, statystyka testuje siłę związku z poprzecznych tablic wartości . Obie zmienne muszą być porządkowe . Tau-a nie dokona żadnych korekt krawatów. Definiuje się go jako:
gdzie n c , n d i n 0 są zdefiniowane jak w następnej sekcji.
Tau-b
Statystyka Tau-b, w przeciwieństwie do Tau-a, koryguje remisy. Wartości Tau-b wahają się od -1 (100% skojarzenie negatywne lub doskonała inwersja) do +1 (100% skojarzenie pozytywne lub doskonała zgodność). Wartość zero wskazuje na brak skojarzenia.
Współczynnik Kendall Tau-b jest zdefiniowany jako:
gdzie
Prosty algorytm opracowany w języku BASIC oblicza współczynnik Tau-b przy użyciu alternatywnego wzoru.
Należy pamiętać, że niektóre pakiety statystyczne, np. SPSS, wykorzystują alternatywne formuły wydajności obliczeniowej, z podwójną liczbą „zwykłych” par zgodnych i niezgodnych.
Tau-c
Tau-c (zwana również Stuart-Kendall Tau-c) jest bardziej odpowiedni niż Tau-b do analizy danych opartych na niekwadratowych (tj. prostokątnych) tablicach kontyngencji . Tak więc użyj Tau-b, jeśli podstawowa skala obu zmiennych ma taką samą liczbę możliwych wartości (przed rankingiem), a Tau-c, jeśli się różnią. Na przykład, jedna zmienna może być oceniona na 5-stopniowej skali (bardzo dobra, dobra, średnia, zła, bardzo zła), podczas gdy druga może być oparta na dokładniejszej 10-punktowej skali.
Współczynnik Kendall Tau-c jest zdefiniowany jako:
gdzie
Testy istotności
Gdy dwie wielkości są statystycznie niezależne, rozkład nie jest łatwo scharakteryzowany pod względem znanych rozkładów. Jednak dla poniższej statystyki rozkład , jest w przybliżeniu rozłożony jako standardowa normalna, gdy zmienne są statystycznie niezależne:
Tak więc, aby sprawdzić, czy dwie zmienne są statystycznie zależne, oblicza się i znajduje skumulowane prawdopodobieństwo dla standardowego rozkładu normalnego przy . W przypadku testu dwustronnego pomnóż tę liczbę przez dwa, aby uzyskać wartość p . Jeśli wartość p jest poniżej danego poziomu istotności, odrzuca się hipotezę zerową (na tym poziomie istotności), że wielkości są statystycznie niezależne.
Przy rozliczaniu remisów należy dodać liczne korekty . Następująca statystyka ma taki sam rozkład jak rozkład i jest w przybliżeniu równa standardowemu rozkładowi normalnemu, gdy ilości są statystycznie niezależne:
gdzie
Jest to czasami określane jako test Manna-Kendalla.
Algorytmy
Bezpośrednie obliczenie licznika obejmuje dwie zagnieżdżone iteracje, charakteryzujące się następującym pseudokodem:
numer := 0 for i := 2..N do for j := 1..(i − 1) do numer := numer + sign(x[i] − x[j]) × sign(y[i] − y[j]) return numer
Chociaż szybki do wdrożenia, algorytm ten jest złożony i staje się bardzo powolny w przypadku dużych próbek. Do obliczenia licznika w czasie można użyć bardziej wyrafinowanego algorytmu opartego na algorytmie sortowania przez scalanie .
Zacznij od uporządkowania punktów danych według pierwszej wielkości , a następnie (wśród powiązań w ) według drugiej wielkości, . Przy tej początkowej kolejności nie jest sortowany, a rdzeń algorytmu polega na obliczeniu, ile kroków musiałoby wykonać sortowanie bąbelkowe , aby posortować ten początkowy . Ulepszony algorytm sortowania przez scalanie , o złożoności, może być zastosowany do obliczenia liczby swapów , które byłyby wymagane przez sortowanie bąbelkowe do sortowania . Wtedy licznik dla jest obliczany jako:
gdzie oblicza się jak i , ale w odniesieniu do wspólnych więzi w i .
A Merge Sort partycje danych, które mają być sortowane, na dwie mniej więcej równe części, a , a następnie sortuje co pół rekurencyjnych, a następnie łączy dwie połówki klasyfikowane w pełni posortowane wektorze. Liczba swapów Bubble Sort jest równa:
gdzie i są posortowanymi wersjami i i i charakteryzują odpowiednik wymiany Bąbelkowy sortowania dla operacji scalania. jest obliczana w sposób przedstawiony w następującym pseudokodzie:
function M(L[1..n], R[1..m]) is i := 1 j := 1 nSwaps := 0 while i ≤ n and j ≤ m do if R[j] < L[i] then nSwaps := nSwaps + n − i + 1 j := j + 1 else i := i + 1 return nSwaps
Efektem ubocznym powyższych kroków jest otrzymanie zarówno posortowanej, jak i posortowanej wersji . Dzięki nim współczynniki i wykorzystywane do obliczania można łatwo uzyskać w pojedynczym przejściu w czasie liniowym przez posortowane tablice.
Implementacje oprogramowania
-
Podstawowy pakiet R 's Statistics implementuje test
cor.test(x, y, method = "kendall")
w swoim pakiecie "stats" (równieżcor(x, y, method = "kendall")
będzie działał, ale bez zwracania wartości p). - Dla Pythona , że scipy narzędzia biblioteki obliczanie w
scipy.stats.kendalltau
Zobacz też
- Korelacja
- Kendall odległość tau
- W . Kendalla
- Współczynnik korelacji rang Spearmana
- Gamma Goodmana i Kruskala
- Estymator Theila-Sena
- Test U Manna–Whitneya - jest odpowiednikiem współczynnika korelacji tau Kendalla, jeśli jedna ze zmiennych jest binarna.
Bibliografia
Dalsza lektura
- Abdi, H. (2007). „Korelacja rang Kendalla” (PDF) . W Salkind, NJ (red.). Encyklopedia Pomiarów i Statystyki . Tysiąc Dębów (CA): Szałwia.
- Daniel, Wayne W. (1990). „Tau Kendalla” . Stosowana statystyka nieparametryczna (wyd. 2). Boston: PWS-Kent. s. 365–377. Numer ISBN 978-0-534-91976-4.
- Kendalla, Maurycego; Gibbons, Jean Dickinson (1990) [Pierwsze wydanie 1948]. Metody korelacji rang . Seria książek Charlesa Griffina (wyd. 5). Oksford: Oxford University Press. Numer ISBN 978-0195208375.
- Bonett, Douglas G.; Wright, Tomasz A. (2000). „Wymagania dotyczące wielkości próbki do szacowania korelacji Pearsona, Kendalla i Spearmana”. Psychometrika . 65 (1): 23–28. doi : 10.1007/BF02294183 .