Współczynnik korelacji rang Kendalla - Kendall rank correlation coefficient

W statystykach The współczynnik korelacji rang Kendall , powszechnie określane jako τ współczynnika Kendalla (po grecką literą τ , tau), to statystyka używany do pomiaru porządkowego stowarzyszenie między dwoma mierzonych wielkości. Test τ jest nieparametrycznego testu hipotezy uzależnienia od statystycznej w oparciu o współczynnik τ.

Jest to miara korelacji rang : podobieństwo uporządkowania danych uszeregowanych według każdej z wielkości. Jego nazwa pochodzi od Maurice'a Kendalla , który opracował go w 1938 roku, chociaż Gustav Fechner zaproponował podobną miarę w kontekście szeregów czasowych w 1897 roku.

Intuicyjnie, korelacja Kendalla między dwiema zmiennymi będzie wysoka, gdy obserwacje mają podobną (lub identyczną dla korelacji 1) rangę (tj. względną etykietę pozycji obserwacji w ramach zmiennej: 1., 2., 3. itd.) między tymi dwoma zmiennych i niski, gdy obserwacje mają różną (lub całkowicie inną dla korelacji -1) rangę między tymi dwiema zmiennymi.

Zarówno Kendalla, jak i Spearmana można sformułować jako szczególne przypadki bardziej ogólnego współczynnika korelacji . ${\ Displaystyle \ tau}$ ${\ Displaystyle \ rho}$

Definicja

Wszystkie punkty w szarym obszarze są zgodne, a wszystkie punkty w białym obszarze są niezgodne z punktem . W przypadku punktów istnieje suma możliwych par punktów. W tym przykładzie występuje 395 par punktów zgodnych i 40 par punktów niezgodnych, co prowadzi do współczynnika korelacji rang Kendalla wynoszącej 0,816.

(X_{1},Y_{1})

n=30

{\ Displaystyle {\ Binom {30} {2}} = 435}

Niech będzie zbiorem obserwacji połączonych zmiennych losowych X i Y , tak że wszystkie wartości ( ) i ( ) są unikalne (dla uproszczenia pominięto więzi). O każdej parze obserwacji i , gdzie , mówi się, że są zgodne, jeśli porządek sortowania i jest zgodny: to znaczy, jeśli oba i są zgodne lub oba i ; w przeciwnym razie mówi się, że są niezgodne . ${\ styl wyświetlania (x_ {1}, y_ {1}), ..., (x_ {n}, y_ {n})}$ $x_{i}$ $y_{i}$ ${\ Displaystyle (x_ {i}, Y_ {i})}$ ${\ Displaystyle (x_ {j}, y_ {j})}$ $i<j$ ${\ Displaystyle (x_ {i}, x_ {j})}$ ${\ Displaystyle (y_ {i}, y_ {j})}$ $x_{i}>x_{j}$ $y_{i}>y_{j}$ $x_{i}<x_{j}$ $y_{i}<y_{j}$

Współczynnik τ Kendalla jest zdefiniowany jako:

{\ Displaystyle \ tau = {\ Frac {({\ tekst {liczba par zgodnych}})-({\ tekst {liczba par niezgodnych}})} {n \ wybierz 2}}.}

Gdzie jest współczynnik dwumianowy dla liczby sposobów wyboru dwóch pozycji z n pozycji. ${\ Displaystyle {n \ wybierz 2} = {n (n-1) \ ponad 2}}$

Nieruchomości

Mianownik jest całkowita ilość kombinacji pary, a więc współczynnik musi znajdować się w przedziale od -1 ≤ τ ≤ 1.

Jeśli zgodność między dwoma rankingami jest doskonała (tj. obie rankingi są takie same), współczynnik ma wartość 1.
Jeśli rozbieżność między dwoma rankingami jest doskonała (tj. jeden ranking jest odwrotnością drugiego), współczynnik ma wartość -1.
Jeśli X i Y są niezależne , wtedy oczekiwalibyśmy, że współczynnik będzie w przybliżeniu równy zero.
Wyraźnym wyrażeniem współczynnika rangi Kendalla jest . ${\ Displaystyle \ tau = {\ Frac {2} {n (n-1)}} \ suma _ {i<j} \ nazwa operatora {sgn} (x_ {i}-x_ {j}) \ nazwa operatora {sgn} (y_{i}-y_{j})}$

Test hipotezy

Współczynnik rang Kendalla jest często używany jako statystyka testowa w teście hipotez statystycznych w celu ustalenia, czy dwie zmienne można uznać za statystycznie zależne. Test ten jest nieparametryczny , ponieważ nie opiera się na żadnych założeniach dotyczących rozkładów X lub Y ani rozkładu ( X , Y ).

Zgodnie z hipotezą zerową niezależności X i Y , dystrybucja próbek od τ ma oczekiwaną wartość zero. Dokładnego rozkładu nie można scharakteryzować za pomocą wspólnych rozkładów, ale można go obliczyć dokładnie dla małych próbek; dla większych próbek często stosuje się przybliżenie do rozkładu normalnego , ze średnią zerową i wariancją

{\ Displaystyle {\ Frac {2 (2n + 5)} {9n (n-1)}}}

.

Rachunkowość krawatów

Mówi się, że para jest remisowana, jeśli lub ; związana para nie jest ani zgodna, ani niezgodna. Gdy w danych pojawiają się powiązane pary, współczynnik można modyfikować na kilka sposobów, aby utrzymać go w przedziale [−1, 1]: ${\ Displaystyle \ {(x_ {i}, x_ {j}), (y_ {i}, y_ {j}) \}}$ ${\ Displaystyle x_ {i} = x_ {j}}$ ${\ Displaystyle y_ {i} = y_ {j}}$

Tau-a

Tau, statystyka testuje siłę związku z poprzecznych tablic wartości . Obie zmienne muszą być porządkowe . Tau-a nie dokona żadnych korekt krawatów. Definiuje się go jako:

{\ Displaystyle \ tau _ {A} = {\ Frac {n_ {c}-n_ {d}} {n_ {0}}}}

gdzie n _c , n _d i n ₀ są zdefiniowane jak w następnej sekcji.

Tau-b

Statystyka Tau-b, w przeciwieństwie do Tau-a, koryguje remisy. Wartości Tau-b wahają się od -1 (100% skojarzenie negatywne lub doskonała inwersja) do +1 (100% skojarzenie pozytywne lub doskonała zgodność). Wartość zero wskazuje na brak skojarzenia.

Współczynnik Kendall Tau-b jest zdefiniowany jako:

{\ Displaystyle \ tau _ {B} = {\ Frac {n_ {c}-n_ {d}} {\ sqrt {(n_ {0}-n_ {1}) (n_ {0}-n_ {2}) }}}}

gdzie

{\ Displaystyle {\ zacząć {wyrównany} n_ {0} i = n (n-1) / 2 \ \ n_ {1} i = \ suma _ {i} t_ {i} (t_ {i}-1) / 2\\n_{2}&=\sum _{j}u_{j}(u_{j}-1)/2\\n_{c}&={\text{Liczba par zgodnych}}\\n_ {d}&={\text{Liczba niezgodnych par}}\\t_{i}&={\text{Liczba powiązanych wartości w grupie }}i^{\text{th}}{\text{ wiązania dla pierwszej wielkości}}\\u_{j}&={\text{Liczba wartości wiązania w }}j^{\text{th}}{\text{ grupie wiązań dla drugiej wielkości}}\ koniec{wyrównany}}}

Prosty algorytm opracowany w języku BASIC oblicza współczynnik Tau-b przy użyciu alternatywnego wzoru.

Należy pamiętać, że niektóre pakiety statystyczne, np. SPSS, wykorzystują alternatywne formuły wydajności obliczeniowej, z podwójną liczbą „zwykłych” par zgodnych i niezgodnych.

Tau-c

Tau-c (zwana również Stuart-Kendall Tau-c) jest bardziej odpowiedni niż Tau-b do analizy danych opartych na niekwadratowych (tj. prostokątnych) tablicach kontyngencji . Tak więc użyj Tau-b, jeśli podstawowa skala obu zmiennych ma taką samą liczbę możliwych wartości (przed rankingiem), a Tau-c, jeśli się różnią. Na przykład, jedna zmienna może być oceniona na 5-stopniowej skali (bardzo dobra, dobra, średnia, zła, bardzo zła), podczas gdy druga może być oparta na dokładniejszej 10-punktowej skali.

Współczynnik Kendall Tau-c jest zdefiniowany jako:

{\ Displaystyle \ tau _ {C} = {\ Frac {2 (n_ {c}-n_ {d})} {n ^ {2} {\ Frac {(m-1)} {m}}}}}

gdzie

{\ Displaystyle {\ zacząć {wyrównany} n_ {c} i = {\ tekst {liczba par zgodnych}} \ \ n_ {d} i = {\ tekst {liczba par niezgodnych}} \ \ r& = {\ tekst {Liczba wierszy}}\\c&={\text{Liczba kolumn}}\\m&=\min(r,c)\end{wyrównany}}}

Testy istotności

Gdy dwie wielkości są statystycznie niezależne, rozkład nie jest łatwo scharakteryzowany pod względem znanych rozkładów. Jednak dla poniższej statystyki rozkład , jest w przybliżeniu rozłożony jako standardowa normalna, gdy zmienne są statystycznie niezależne: ${\ Displaystyle \ tau}$ ${\ Displaystyle \ tau _ {A}}$ ${\ Displaystyle Z_ {A}}$

{\ Displaystyle Z_ {A} = {3 (n_ {c}-n_ {d}) \ ponad {\ sqrt {n (n-1) (2n + 5/2}}}}

Tak więc, aby sprawdzić, czy dwie zmienne są statystycznie zależne, oblicza się i znajduje skumulowane prawdopodobieństwo dla standardowego rozkładu normalnego przy . W przypadku testu dwustronnego pomnóż tę liczbę przez dwa, aby uzyskać wartość p . Jeśli wartość p jest poniżej danego poziomu istotności, odrzuca się hipotezę zerową (na tym poziomie istotności), że wielkości są statystycznie niezależne. ${\ Displaystyle Z_ {A}}$ $-|z_{A}|$

Przy rozliczaniu remisów należy dodać liczne korekty . Następująca statystyka ma taki sam rozkład jak rozkład i jest w przybliżeniu równa standardowemu rozkładowi normalnemu, gdy ilości są statystycznie niezależne: ${\ Displaystyle Z_ {A}}$ ${\ Displaystyle Z_ {B}}$ ${\ Displaystyle \ tau _ {B}}$

{\ Displaystyle Z_ {B} = {n_ {c}-n_ {d} \ ponad {\ sqrt {v}}}}

gdzie

{\ Displaystyle {\ zacząć {tablica} {ccl} v & = i (v_{0}-v_ {t}-v_ {u})/18 + v_ {1}+ v_ {2} \ \ v_ {0} i =&n(n-1)(2n+5)\\v_{t}&=&\suma _{i}t_{i}(t_{i}-1)(2t_{i}+5)\\v_ {u}&=&\sum _{j}u_{j}(u_{j}-1)(2u_{j}+5)\\v_{1}&=&\sum _{i}t_{i }(t_{i}-1)\sum _{j}u_{j}(u_{j}-1)/(2n(n-1))\\v_{2}&=&\sum _{i }t_{i}(t_{i}-1)(t_{i}-2)\sum _{j}u_{j}(u_{j}-1)(u_{j}-2)/(9n (n-1)(n-2))\end{tablica}}}

Jest to czasami określane jako test Manna-Kendalla.

Algorytmy

Bezpośrednie obliczenie licznika obejmuje dwie zagnieżdżone iteracje, charakteryzujące się następującym pseudokodem: $n_{c}-n_{d}$

numer := 0
for i := 2..N do
    for j := 1..(i − 1) do
        numer := numer + sign(x[i] − x[j]) × sign(y[i] − y[j])
return numer

Chociaż szybki do wdrożenia, algorytm ten jest złożony i staje się bardzo powolny w przypadku dużych próbek. Do obliczenia licznika w czasie można użyć bardziej wyrafinowanego algorytmu opartego na algorytmie sortowania przez scalanie . ${\ Displaystyle O (n ^ {2})}$ ${\ Displaystyle O (n \ cdot \ log {n})}$

Zacznij od uporządkowania punktów danych według pierwszej wielkości , a następnie (wśród powiązań w ) według drugiej wielkości, . Przy tej początkowej kolejności nie jest sortowany, a rdzeń algorytmu polega na obliczeniu, ile kroków musiałoby wykonać sortowanie bąbelkowe , aby posortować ten początkowy . Ulepszony algorytm sortowania przez scalanie , o złożoności, może być zastosowany do obliczenia liczby swapów , które byłyby wymagane przez sortowanie bąbelkowe do sortowania . Wtedy licznik dla jest obliczany jako: $x$ $x$ $y$ $y$ $y$ ${\ Displaystyle O (n \ log n)}$ ${\ Displaystyle S (y)}$ $y_{i}$ ${\ Displaystyle \ tau}$

n_{c}-n_{d}=n_{0}-n_{1}-n_{2}+n_{3}-2S(y)

gdzie oblicza się jak i , ale w odniesieniu do wspólnych więzi w i . $n_{3}$ $n_{1}$ $n_{2}$ $x$ $y$

A Merge Sort partycje danych, które mają być sortowane, na dwie mniej więcej równe części, a , a następnie sortuje co pół rekurencyjnych, a następnie łączy dwie połówki klasyfikowane w pełni posortowane wektorze. Liczba swapów Bubble Sort jest równa: $y$ $y_{\mathrm {po lewej}}$ $y_{\mathrm {prawo}}$

{\ Displaystyle S (y) = S (y_ {\ operatorname {w lewo}}) + S (y_ {\ operatorname {w prawo}}) + M (Y_ {\ operatorname {w lewo}}, Y_ {\ operator w prawo} })}

gdzie i są posortowanymi wersjami i i i charakteryzują odpowiednik wymiany Bąbelkowy sortowania dla operacji scalania. jest obliczana w sposób przedstawiony w następującym pseudokodzie: ${\ Displaystyle Y_ {\ operator {po lewej}}}$ ${\ Displaystyle Y_ {\ operator {prawo}}}$ $y_{\mathrm {po lewej}}$ $y_{\mathrm {prawo}}$ $M(\cdot,\cdot)$ $M(\cdot,\cdot)$

function M(L[1..n], R[1..m]) is
    i := 1
    j := 1
    nSwaps := 0
    while i ≤ n and j ≤ m do
        if R[j] < L[i] then
            nSwaps := nSwaps + n − i + 1
            j := j + 1
        else
            i := i + 1
    return nSwaps

Efektem ubocznym powyższych kroków jest otrzymanie zarówno posortowanej, jak i posortowanej wersji . Dzięki nim współczynniki i wykorzystywane do obliczania można łatwo uzyskać w pojedynczym przejściu w czasie liniowym przez posortowane tablice. $x$ $y$ $t_{i}$ $u_{j}$ ${\ Displaystyle \ tau _ {B}}$

Implementacje oprogramowania

Podstawowy pakiet R 's Statistics implementuje test cor.test(x, y, method = "kendall")w swoim pakiecie "stats" (również cor(x, y, method = "kendall")będzie działał, ale bez zwracania wartości p).
Dla Pythona , że scipy narzędzia biblioteki obliczanie w ${\ Displaystyle \ tau}$ scipy.stats.kendalltau

Zobacz też

Korelacja
Kendall odległość tau
W . Kendalla
Współczynnik korelacji rang Spearmana
Gamma Goodmana i Kruskala
Estymator Theila-Sena
Test U Manna–Whitneya - jest odpowiednikiem współczynnika korelacji tau Kendalla, jeśli jedna ze zmiennych jest binarna.

Bibliografia

Dalsza lektura

Abdi, H. (2007). „Korelacja rang Kendalla” (PDF) . W Salkind, NJ (red.). Encyklopedia Pomiarów i Statystyki . Tysiąc Dębów (CA): Szałwia.
Daniel, Wayne W. (1990). „Tau Kendalla” . Stosowana statystyka nieparametryczna (wyd. 2). Boston: PWS-Kent. s. 365–377. Numer ISBN 978-0-534-91976-4.
Kendalla, Maurycego; Gibbons, Jean Dickinson (1990) [Pierwsze wydanie 1948]. Metody korelacji rang . Seria książek Charlesa Griffina (wyd. 5). Oksford: Oxford University Press. Numer ISBN 978-0195208375.
Bonett, Douglas G.; Wright, Tomasz A. (2000). „Wymagania dotyczące wielkości próbki do szacowania korelacji Pearsona, Kendalla i Spearmana”. Psychometrika . 65 (1): 23–28. doi : 10.1007/BF02294183 .

Languages

In other projects

Współczynnik korelacji rang Kendalla - Kendall rank correlation coefficient

Zawartość

Definicja

Nieruchomości

Test hipotezy

Rachunkowość krawatów

Tau-a

Tau-b

Tau-c

Testy istotności

Algorytmy

Implementacje oprogramowania

Zobacz też

Bibliografia

Dalsza lektura

Zewnętrzne linki