Współczynnik korelacji rang Kendalla - Kendall rank correlation coefficient

W statystykach The współczynnik korelacji rang Kendall , powszechnie określane jako τ współczynnika Kendalla (po grecką literą τ , tau), to statystyka używany do pomiaru porządkowego stowarzyszenie między dwoma mierzonych wielkości. Test τ jest nieparametrycznego testu hipotezy uzależnienia od statystycznej w oparciu o współczynnik τ.

Jest to miara korelacji rang : podobieństwo uporządkowania danych uszeregowanych według każdej z wielkości. Jego nazwa pochodzi od Maurice'a Kendalla , który opracował go w 1938 roku, chociaż Gustav Fechner zaproponował podobną miarę w kontekście szeregów czasowych w 1897 roku.

Intuicyjnie, korelacja Kendalla między dwiema zmiennymi będzie wysoka, gdy obserwacje mają podobną (lub identyczną dla korelacji 1) rangę (tj. względną etykietę pozycji obserwacji w ramach zmiennej: 1., 2., 3. itd.) między tymi dwoma zmiennych i niski, gdy obserwacje mają różną (lub całkowicie inną dla korelacji -1) rangę między tymi dwiema zmiennymi.

Zarówno Kendalla, jak i Spearmana można sformułować jako szczególne przypadki bardziej ogólnego współczynnika korelacji .

Definicja

Wszystkie punkty w szarym obszarze są zgodne, a wszystkie punkty w białym obszarze są niezgodne z punktem . W przypadku punktów istnieje suma możliwych par punktów. W tym przykładzie występuje 395 par punktów zgodnych i 40 par punktów niezgodnych, co prowadzi do współczynnika korelacji rang Kendalla wynoszącej 0,816.

Niech będzie zbiorem obserwacji połączonych zmiennych losowych X i Y , tak że wszystkie wartości ( ) i ( ) są unikalne (dla uproszczenia pominięto więzi). O każdej parze obserwacji i , gdzie , mówi się, że są zgodne, jeśli porządek sortowania i jest zgodny: to znaczy, jeśli oba i są zgodne lub oba i ; w przeciwnym razie mówi się, że są niezgodne .

Współczynnik τ Kendalla jest zdefiniowany jako:

Gdzie jest współczynnik dwumianowy dla liczby sposobów wyboru dwóch pozycji z n pozycji.

Nieruchomości

Mianownik jest całkowita ilość kombinacji pary, a więc współczynnik musi znajdować się w przedziale od -1 ≤  τ  ≤ 1.

  • Jeśli zgodność między dwoma rankingami jest doskonała (tj. obie rankingi są takie same), współczynnik ma wartość 1.
  • Jeśli rozbieżność między dwoma rankingami jest doskonała (tj. jeden ranking jest odwrotnością drugiego), współczynnik ma wartość -1.
  • Jeśli X i Yniezależne , wtedy oczekiwalibyśmy, że współczynnik będzie w przybliżeniu równy zero.
  • Wyraźnym wyrażeniem współczynnika rangi Kendalla jest .

Test hipotezy

Współczynnik rang Kendalla jest często używany jako statystyka testowa w teście hipotez statystycznych w celu ustalenia, czy dwie zmienne można uznać za statystycznie zależne. Test ten jest nieparametryczny , ponieważ nie opiera się na żadnych założeniach dotyczących rozkładów X lub Y ani rozkładu ( X , Y ).

Zgodnie z hipotezą zerową niezależności X i Y , dystrybucja próbek od τ ma oczekiwaną wartość zero. Dokładnego rozkładu nie można scharakteryzować za pomocą wspólnych rozkładów, ale można go obliczyć dokładnie dla małych próbek; dla większych próbek często stosuje się przybliżenie do rozkładu normalnego , ze średnią zerową i wariancją

.

Rachunkowość krawatów

Mówi się, że para jest remisowana, jeśli lub ; związana para nie jest ani zgodna, ani niezgodna. Gdy w danych pojawiają się powiązane pary, współczynnik można modyfikować na kilka sposobów, aby utrzymać go w przedziale [−1, 1]:

Tau-a

Tau, statystyka testuje siłę związku z poprzecznych tablic wartości . Obie zmienne muszą być porządkowe . Tau-a nie dokona żadnych korekt krawatów. Definiuje się go jako:

gdzie n c , n d i n 0 są zdefiniowane jak w następnej sekcji.

Tau-b

Statystyka Tau-b, w przeciwieństwie do Tau-a, koryguje remisy. Wartości Tau-b wahają się od -1 (100% skojarzenie negatywne lub doskonała inwersja) do +1 (100% skojarzenie pozytywne lub doskonała zgodność). Wartość zero wskazuje na brak skojarzenia.

Współczynnik Kendall Tau-b jest zdefiniowany jako:

gdzie

Prosty algorytm opracowany w języku BASIC oblicza współczynnik Tau-b przy użyciu alternatywnego wzoru.

Należy pamiętać, że niektóre pakiety statystyczne, np. SPSS, wykorzystują alternatywne formuły wydajności obliczeniowej, z podwójną liczbą „zwykłych” par zgodnych i niezgodnych.

Tau-c

Tau-c (zwana również Stuart-Kendall Tau-c) jest bardziej odpowiedni niż Tau-b do analizy danych opartych na niekwadratowych (tj. prostokątnych) tablicach kontyngencji . Tak więc użyj Tau-b, jeśli podstawowa skala obu zmiennych ma taką samą liczbę możliwych wartości (przed rankingiem), a Tau-c, jeśli się różnią. Na przykład, jedna zmienna może być oceniona na 5-stopniowej skali (bardzo dobra, dobra, średnia, zła, bardzo zła), podczas gdy druga może być oparta na dokładniejszej 10-punktowej skali.

Współczynnik Kendall Tau-c jest zdefiniowany jako:

gdzie

Testy istotności

Gdy dwie wielkości są statystycznie niezależne, rozkład nie jest łatwo scharakteryzowany pod względem znanych rozkładów. Jednak dla poniższej statystyki rozkład , jest w przybliżeniu rozłożony jako standardowa normalna, gdy zmienne są statystycznie niezależne:

Tak więc, aby sprawdzić, czy dwie zmienne są statystycznie zależne, oblicza się i znajduje skumulowane prawdopodobieństwo dla standardowego rozkładu normalnego przy . W przypadku testu dwustronnego pomnóż tę liczbę przez dwa, aby uzyskać wartość p . Jeśli wartość p jest poniżej danego poziomu istotności, odrzuca się hipotezę zerową (na tym poziomie istotności), że wielkości są statystycznie niezależne.

Przy rozliczaniu remisów należy dodać liczne korekty . Następująca statystyka ma taki sam rozkład jak rozkład i jest w przybliżeniu równa standardowemu rozkładowi normalnemu, gdy ilości są statystycznie niezależne:

gdzie

Jest to czasami określane jako test Manna-Kendalla.

Algorytmy

Bezpośrednie obliczenie licznika obejmuje dwie zagnieżdżone iteracje, charakteryzujące się następującym pseudokodem:

numer := 0
for i := 2..N do
    for j := 1..(i − 1) do
        numer := numer + sign(x[i] − x[j]) × sign(y[i] − y[j])
return numer

Chociaż szybki do wdrożenia, algorytm ten jest złożony i staje się bardzo powolny w przypadku dużych próbek. Do obliczenia licznika w czasie można użyć bardziej wyrafinowanego algorytmu opartego na algorytmie sortowania przez scalanie .

Zacznij od uporządkowania punktów danych według pierwszej wielkości , a następnie (wśród powiązań w ) według drugiej wielkości, . Przy tej początkowej kolejności nie jest sortowany, a rdzeń algorytmu polega na obliczeniu, ile kroków musiałoby wykonać sortowanie bąbelkowe , aby posortować ten początkowy . Ulepszony algorytm sortowania przez scalanie , o złożoności, może być zastosowany do obliczenia liczby swapów , które byłyby wymagane przez sortowanie bąbelkowe do sortowania . Wtedy licznik dla jest obliczany jako:

gdzie oblicza się jak i , ale w odniesieniu do wspólnych więzi w i .

A Merge Sort partycje danych, które mają być sortowane, na dwie mniej więcej równe części, a , a następnie sortuje co pół rekurencyjnych, a następnie łączy dwie połówki klasyfikowane w pełni posortowane wektorze. Liczba swapów Bubble Sort jest równa:

gdzie i są posortowanymi wersjami i i i charakteryzują odpowiednik wymiany Bąbelkowy sortowania dla operacji scalania. jest obliczana w sposób przedstawiony w następującym pseudokodzie:

function M(L[1..n], R[1..m]) is
    i := 1
    j := 1
    nSwaps := 0
    while i ≤ n and j ≤ m do
        if R[j] < L[i] then
            nSwaps := nSwaps + n − i + 1
            j := j + 1
        else
            i := i + 1
    return nSwaps

Efektem ubocznym powyższych kroków jest otrzymanie zarówno posortowanej, jak i posortowanej wersji . Dzięki nim współczynniki i wykorzystywane do obliczania można łatwo uzyskać w pojedynczym przejściu w czasie liniowym przez posortowane tablice.

Implementacje oprogramowania

Zobacz też

Bibliografia

Dalsza lektura

Zewnętrzne linki