Kappa Cohena - Cohen's kappa

Współczynnik kappa Cohena ( κ ) jest statystyką, która służy do pomiaru wiarygodności między oceniającymi (a także między oceniającymi ) dla pozycji jakościowych (kategorycznych). Ogólnie uważa się, że jest to bardziej solidna miara niż proste obliczenie procentowej zgody, ponieważ κ uwzględnia możliwość przypadkowego wystąpienia umowy. Istnieją kontrowersje wokół kappy Cohena ze względu na trudności w interpretacji wskaźników zgodności. Niektórzy badacze sugerowali, że koncepcyjnie łatwiej jest ocenić niezgodność między przedmiotami.

Historia

Pierwsza wzmianka o statystyce podobnej do kappa przypisywana jest Galtonowi (1892); patrz Smeeton (1985).

Przełomowy artykuł wprowadzający kappa jako nową technikę został opublikowany przez Jacoba Cohena w czasopiśmie Educational and Psychological Measurement w 1960 roku.

Definicja

Kappa Cohena mierzy zgodność między dwoma oceniającymi, z których każdy klasyfikuje N pozycji do C wzajemnie wykluczających się kategorii. Definicja to:

gdzie p o jest względną obserwowaną zgodnością wśród oceniających, a p e jest hipotetycznym prawdopodobieństwem przypadkowej zgodności, wykorzystując zaobserwowane dane do obliczenia prawdopodobieństw losowego zauważenia każdej kategorii przez każdego obserwatora. Jeśli oceniający są całkowicie zgodni, to . Jeśli między oceniającymi nie ma zgody innej niż ta, której można by się spodziewać przypadkowo (jak wynika z p e ), . Możliwe jest, że statystyka będzie ujemna, co oznacza, że ​​nie ma skutecznej zgodności między dwoma oceniającymi lub zgodność jest gorsza niż losowa.

Dla k kategorii, N obserwacji do kategoryzacji i ile razy oceniający i przewidział kategorię k :

Wynika to z następującej konstrukcji:

Gdzie jest szacowane prawdopodobieństwo, że zarówno oceniający 1, jak i oceniający 2 zaklasyfikują tę samą pozycję jako k, podczas gdy jest to oszacowane prawdopodobieństwo, że oceniający 1 zaklasyfikuje pozycję jako k (i podobnie dla oceniającego 2). Relacja opiera się na założeniu, że oceny dwóch oceniających są niezależne . Termin jest szacowany przy użyciu liczby pozycji sklasyfikowanych jako k przez oceniającego 1 ( ) podzielonej przez całkowitą liczbę pozycji do sklasyfikowania ( ): (i podobnie dla oceniającego 2).

Macierz pomyłek klasyfikacji binarnej

W tradycyjnej macierzy pomyłek 2 × 2 stosowanej w uczeniu maszynowym i statystyce do oceny klasyfikacji binarnych wzór Kappa Cohena można zapisać jako:

gdzie TP to prawdziwie pozytywne, FP to fałszywie pozytywne, TN to prawdziwie negatywne, a FN to fałszywie negatywne.

Przykłady

Prosty przykład

Załóżmy, że analizujesz dane dotyczące grupy 50 osób ubiegających się o dotację. Każdy wniosek o dotację został przeczytany przez dwóch czytelników i każdy z nich odpowiedział „Tak” lub „Nie” na wniosek. Załóżmy, że dane dotyczące liczby niezgodności są następujące, gdzie A i B są czytelnikami, dane na głównej przekątnej macierzy (a i d) liczą liczbę uzgodnień, a dane poza przekątną (b i c) liczą liczbę niezgodności:

b
ZA
tak Nie
tak za b
Nie do re

na przykład

b
ZA
tak Nie
tak 20 5
Nie 10 15

Zaobserwowana proporcjonalna umowa to:

Aby obliczyć p e (prawdopodobieństwo przypadkowej zgodności) zauważamy, że:

  • Czytelnik A powiedział „Tak” 25 kandydatom, a „Nie” 25 kandydatom. Tak więc czytelnik A powiedział „Tak” w 50% przypadków.
  • Czytelnik B powiedział „Tak” 30 kandydatom, a „Nie” 20 kandydatom. Czytelnik B powiedział więc „Tak” w 60% przypadków.

Oczekiwane prawdopodobieństwo, że obaj powiedzą tak losowo, wynosi:

Podobnie:

Ogólne prawdopodobieństwo losowej zgody to prawdopodobieństwo, że zgodzili się na Tak lub Nie, tj.:

Więc teraz stosując nasz wzór na Kappa Cohena otrzymujemy:

Te same wartości procentowe, ale różne liczby

Przypadek czasami uważany za problem z Kappa Cohena występuje, gdy porównuje się Kappa obliczoną dla dwóch par oceniających z dwoma oceniającymi w każdej parze o takiej samej zgodności procentowej, ale jedna para daje podobną liczbę ocen w każdej klasie, podczas gdy druga para dać bardzo różną liczbę ocen w każdej klasie. (W poniższych przypadkach zauważ, że B ma 70 tak i 30 nie, w pierwszym przypadku, ale te liczby są odwrócone w drugim). Na przykład w następujących dwóch przypadkach istnieje równa zgodność między A i B (60 z 100 w obu przypadkach) pod względem zgodności w każdej klasie, więc spodziewalibyśmy się, że względne wartości Kappa Cohena to odzwierciedlą. Jednak obliczając Kappa Cohena dla każdego:

b
ZA
tak Nie
tak 45 15
Nie 25 15
b
ZA
tak Nie
tak 25 35
Nie 5 35

stwierdzamy, że wykazuje większe podobieństwo między A i B w drugim przypadku w porównaniu z pierwszym. Wynika to z tego, że chociaż procentowa zgodność jest taka sama, procentowa zgodność, która wystąpiłaby „przypadkowo” jest znacznie wyższa w pierwszym przypadku (0,54 w porównaniu do 0,46).

Nieruchomości

Testowanie hipotez i przedział ufności

Rzadko podaje się wartość p dla kappa, prawdopodobnie dlatego, że nawet stosunkowo niskie wartości kappa mogą jednak znacznie różnić się od zera, ale nie są wystarczająco duże, aby zadowolić badaczy. Jednak jego błąd standardowy został opisany i jest obliczany przez różne programy komputerowe.

Przedziały ufności dla Kappa można skonstruować, dla oczekiwanych wartości Kappa, jeśli mamy sprawdzoną nieskończoną liczbę pozycji, korzystając z następującego wzoru:

Gdzie jest standardowy normalny percentyl, gdy , i

Oblicza się to, ignorując fakt, że p e jest szacowane na podstawie danych, i traktując p o jako oszacowane prawdopodobieństwo rozkładu dwumianowego przy użyciu asymptotycznej normalności (tj.: zakładając, że liczba pozycji jest duża i że p o nie jest zbliżone do 0 lub 1). (i ogólnie CI) można również oszacować za pomocą metod ładowania początkowego .

Interpretacja wielkości

Kappa (oś pionowa) i Dokładność (oś pozioma) obliczone na podstawie tych samych symulowanych danych binarnych. Każdy punkt na wykresie jest obliczany na podstawie par sędziów losowo oceniających 10 badanych pod kątem diagnozy X lub nie. Zauważ, że w tym przykładzie Kappa=0 jest w przybliżeniu równoważne dokładności=0,5

Jeśli istotność statystyczna nie jest użyteczną wskazówką, jaka wielkość kappa odzwierciedla odpowiednią zgodność? Wytyczne byłyby pomocne, ale czynniki inne niż umowa mogą wpływać na jej wielkość, co sprawia, że ​​interpretacja danej wielkości jest problematyczna. Jak zauważyli Sim i Wright, dwa ważne czynniki to częstość występowania (czy kody są jednakowo prawdopodobne, czy ich prawdopodobieństwa się różnią) oraz stronniczość (czy marginalne prawdopodobieństwa dla dwóch obserwatorów są podobne czy różne). Gdy inne rzeczy są równe, kappas są wyższe, gdy kody są jednakowo prawdopodobne. Z drugiej strony, Kappas są wyższe, gdy kody są rozłożone asymetrycznie przez dwóch obserwatorów. W przeciwieństwie do zmienności prawdopodobieństwa, efekt błędu systematycznego jest większy, gdy Kappa jest mała, niż gdy jest duża.

Kolejnym czynnikiem jest liczba kodów. Wraz ze wzrostem liczby kodów kappasy stają się wyższe. Na podstawie badania symulacyjnego Bakeman i współpracownicy doszli do wniosku, że dla omylnych obserwatorów wartości kappa były niższe, gdy kodów było mniej. I zgodnie z oświadczeniem Sim & Wrights dotyczącym rozpowszechnienia, kappas były wyższe, gdy kody były mniej więcej równie prawdopodobne. Tak więc Bakeman i in. doszedł do wniosku, że „żadnej wartości kappa nie można uznać za powszechnie akceptowaną”. Dostarczają również program komputerowy, który pozwala użytkownikom obliczać wartości kappa określając liczbę kodów, ich prawdopodobieństwo i dokładność obserwatora. Na przykład, biorąc pod uwagę równoprawdopodobne kody i obserwatorów, którzy są dokładni w 85%, wartości kappa wynoszą 0,49, 0,60, 0,66 i 0,69, gdy liczba kodów wynosi odpowiednio 2, 3, 5 i 10.

Niemniej jednak w literaturze pojawiły się wytyczne dotyczące wielkości. Być może pierwszymi byli Landis i Koch, którzy wartości < 0 charakteryzowali brak zgody i 0–0,20 jako nieznaczną, 0,21–0,40 jako dostateczną, 0,41–0,60 jako umiarkowaną, 0,61–0,80 jako dużą, a 0,81–1 jako prawie doskonałą zgodność . Ten zestaw wytycznych nie jest jednak w żaden sposób powszechnie akceptowany; Landis i Koch nie dostarczyli żadnych dowodów na poparcie tego, opierając je na osobistej opinii. Zauważono, że te wskazówki mogą być bardziej szkodliwe niż pomocne. Równie arbitralne wytyczne Fleissa charakteryzują kappas powyżej 0,75 jako doskonałe, 0,40 do 0,75 jako od zadowalającego do dobrego, a poniżej 0,40 jako słabe.

Maksimum Kappa

Kappa przyjmuje teoretyczną maksymalną wartość 1 tylko wtedy, gdy obaj obserwatorzy rozdzielają kody tak samo, to znaczy, gdy odpowiadające im sumy wierszy i kolumn są identyczne. Cokolwiek mniej oznacza mniej niż doskonałą zgodę. Mimo to maksymalna wartość kappa, jaką można osiągnąć przy nierównych rozkładach, pomaga zinterpretować faktycznie uzyskaną wartość kappa. Równanie na maksimum κ to:

gdzie , jak zwykle, ,

k  = liczba kodów, są prawdopodobieństwami wierszy i są prawdopodobieństwami kolumn.

Ograniczenia

Kappa to indeks, który uwzględnia osiągniętą zgodność w odniesieniu do umowy bazowej. Jednak badacze muszą dokładnie rozważyć, czy podstawowa umowa Kappa ma znaczenie dla konkretnego pytania badawczego. Punkt odniesienia Kappa jest często określany jako umowa losowa, co jest tylko częściowo poprawne. Umowa bazowa Kappa jest umową, której można by oczekiwać z powodu losowego przydziału, biorąc pod uwagę ilości określone przez sumy krańcowe kwadratowej tabeli kontyngencji. Zatem κ = 0, gdy obserwowana alokacja jest pozornie losowa, niezależnie od niezgodności ilościowej ograniczonej przez sumy krańcowe. Jednak w przypadku wielu zastosowań badacze powinni być bardziej zainteresowani niezgodnością ilościową w sumach krańcowych niż niezgodnością alokacji, jak opisano w dodatkowych informacjach na przekątnej kwadratowej tabeli kontyngencji. Tak więc w wielu zastosowaniach podstawa Kappa jest bardziej rozpraszająca niż oświecająca. Rozważmy następujący przykład:

Przykład Kappy
Porównanie 1
Odniesienie
sol R
Porównanie sol 1 14
R 0 1

Proporcja niezgodności wynosi 14/16 lub 0,875. Spór wynika z ilości, ponieważ alokacja jest optymalna. κ wynosi 0,01.

Porównanie 2
Odniesienie
sol R
Porównanie sol 0 1
R 1 14

Proporcja niezgodności wynosi 2/16 lub 0,125. Spór wynika z alokacji, ponieważ ilości są identyczne. Kappa wynosi -0,07.

Tutaj, raportowanie ilości i niezgodności alokacji jest pouczające, podczas gdy Kappa ukrywa informacje. Ponadto Kappa wprowadza pewne wyzwania w obliczeniach i interpretacji, ponieważ Kappa jest współczynnikiem. Jest możliwe, że współczynnik Kappa zwróci niezdefiniowaną wartość ze względu na zero w mianowniku. Co więcej, stosunek nie ujawnia swojego licznika ani mianownika. Dla badaczy bardziej pouczające jest zgłaszanie niezgodności w dwóch elementach, ilości i alokacji. Te dwa elementy opisują związek między kategoriami wyraźniej niż pojedyncza statystyka podsumowująca. Gdy celem jest dokładność predykcyjna, badacze mogą łatwiej zacząć myśleć o sposobach poprawy predykcji za pomocą dwóch składników ilości i alokacji zamiast jednego współczynnika Kappa.

Niektórzy badacze wyrazili zaniepokojenie tendencją κ do przyjmowania częstości obserwowanych kategorii jako danych, co może czynić ją niewiarygodną w mierzeniu zgodności w sytuacjach takich jak diagnozowanie rzadkich chorób. W takich sytuacjach κ ma tendencję do niedoceniania porozumienia w sprawie rzadkiej kategorii. Z tego powodu κ jest uważany za zbyt konserwatywną miarę zgody. Inni kwestionują twierdzenie, że kappa „bierze pod uwagę” przypadkowe porozumienie. Aby zrobić to skutecznie, potrzebny byłby wyraźny model wpływu przypadku na decyzje oceniających. Tak zwana korekta losowa statystyk kappa zakłada, że ​​jeśli nie jest to całkowicie pewne, oceniający po prostu zgadują – bardzo nierealistyczny scenariusz.

Powiązane statystyki

Pi Scotta

Podobną statystykę, zwaną pi , zaproponował Scott (1955). Kappa Cohena i pi Scotta różnią się sposobem obliczania p e .

Kappa Fleissa

Zauważ, że kappa Cohena mierzy zgodność tylko między dwoma oceniającymi. Podobną miarę zgodności ( Fleiss' Kappa ) używaną, gdy jest więcej niż dwóch oceniających, patrz Fleiss (1971). Kappa Fleissa jest jednak uogólnieniem wielu oceniających statystyki pi Scotta , a nie kappa Cohena. Kappa jest również używana do porównywania wydajności w uczeniu maszynowym , ale kierunkowa wersja znana jako statystyka Informedness lub Youden J jest uważana za bardziej odpowiednią do uczenia nadzorowanego.

Ważona kappa

Ważona kappa pozwala na różne ważenie nieporozumień i jest szczególnie przydatna, gdy kody są zamawiane. W grę wchodzą trzy macierze, macierz obserwowanych wyników, macierz oczekiwanych wyników opartych na zgodności szans oraz macierz wag. Komórki macierzy wagowej znajdujące się na przekątnej (od lewego górnego rogu do prawego na dole) reprezentują zgodność, a zatem zawierają zera. Komórki poza przekątną zawierają wagi wskazujące na powagę tego sporu. Często komórki znajdujące się na jednej przekątnej mają wagę 1, te dwie na 2 itd.

Równanie dla ważonego κ to:

gdzie k = liczba kodów i , , i są elementami odpowiednio macierzy wagi, obserwowanej i oczekiwanej. Gdy ukośne komórki zawierają wagę 0, a wszystkie komórki poza przekątną mają wagę 1, ta formuła daje taką samą wartość kappa jak obliczenia podane powyżej.

Zobacz też

Bibliografia

Dalsza lektura

Linki zewnętrzne