Kappa Cohena - Cohen's kappa
Współczynnik kappa Cohena ( κ ) jest statystyką, która służy do pomiaru wiarygodności między oceniającymi (a także między oceniającymi ) dla pozycji jakościowych (kategorycznych). Ogólnie uważa się, że jest to bardziej solidna miara niż proste obliczenie procentowej zgody, ponieważ κ uwzględnia możliwość przypadkowego wystąpienia umowy. Istnieją kontrowersje wokół kappy Cohena ze względu na trudności w interpretacji wskaźników zgodności. Niektórzy badacze sugerowali, że koncepcyjnie łatwiej jest ocenić niezgodność między przedmiotami.
Historia
Pierwsza wzmianka o statystyce podobnej do kappa przypisywana jest Galtonowi (1892); patrz Smeeton (1985).
Przełomowy artykuł wprowadzający kappa jako nową technikę został opublikowany przez Jacoba Cohena w czasopiśmie Educational and Psychological Measurement w 1960 roku.
Definicja
Kappa Cohena mierzy zgodność między dwoma oceniającymi, z których każdy klasyfikuje N pozycji do C wzajemnie wykluczających się kategorii. Definicja to:
gdzie p o jest względną obserwowaną zgodnością wśród oceniających, a p e jest hipotetycznym prawdopodobieństwem przypadkowej zgodności, wykorzystując zaobserwowane dane do obliczenia prawdopodobieństw losowego zauważenia każdej kategorii przez każdego obserwatora. Jeśli oceniający są całkowicie zgodni, to . Jeśli między oceniającymi nie ma zgody innej niż ta, której można by się spodziewać przypadkowo (jak wynika z p e ), . Możliwe jest, że statystyka będzie ujemna, co oznacza, że nie ma skutecznej zgodności między dwoma oceniającymi lub zgodność jest gorsza niż losowa.
Dla k kategorii, N obserwacji do kategoryzacji i ile razy oceniający i przewidział kategorię k :
Wynika to z następującej konstrukcji:
Gdzie jest szacowane prawdopodobieństwo, że zarówno oceniający 1, jak i oceniający 2 zaklasyfikują tę samą pozycję jako k, podczas gdy jest to oszacowane prawdopodobieństwo, że oceniający 1 zaklasyfikuje pozycję jako k (i podobnie dla oceniającego 2). Relacja opiera się na założeniu, że oceny dwóch oceniających są niezależne . Termin jest szacowany przy użyciu liczby pozycji sklasyfikowanych jako k przez oceniającego 1 ( ) podzielonej przez całkowitą liczbę pozycji do sklasyfikowania ( ): (i podobnie dla oceniającego 2).
Macierz pomyłek klasyfikacji binarnej
W tradycyjnej macierzy pomyłek 2 × 2 stosowanej w uczeniu maszynowym i statystyce do oceny klasyfikacji binarnych wzór Kappa Cohena można zapisać jako:
gdzie TP to prawdziwie pozytywne, FP to fałszywie pozytywne, TN to prawdziwie negatywne, a FN to fałszywie negatywne.
Przykłady
Prosty przykład
Załóżmy, że analizujesz dane dotyczące grupy 50 osób ubiegających się o dotację. Każdy wniosek o dotację został przeczytany przez dwóch czytelników i każdy z nich odpowiedział „Tak” lub „Nie” na wniosek. Załóżmy, że dane dotyczące liczby niezgodności są następujące, gdzie A i B są czytelnikami, dane na głównej przekątnej macierzy (a i d) liczą liczbę uzgodnień, a dane poza przekątną (b i c) liczą liczbę niezgodności:
b
ZA
|
tak | Nie |
---|---|---|
tak | za | b |
Nie | do | re |
na przykład
b
ZA
|
tak | Nie |
---|---|---|
tak | 20 | 5 |
Nie | 10 | 15 |
Zaobserwowana proporcjonalna umowa to:
Aby obliczyć p e (prawdopodobieństwo przypadkowej zgodności) zauważamy, że:
- Czytelnik A powiedział „Tak” 25 kandydatom, a „Nie” 25 kandydatom. Tak więc czytelnik A powiedział „Tak” w 50% przypadków.
- Czytelnik B powiedział „Tak” 30 kandydatom, a „Nie” 20 kandydatom. Czytelnik B powiedział więc „Tak” w 60% przypadków.
Oczekiwane prawdopodobieństwo, że obaj powiedzą tak losowo, wynosi:
Podobnie:
Ogólne prawdopodobieństwo losowej zgody to prawdopodobieństwo, że zgodzili się na Tak lub Nie, tj.:
Więc teraz stosując nasz wzór na Kappa Cohena otrzymujemy:
Te same wartości procentowe, ale różne liczby
Przypadek czasami uważany za problem z Kappa Cohena występuje, gdy porównuje się Kappa obliczoną dla dwóch par oceniających z dwoma oceniającymi w każdej parze o takiej samej zgodności procentowej, ale jedna para daje podobną liczbę ocen w każdej klasie, podczas gdy druga para dać bardzo różną liczbę ocen w każdej klasie. (W poniższych przypadkach zauważ, że B ma 70 tak i 30 nie, w pierwszym przypadku, ale te liczby są odwrócone w drugim). Na przykład w następujących dwóch przypadkach istnieje równa zgodność między A i B (60 z 100 w obu przypadkach) pod względem zgodności w każdej klasie, więc spodziewalibyśmy się, że względne wartości Kappa Cohena to odzwierciedlą. Jednak obliczając Kappa Cohena dla każdego:
b
ZA
|
tak | Nie |
---|---|---|
tak | 45 | 15 |
Nie | 25 | 15 |
b
ZA
|
tak | Nie |
---|---|---|
tak | 25 | 35 |
Nie | 5 | 35 |
stwierdzamy, że wykazuje większe podobieństwo między A i B w drugim przypadku w porównaniu z pierwszym. Wynika to z tego, że chociaż procentowa zgodność jest taka sama, procentowa zgodność, która wystąpiłaby „przypadkowo” jest znacznie wyższa w pierwszym przypadku (0,54 w porównaniu do 0,46).
Nieruchomości
Testowanie hipotez i przedział ufności
Rzadko podaje się wartość p dla kappa, prawdopodobnie dlatego, że nawet stosunkowo niskie wartości kappa mogą jednak znacznie różnić się od zera, ale nie są wystarczająco duże, aby zadowolić badaczy. Jednak jego błąd standardowy został opisany i jest obliczany przez różne programy komputerowe.
Przedziały ufności dla Kappa można skonstruować, dla oczekiwanych wartości Kappa, jeśli mamy sprawdzoną nieskończoną liczbę pozycji, korzystając z następującego wzoru:
Gdzie jest standardowy normalny percentyl, gdy , i
Oblicza się to, ignorując fakt, że p e jest szacowane na podstawie danych, i traktując p o jako oszacowane prawdopodobieństwo rozkładu dwumianowego przy użyciu asymptotycznej normalności (tj.: zakładając, że liczba pozycji jest duża i że p o nie jest zbliżone do 0 lub 1). (i ogólnie CI) można również oszacować za pomocą metod ładowania początkowego .
Interpretacja wielkości
Jeśli istotność statystyczna nie jest użyteczną wskazówką, jaka wielkość kappa odzwierciedla odpowiednią zgodność? Wytyczne byłyby pomocne, ale czynniki inne niż umowa mogą wpływać na jej wielkość, co sprawia, że interpretacja danej wielkości jest problematyczna. Jak zauważyli Sim i Wright, dwa ważne czynniki to częstość występowania (czy kody są jednakowo prawdopodobne, czy ich prawdopodobieństwa się różnią) oraz stronniczość (czy marginalne prawdopodobieństwa dla dwóch obserwatorów są podobne czy różne). Gdy inne rzeczy są równe, kappas są wyższe, gdy kody są jednakowo prawdopodobne. Z drugiej strony, Kappas są wyższe, gdy kody są rozłożone asymetrycznie przez dwóch obserwatorów. W przeciwieństwie do zmienności prawdopodobieństwa, efekt błędu systematycznego jest większy, gdy Kappa jest mała, niż gdy jest duża.
Kolejnym czynnikiem jest liczba kodów. Wraz ze wzrostem liczby kodów kappasy stają się wyższe. Na podstawie badania symulacyjnego Bakeman i współpracownicy doszli do wniosku, że dla omylnych obserwatorów wartości kappa były niższe, gdy kodów było mniej. I zgodnie z oświadczeniem Sim & Wrights dotyczącym rozpowszechnienia, kappas były wyższe, gdy kody były mniej więcej równie prawdopodobne. Tak więc Bakeman i in. doszedł do wniosku, że „żadnej wartości kappa nie można uznać za powszechnie akceptowaną”. Dostarczają również program komputerowy, który pozwala użytkownikom obliczać wartości kappa określając liczbę kodów, ich prawdopodobieństwo i dokładność obserwatora. Na przykład, biorąc pod uwagę równoprawdopodobne kody i obserwatorów, którzy są dokładni w 85%, wartości kappa wynoszą 0,49, 0,60, 0,66 i 0,69, gdy liczba kodów wynosi odpowiednio 2, 3, 5 i 10.
Niemniej jednak w literaturze pojawiły się wytyczne dotyczące wielkości. Być może pierwszymi byli Landis i Koch, którzy wartości < 0 charakteryzowali brak zgody i 0–0,20 jako nieznaczną, 0,21–0,40 jako dostateczną, 0,41–0,60 jako umiarkowaną, 0,61–0,80 jako dużą, a 0,81–1 jako prawie doskonałą zgodność . Ten zestaw wytycznych nie jest jednak w żaden sposób powszechnie akceptowany; Landis i Koch nie dostarczyli żadnych dowodów na poparcie tego, opierając je na osobistej opinii. Zauważono, że te wskazówki mogą być bardziej szkodliwe niż pomocne. Równie arbitralne wytyczne Fleissa charakteryzują kappas powyżej 0,75 jako doskonałe, 0,40 do 0,75 jako od zadowalającego do dobrego, a poniżej 0,40 jako słabe.
Maksimum Kappa
Kappa przyjmuje teoretyczną maksymalną wartość 1 tylko wtedy, gdy obaj obserwatorzy rozdzielają kody tak samo, to znaczy, gdy odpowiadające im sumy wierszy i kolumn są identyczne. Cokolwiek mniej oznacza mniej niż doskonałą zgodę. Mimo to maksymalna wartość kappa, jaką można osiągnąć przy nierównych rozkładach, pomaga zinterpretować faktycznie uzyskaną wartość kappa. Równanie na maksimum κ to:
gdzie , jak zwykle, ,
k = liczba kodów, są prawdopodobieństwami wierszy i są prawdopodobieństwami kolumn.
Ograniczenia
Kappa to indeks, który uwzględnia osiągniętą zgodność w odniesieniu do umowy bazowej. Jednak badacze muszą dokładnie rozważyć, czy podstawowa umowa Kappa ma znaczenie dla konkretnego pytania badawczego. Punkt odniesienia Kappa jest często określany jako umowa losowa, co jest tylko częściowo poprawne. Umowa bazowa Kappa jest umową, której można by oczekiwać z powodu losowego przydziału, biorąc pod uwagę ilości określone przez sumy krańcowe kwadratowej tabeli kontyngencji. Zatem κ = 0, gdy obserwowana alokacja jest pozornie losowa, niezależnie od niezgodności ilościowej ograniczonej przez sumy krańcowe. Jednak w przypadku wielu zastosowań badacze powinni być bardziej zainteresowani niezgodnością ilościową w sumach krańcowych niż niezgodnością alokacji, jak opisano w dodatkowych informacjach na przekątnej kwadratowej tabeli kontyngencji. Tak więc w wielu zastosowaniach podstawa Kappa jest bardziej rozpraszająca niż oświecająca. Rozważmy następujący przykład:
Odniesienie | |||
---|---|---|---|
sol | R | ||
Porównanie | sol | 1 | 14 |
R | 0 | 1 |
Proporcja niezgodności wynosi 14/16 lub 0,875. Spór wynika z ilości, ponieważ alokacja jest optymalna. κ wynosi 0,01.
Odniesienie | |||
---|---|---|---|
sol | R | ||
Porównanie | sol | 0 | 1 |
R | 1 | 14 |
Proporcja niezgodności wynosi 2/16 lub 0,125. Spór wynika z alokacji, ponieważ ilości są identyczne. Kappa wynosi -0,07.
Tutaj, raportowanie ilości i niezgodności alokacji jest pouczające, podczas gdy Kappa ukrywa informacje. Ponadto Kappa wprowadza pewne wyzwania w obliczeniach i interpretacji, ponieważ Kappa jest współczynnikiem. Jest możliwe, że współczynnik Kappa zwróci niezdefiniowaną wartość ze względu na zero w mianowniku. Co więcej, stosunek nie ujawnia swojego licznika ani mianownika. Dla badaczy bardziej pouczające jest zgłaszanie niezgodności w dwóch elementach, ilości i alokacji. Te dwa elementy opisują związek między kategoriami wyraźniej niż pojedyncza statystyka podsumowująca. Gdy celem jest dokładność predykcyjna, badacze mogą łatwiej zacząć myśleć o sposobach poprawy predykcji za pomocą dwóch składników ilości i alokacji zamiast jednego współczynnika Kappa.
Niektórzy badacze wyrazili zaniepokojenie tendencją κ do przyjmowania częstości obserwowanych kategorii jako danych, co może czynić ją niewiarygodną w mierzeniu zgodności w sytuacjach takich jak diagnozowanie rzadkich chorób. W takich sytuacjach κ ma tendencję do niedoceniania porozumienia w sprawie rzadkiej kategorii. Z tego powodu κ jest uważany za zbyt konserwatywną miarę zgody. Inni kwestionują twierdzenie, że kappa „bierze pod uwagę” przypadkowe porozumienie. Aby zrobić to skutecznie, potrzebny byłby wyraźny model wpływu przypadku na decyzje oceniających. Tak zwana korekta losowa statystyk kappa zakłada, że jeśli nie jest to całkowicie pewne, oceniający po prostu zgadują – bardzo nierealistyczny scenariusz.
Powiązane statystyki
Pi Scotta
Podobną statystykę, zwaną pi , zaproponował Scott (1955). Kappa Cohena i pi Scotta różnią się sposobem obliczania p e .
Kappa Fleissa
Zauważ, że kappa Cohena mierzy zgodność tylko między dwoma oceniającymi. Podobną miarę zgodności ( Fleiss' Kappa ) używaną, gdy jest więcej niż dwóch oceniających, patrz Fleiss (1971). Kappa Fleissa jest jednak uogólnieniem wielu oceniających statystyki pi Scotta , a nie kappa Cohena. Kappa jest również używana do porównywania wydajności w uczeniu maszynowym , ale kierunkowa wersja znana jako statystyka Informedness lub Youden J jest uważana za bardziej odpowiednią do uczenia nadzorowanego.
Ważona kappa
Ważona kappa pozwala na różne ważenie nieporozumień i jest szczególnie przydatna, gdy kody są zamawiane. W grę wchodzą trzy macierze, macierz obserwowanych wyników, macierz oczekiwanych wyników opartych na zgodności szans oraz macierz wag. Komórki macierzy wagowej znajdujące się na przekątnej (od lewego górnego rogu do prawego na dole) reprezentują zgodność, a zatem zawierają zera. Komórki poza przekątną zawierają wagi wskazujące na powagę tego sporu. Często komórki znajdujące się na jednej przekątnej mają wagę 1, te dwie na 2 itd.
Równanie dla ważonego κ to:
gdzie k = liczba kodów i , , i są elementami odpowiednio macierzy wagi, obserwowanej i oczekiwanej. Gdy ukośne komórki zawierają wagę 0, a wszystkie komórki poza przekątną mają wagę 1, ta formuła daje taką samą wartość kappa jak obliczenia podane powyżej.
Zobacz też
Bibliografia
Dalsza lektura
- Banerjee, M.; Capozzoli, Michelle; McSweeney, Laura; Sinha, Debajjoti (1999). „Beyond Kappa: przegląd środków umowy Interrater” . Kanadyjski Dziennik Statystyczny . 27 (1): 3–23. doi : 10.2307/3315487 . JSTOR 3315487 .
- Cohen, Jakub (1960). „Współczynnik zgodności dla skal nominalnych”. Pomiar edukacyjny i psychologiczny . 20 (1): 37–46. doi : 10.1177/001316446002000104 . hdl : 1942/28116 . S2CID 15926286 .
- Cohen, J. (1968). „Ważony kappa: zgodność ze skalą nominalną z możliwością skalowania niezgodności lub częściowego uznania”. Biuletyn Psychologiczny . 70 (4): 213–220. doi : 10.1037/h0026256 . PMID 19673146 .
- Fleissa, JL; Cohen, J. (1973). „Równoważność ważonego kappa i wewnątrzklasowego współczynnika korelacji jako miar niezawodności”. Pomiar edukacyjny i psychologiczny . 33 (3): 613–619. doi : 10.1177/001316447303300309 . S2CID 145183399 .
- Sim, J.; Wright, CC (2005). „Statystyka Kappa w badaniach niezawodności: wymagania dotyczące użycia, interpretacji i wielkości próbki” . Fizykoterapia . 85 (3): 257–268. doi : 10.1093/ptj/85.3.257 . PMID 15733050 .
- Warrens, J. (2011). „Kappa Cohena jest średnią ważoną” . Metodologia statystyczna . 8 (6): 473–484. doi : 10.1016/j.stamet.2011.06.002 .