Współczynnik korelacji punktowo-dwuserialnej - Point-biserial correlation coefficient

Punkt biserial współczynnik korelacji ( r pz ) to współczynnik korelacji stosowane wtedy gdy zmienna (na przykład T ) jest dychotomiczny ; Y może być albo „naturalnie” dychotomiczne, na przykład to, czy moneta ląduje orłem lub reszką, albo zmienną sztucznie zdychotomizowaną. W większości sytuacji nie zaleca się sztucznej dychotomizacji zmiennych. Kiedy nowa zmienna jest sztucznie dychotomizowana, nowa zmienna dychotomiczna może być konceptualizowana jako mająca podstawową ciągłość. Jeśli tak jest, korelacja biseryjna byłaby bardziej odpowiednią kalkulacją.

Punkt-biserial korelacja jest matematycznie równoważne Pearsona (moment produkt) korelacji ; to znaczy, jeśli mamy jedną zmienną mierzoną w sposób ciągły X i zmienną dychotomiczną Y , r XY = r pb . Można to wykazać, przypisując do zmiennej dychotomicznej dwie różne wartości liczbowe.

Obliczenie

Aby obliczyć r pb , załóżmy, że zmienna dychotomiczna Y ma dwie wartości 0 i 1. Jeśli podzielimy zbiór danych na dwie grupy, grupę 1, która otrzymała wartość „1” na Y i grupę 2, która otrzymała wartość „0” na Y , to współczynnik korelacji punktowo-dwuseryjnej oblicza się w następujący sposób:

gdzie s n to odchylenie standardowe stosowane, gdy dane są dostępne dla każdego członka populacji:

M 1 jest średnią wartością zmiennej ciągłej X dla wszystkich punktów danych w grupie 1, a M 0 średnią wartością zmiennej ciągłej X dla wszystkich punktów danych w grupie 2. Ponadto n 1 jest liczbą punktów danych w grupie 1, n 0 to liczba punktów danych w grupie 2, a n to całkowita wielkość próbki. Ten wzór jest wzorem obliczeniowym, który został wyprowadzony ze wzoru na r XY w celu zmniejszenia kroków w obliczeniach; łatwiej to obliczyć niż r XY .

Istnieje równoważny wzór, który używa s n −1 :

gdzie s n -1 to odchylenie standardowe stosowane, gdy dane są dostępne tylko dla próbki populacji:

Wersja formuły wykorzystująca s n -1 jest przydatna, jeśli oblicza się współczynniki korelacji punktowo-dwuserialnej w języku programowania lub innym środowisku programistycznym, w którym dostępna jest funkcja do obliczania s n -1 , ale nie jest dostępna funkcja do obliczania s n .

Książka Glassa i Hopkinsa Metody statystyczne w edukacji i psychologii (wydanie trzecie) zawiera poprawną wersję punktowej formuły biserialnej.

Można również zapisać kwadrat punktowego współczynnika korelacji dwuseryjnej:

Możemy przetestować hipotezę zerową, że korelacja w populacji wynosi zero. Mała algebra pokazuje, że zwykły wzór do oceny istotności współczynnika korelacji zastosowany do r pb jest taki sam, jak wzór na niesparowany test t, a więc

podąża za rozkładem t-Studenta z ( n 1 + n 0 − 2) stopniami swobody, gdy hipoteza zerowa jest prawdziwa.

Jedną wadą punktowego współczynnika biserialnego jest to, że im dalszy rozkład Y wynosi od 50/50, tym bardziej ograniczony będzie zakres wartości, które współczynnik może przyjąć. Jeśli można założyć, że X ma rozkład normalny, lepszym wskaźnikiem opisowym jest współczynnik biserialny

gdzie u jest rzędną rozkładu normalnego z zerową średnią i jednostkową wariancją w punkcie dzielącym rozkład na proporcje n 0 / n i n 1 / n . Nie jest to łatwe do obliczenia, a współczynnik biserialny nie jest powszechnie stosowany w praktyce.

Szczególny przypadek korelacji biserialnej występuje, gdy X jest sumą wielu zmiennych dychotomicznych, z których Y jest jedną. Przykładem tego jest sytuacja, w której X jest całkowitym wynikiem danej osoby w teście złożonym z n dychotomicznie ocenionych pozycji. Statystyka będąca przedmiotem zainteresowania (która jest wskaźnikiem dyskryminacji) to korelacja między odpowiedziami na daną pozycję a odpowiadającymi jej całkowitymi wynikami testu. W powszechnym użyciu są trzy obliczenia, wszystkie zwane korelacją punktowo-dwuseryjną : (i) korelacja Pearsona między wynikami pozycji a całkowitymi wynikami testu, w tym wynikami pozycji, (ii) korelacja Pearsona między wynikami pozycji a całkowitymi wynikami testu z wyłączeniem pozycji wyniki oraz (iii) korelację skorygowaną o błąd spowodowany włączeniem wyników pozycji do wyników testu. Korelacja (iii) to

Nieco inną wersją współczynnika biserialnego punktu jest biserial rangowy, który występuje, gdy zmienna X składa się z rang, podczas gdy Y jest dychotomiczny. Moglibyśmy obliczyć współczynnik w taki sam sposób, jak w przypadku, gdy X jest ciągły, ale miałby tę samą wadę, że zakres wartości, które może przyjąć, staje się bardziej ograniczony, gdy rozkład Y staje się bardziej nierówny. Aby obejść ten problem, zauważamy, że współczynnik będzie miał największą wartość, gdzie najmniejsze rangi znajdują się naprzeciwko zer, a największe rangi są przeciwne do jedynek. Jego najmniejsza wartość występuje tam, gdzie jest odwrotnie. Te wartości to odpowiednio plus i minus ( n 1  +  n 0 )/2. Możemy zatem użyć odwrotności tej wartości, aby przeskalować różnicę między obserwowanymi średnimi rangami na przedział od plus jeden do minus jeden. Wynik to

gdzie M 1 i M 0 są odpowiednio średnimi rang odpowiadającymi punktom 1 i 0 zmiennej dychotomicznej. Ten wzór, który upraszcza obliczenia na podstawie liczenia umów i inwersji, zawdzięcza Gene V Glassowi (1966).

Można to wykorzystać do przetestowania hipotezy zerowej o zerowej korelacji w populacji, z której została pobrana próba. Jeżeli r rb jest obliczane jak powyżej, to mniejsza z

oraz

rozkłada się jako U Manna-Whitneya z próbkami o wielkości n 1 i n 0, gdy hipoteza zerowa jest prawdziwa.

Uwagi

Zewnętrzne linki