Interakcja (statystyki) - Interaction (statistics)

Efekt interakcji edukacji i ideologii na troskę o wzrost poziomu morza

W statystykach , interakcja może powstać przy rozważaniu relacji między trzema lub więcej zmiennych i opisuje sytuację, w której efekt jednej zmiennej przyczynowego na wynik zależy od stanu zmiennej sekund przyczynowego (to jest, gdy skutki dwóch przyczyny nie sumują się ). Chociaż powszechnie myśli się w kategoriach związków przyczynowych, pojęcie interakcji może również opisywać związki nieprzyczynowe. Interakcje są często rozważane w kontekście analiz regresji lub eksperymentów czynnikowych .

Obecność interakcji może mieć ważne implikacje dla interpretacji modeli statystycznych. Jeśli dwie zmienne będące przedmiotem zainteresowania wchodzą w interakcję, związek między każdą z oddziałujących zmiennych a trzecią „zmienną zależną” zależy od wartości drugiej oddziałującej zmiennej. W praktyce utrudnia to przewidzenie konsekwencji zmiany wartości zmiennej, zwłaszcza jeśli zmienne, z którymi oddziałuje, są trudne do zmierzenia lub trudne do kontrolowania.

Pojęcie „interakcji” jest ściśle powiązane z pojęciem moderacji, które jest powszechne w badaniach społecznych i nauk o zdrowiu: interakcja między zmienną objaśniającą a zmienną środowiskową sugeruje, że wpływ zmiennej objaśniającej został złagodzony lub zmodyfikowany przez zmienną środowiskową .

Wprowadzenie

Zmienna interakcja lub funkcja interakcji jest zmienną zbudowane z oryginalnego zestawu zmiennych, aby spróbować albo reprezentowania wszystkich obecnych interakcji lub jakiejś jego części. W eksploracyjnych analizach statystycznych powszechnie stosuje się iloczyny zmiennych pierwotnych jako podstawę badania występowania interakcji z możliwością zastąpienia innych, bardziej realistycznych zmiennych interakcyjnych na późniejszym etapie. Gdy istnieje więcej niż dwie zmienne objaśniające, konstruowanych jest kilka zmiennych interakcji, przy czym iloczyny parami reprezentują interakcje parami, a produkty wyższego rzędu reprezentują interakcje wyższego rzędu.

Czynnik binarny A i zmienna ilościowa X wchodzą w interakcje (są nieaddytywne) podczas analizy w odniesieniu do zmiennej wynikowej Y .

Tak więc w przypadku reakcji Y oraz dwie zmienne x 1 oraz x 2 dodatek modelu to:

W kontraście do tego,

Jest to przykład model z interakcji między zmiennymi x 1 oraz x 2 ( „błąd” odnosi się do zmiennej losowej , którego wartość jest w którym Y różni się od oczekiwanych wartości z Y , patrz błędów i pozostałości w statystykach ). Często modele są prezentowane bez terminu interakcji , ale to myli efekt główny i efekt interakcji (tj. bez określenia terminu interakcji możliwe jest, że każdy wykryty efekt główny jest w rzeczywistości spowodowany interakcją).

W modelingu

W ANOVA

Prostym ustawieniem, w którym mogą zaistnieć interakcje, jest dwuczynnikowy eksperyment analizowany za pomocą analizy wariancji (ANOVA). Załóżmy, że mamy dwa czynniki binarne A i B . Na przykład czynniki te mogą wskazywać, czy pacjentowi podano jedno z dwóch rodzajów leczenia, przy czym leczenie zastosowano pojedynczo lub w połączeniu. Następnie możemy rozważyć średnią odpowiedź na leczenie (np. poziomy objawów po leczeniu) dla każdego pacjenta, jako funkcję podanej kombinacji leczenia. Poniższa tabela przedstawia jedną z możliwych sytuacji:

B  = 0 B  = 1
A  = 0 6 7
A  = 1 4 5

W tym przykładzie nie ma interakcji między dwoma zabiegami — ich efekty sumują się. Powodem tego jest to, że różnica w średniej odpowiedzi między osobami otrzymującymi leczenie A i nieotrzymującymi leczenia A wynosi -2 niezależnie od tego, czy zastosowano leczenie B (-2 = 4 - 6) czy nie (-2 = 5 - 7). ). Należy zauważyć, że automatycznie wynika z tego, że różnica w średniej odpowiedzi między tymi podmiotami otrzymującymi leczenie B i tymi, które nie otrzymały leczenia B jest taka sama, niezależnie od tego, czy zastosowano leczenie A (7 - 6 = 5 - 4).

W przeciwieństwie do tego, jeśli obserwuje się następujące średnie odpowiedzi:

B  = 0 B  = 1
A  = 0 1 4
A  = 1 7 6

wtedy zachodzi interakcja między zabiegami — ich efekty nie sumują się. Przypuśćmy, że większe liczby odpowiadają lepszej odpowiedzi, w tym leczenia sytuacja B jest pomocne średnio jeśli obiekt nie jest również otrzymujących leczenie A , ale jest szkodliwe średnio jeśli podane w połączeniu z leczeniem A . Leczenie jest jako średnio niezależnie od tego, czy leczenie B podaje się również, ale jest bardziej przydatne zarówno w warunkach bezwzględnych i względnych, jeśli podaje się sam, a nie w połączeniu z leczeniem B . Podobne obserwacje poczyniono dla tego konkretnego przykładu w następnej sekcji.

Interakcje jakościowe i ilościowe

W wielu zastosowaniach przydatne jest rozróżnienie interakcji jakościowych i ilościowych. Interakcja ilościowa między A i B to sytuacja, w której wielkość efektu B zależy od wartości A , ale kierunek efektu B jest stały dla wszystkich A . Jakościowa interakcja między A i B odnosi się do sytuacji, w której zarówno wielkość, jak i kierunek wpływu każdej zmiennej może zależeć od wartości drugiej zmiennej.

Tabela środków po lewej stronie, poniżej przedstawiono ilościową interakcji - obróbka korzystne jest zarówno przy B podane jest, a gdy B nie jest podana, ale zaletą jest większa, gdy B nie podano (kiedy podaje się sam) . Tabela średnich po prawej pokazuje interakcję jakościową. A jest szkodliwe, gdy podaje się B , ale jest korzystne, gdy nie podaje się B. Zauważ, że ta sama interpretacja byłaby słuszna, gdybyśmy rozważyli korzyść B na podstawie tego, czy A jest dane.

B  = 0 B  = 1 B  = 0 B  = 1
A  = 0 2 1 A  = 0 2 6
A  = 1 5 3 A  = 1 5 3

Rozróżnienie między interakcjami jakościowymi i ilościowymi zależy od kolejności, w jakiej zmienne są brane pod uwagę (w przeciwieństwie do tego, właściwość addytywności jest niezmienna w stosunku do kolejności zmiennych). W poniższej tabeli, jeśli skupimy się na efekcie leczenia A , występuje interakcja ilościowa — zastosowanie leczenia A poprawi średnio wynik niezależnie od tego, czy leczenie B jest już stosowane, czy nie (chociaż korzyść jest większa, jeśli leczenie A jest podany sam). Jeśli jednak skupimy się na efekcie leczenia B , zachodzi interakcja jakościowa — poddanie leczenia B pacjentowi, który już otrzymuje leczenie A , pogorszy (średnio) sytuację, podczas gdy leczenie B pacjentowi, który nie otrzymuje leczenie A poprawi średnio wynik.

B  = 0 B  = 1
A  = 0 1 4
A  = 1 7 6

Addytywność leczenia jednostkowego

W najprostszej postaci założenie addytywności jednostki leczonej mówi, że obserwowaną odpowiedź y ij z jednostki eksperymentalnej i przy leczeniu j można zapisać jako sumę y ij  =  y i  +  t j . Założenie addytywności zabiegów jednostkowych oznacza, że ​​każdy zabieg ma dokładnie taki sam addytywny wpływ na każdą jednostkę doświadczalną. Ponieważ dana jednostka doświadczalna może podlegać tylko jednemu z zabiegów, założenie addytywności leczenia jednostkowego jest hipotezą, która nie jest bezpośrednio falsyfikowalna, według Coxa i Kempthorne'a.

Jednak wiele konsekwencji addytywności w jednostkach uzdatniania może zostać sfałszowanych. W przypadku eksperymentu randomizowanego założenie addytywności leczenia oznacza, że ​​wariancja jest stała dla wszystkich zabiegów. Dlatego, przeciwnie, warunkiem koniecznym dla addytywności leczenia jednostkowego jest to, że wariancja jest stała.

Własność addytywności leczenia jednostkowego nie jest niezmienna przy zmianie skali, dlatego statystycy często stosują przekształcenia w celu uzyskania addytywności leczenia jednostkowego. Jeżeli oczekuje się, że zmienna odpowiedzi będzie zgodna z parametryczną rodziną rozkładów prawdopodobieństwa, wówczas statystyk może określić (w protokole eksperymentu lub badania obserwacyjnego), że odpowiedzi należy przekształcić w celu ustabilizowania wariancji. W wielu przypadkach statystyk może określić, że do odpowiedzi należy zastosować transformacje logarytmiczne, które, jak się uważa, są zgodne z modelem multiplikatywnym.

Założenie addytywności leczenia jednostkowego zostało sformułowane w projekcie eksperymentalnym przez Kempthorne'a i Coxa. Stosowanie przez Kempthorne addytywności i randomizacji leczenia jednostkowego jest podobne do opartej na projekcie analizy próbkowania skończonej populacji.

W ostatnich latach powszechne stało się używanie terminologii Donalda Rubina, która wykorzystuje kontrfakty. Załóżmy, że porównujemy dwie grupy ludzi pod względem pewnego atrybutu y . Na przykład pierwsza grupa może składać się z osób, które otrzymują standardowe leczenie z powodu schorzenia, a druga grupa składa się z osób, które otrzymują nowe leczenie o nieznanym skutku. Przyjmując perspektywę „kontrfaktyczną”, możemy rozważyć osobę, której atrybut ma wartość y, jeśli ta osoba należy do pierwszej grupy, i której atrybut ma wartość τ ( y ), jeśli należy do drugiej grupy. Założenie „jednostkowej addytywności leczenia” jest takie, że τ ( y ) =  τ , to znaczy „efekt leczenia” nie zależy od y . Ponieważ nie możemy zaobserwować zarówno y, jak i τ( y ) dla danej osoby, nie jest to testowalne na poziomie jednostki. Jednak addytywność leczenia jednostkowego oznacza, że funkcje dystrybucji skumulowanej F 1 i F 2 dla dwóch grup spełniają F 2 ( y ) =  F 1 ( y − τ ), o ile przypisanie jednostek do grup 1 i 2 jest niezależne od wszystkie inne czynniki wpływające na y (tj. nie ma czynników zakłócających ). Brak addytywności leczenia jednostkowego może być postrzegany jako forma interakcji między przypisaniem leczenia (np. do grup 1 lub 2) a wartością wyjściową lub nieleczoną wartością y .

Zmienne kategorialne

Czasami oddziałujące zmienne są raczej zmiennymi kategorialnymi niż liczbami rzeczywistymi, a badanie można wówczas potraktować jako analizę problemu wariancji . Na przykład członkowie populacji mogą być klasyfikowani według religii i zawodu. Jeśli ktoś chce przewidzieć wzrost osoby tylko na podstawie jej religii i zawodu, prosty model addytywny , tj. model bez interakcji, doda do ogólnej średniej wzrostu korektę dla określonej religii i inną dla konkretnego zawodu. Model z interakcją, w przeciwieństwie do modelu addytywnego , może dodatkowo dostosować „interakcję” między tą religią a tym zawodem. Ten przykład może spowodować podejrzenie, że słowo „ interakcja” jest mylące.

Statystycznie obecność interakcji między zmiennymi kategorialnymi jest zwykle testowana za pomocą formy analizy wariancji (ANOVA). Jeśli jednak co najmniej jedna ze zmiennych ma charakter ciągły, zazwyczaj testuje się ją za pomocą moderowanej regresji wielokrotnej. Jest to tak zwane, ponieważ moderator jest zmienną, która wpływa na siłę związku między dwiema innymi zmiennymi.

Zaprojektowane eksperymenty

Genichi Taguchi twierdził, że interakcje można wyeliminować z systemu poprzez odpowiedni dobór zmiennej odpowiedzi i transformacji. Jednak George Box i inni twierdzili, że generalnie tak nie jest.

Rozmiar modelu

Biorąc pod uwagę n predyktorów, liczba terminów w modelu liniowym, który zawiera stałą, każdy predyktor i każdą możliwą interakcję wynosi . Ponieważ ta ilość rośnie wykładniczo, łatwo staje się niepraktycznie duża. Jedną z metod ograniczenia rozmiaru modelu jest ograniczenie kolejności interakcji. Na przykład, jeśli dozwolone są tylko interakcje dwukierunkowe, liczba terminów wynosi . Poniższa tabela przedstawia liczbę terminów dla każdej liczby predyktorów i maksymalną kolejność interakcji.

Liczba terminów
Predyktory W tym do m- kierunkowych interakcji
2 3 4 5
1 2 2 2 2 2
2 4 4 4 4 4
3 7 8 8 8 8
4 11 15 16 16 16
5 16 26 31 32 32
6 22 42 57 63 64
7 29 64 99 120 128
8 37 93 163 219 256
9 46 130 256 382 512
10 56 176 386 638 1024
11 67 232 562 1024 2048
12 79 299 794 1,586 4096
13 92 378 1,093 2380 8192
14 106 470 1471 3473 16 384
15 121 576 1941 4944 32 768
20 211 1351 6196 21 700 1 048 576
25 326 2626 15,276 68 406 33.554.432
50 1276 20.876 251,176 2 369 936 10 15
100 5051 166,751 4 087 976 79 375 496 10 30
1000 500 501 166 667 501 10 10 10 12 10 300

W regresji

Najbardziej ogólne podejście do modelowania efektów interakcji obejmuje regresję, zaczynając od podstawowej wersji podanej powyżej:

gdzie termin interakcji może być utworzony jawnie przez pomnożenie dwóch (lub więcej) zmiennych lub niejawnie przy użyciu notacji czynnikowej w nowoczesnych pakietach statystycznych, takich jak Stata . Składowe x 1 i x 2 mogą być pomiarami lub {0,1} zmiennymi fikcyjnymi w dowolnej kombinacji. Interakcje obejmujące zmienną fikcyjną pomnożoną przez zmienną pomiarową są nazywane zmiennymi fikcyjnymi nachylenia , ponieważ szacują i testują różnicę w nachyleniu między grupami 0 i 1.

Kiedy zmienne pomiarowe są wykorzystywane w interakcjach, często pożądana jest praca z wersjami wyśrodkowanymi, gdzie średnia zmiennej (lub jakaś inna rozsądnie centralna wartość) jest ustawiona na zero. Wyśrodkowanie może sprawić, że efekty główne w modelach interakcji będą bardziej zrozumiałe, ponieważ zmniejsza wielowspółliniowość między składnikiem interakcji a efektami głównymi. Na przykład współczynnik a w powyższym równaniu reprezentuje efekt x 1, gdy x 2 jest równe zero.

Interakcja edukacji i partii politycznych wpływająca na przekonania o zmianach klimatycznych

Podejścia regresji do modelowania interakcji są bardzo ogólne, ponieważ mogą uwzględniać dodatkowe predyktory i wiele alternatywnych specyfikacji lub strategii estymacji wykraczających poza zwykłe metody najmniejszych kwadratów . Stabilne , kwantylowych i mieszane efekty ( wielopoziomowe ) modele wśród możliwości, jak uogólniony liniowy modelowania obejmujący szereg jakościowych, sortowane, liczone lub w inny sposób ograniczone zmiennych zależnych. Wykres przedstawia interakcję między edukacją a polityką na podstawie analizy danych ankietowych metodą regresji logitowej ważonej prawdopodobieństwem .

Działki interakcji

Wykresy interakcji pokazują możliwe interakcje między zmiennymi.

Przykład: Interakcja gatunków i temperatury powietrza oraz ich wpływ na temperaturę ciała

Rozważ badanie temperatury ciała różnych gatunków w różnych temperaturach powietrza, w stopniach Fahrenheita. Dane przedstawia poniższa tabela.

Dane o gatunkach temperatury ciała

Wykres interakcji może wykorzystywać temperaturę powietrza lub gatunek jako oś x. Drugi czynnik jest reprezentowany przez linie na wykresie interakcji.

temperatura ciała wykresu interakcji

temperatura ciała wykresu interakcji 2

Istnieje interakcja między tymi dwoma czynnikami (temperaturą powietrza i gatunkiem) w ich wpływie na reakcję (temperatura ciała), ponieważ wpływ temperatury powietrza zależy od gatunku. Interakcja jest zaznaczona na wykresie, ponieważ linie nie są równoległe.

Przykład: wpływ nasilenia i leczenia udaru na powrót do zdrowia

Jako drugi przykład rozważmy badanie kliniczne dotyczące interakcji między nasileniem udaru a skutecznością leku na przeżycie pacjenta. Dane przedstawia poniższa tabela.

interakcja dane przeżycia udaru mózgu

wykres interakcji przeżycie udaru mózgu

Na wykresie interakcji linie dla grup z łagodnym i umiarkowanym udarem są równoległe, co wskazuje, że lek ma taki sam efekt w obu grupach, więc nie ma interakcji. Linia dla grupy z ciężkim udarem nie jest równoległa do innych linii, co wskazuje, że istnieje interakcja między nasileniem udaru a wpływem leku na przeżycie. Linia dla grupy z ciężkim udarem jest płaska, co wskazuje, że wśród tych pacjentów nie ma różnicy w przeżywalności między leczeniem lekiem a placebo. W przeciwieństwie do tego, linie dla grup z łagodnym i umiarkowanym udarem są nachylone w prawo, co wskazuje, że wśród tych pacjentów grupa placebo ma krótsze przeżycie niż grupa leczona lekiem.

Testy hipotez dla interakcji

Analiza wariancji i analiza regresji służą do testowania znaczących interakcji.

Przykład: Interakcja temperatury i czasu podczas pieczenia ciasteczek

Czy na wydajność dobrych ciastek ma wpływ temperatura i czas pieczenia w piekarniku? W tabeli przedstawiono dane dla 8 partii plików cookie.

dane dotyczące wydajności plików cookie interakcji

interaktywna fabuła pieczenia ciasteczek

Dane pokazują, że wydajność dobrych ciasteczek jest najlepsza, gdy albo (i) temperatura jest wysoka, a czas w piekarniku krótki, albo (ii) temperatura jest niska, a czas w piekarniku długi. Jeśli ciasteczka są długo pozostawione w piekarniku w wysokiej temperaturze, są przypalone, a wydajność jest niska.

Z wykresu i danych jasno wynika, że ​​linie nie są równoległe, co wskazuje na interakcję. Można to przetestować za pomocą analizy wariancji (ANOVA). Pierwszy model ANOVA nie będzie zawierał terminu interakcji. Oznacza to, że pierwszy model ANOVA ignoruje możliwą interakcję. Drugi model ANOVA będzie zawierał termin interakcji. Oznacza to, że drugi model ANOVA wyraźnie przeprowadza test hipotezy dla interakcji.

Model ANOVA 1: brak interakcji; wydajność ~ temperatura + czas

Ciasteczko Anova model 1

W modelu ANOVA, który ignoruje interakcje, ani temperatura, ani czas nie mają istotnego wpływu na wydajność (p=0,91), co jest wyraźnie błędnym wnioskiem. Bardziej odpowiedni model ANOVA powinien testować możliwą interakcję.

Model ANOVA 2: zawiera termin interakcji; wydajność ~ temperatura * czas

Cookie anova model 2

Termin interakcji temperatura:czas jest istotny (p=0,000180). Na podstawie testu interakcji i wykresu interakcji wydaje się, że wpływ czasu na wydajność zależy od temperatury i odwrotnie.

Przykłady

Przykłady interakcji w świecie rzeczywistym obejmują:

  • Interakcja między dodawaniem cukru do kawy a mieszaniem kawy. Żadna z dwóch indywidualnych zmiennych nie ma większego wpływu na słodycz, ale kombinacja tych dwóch ma.
  • Interakcja między dodawaniem węgla do stali a hartowaniem . Żadne z tych dwóch z osobna nie ma większego wpływu na siłę, ale połączenie tych dwóch ma dramatyczny efekt.
  • Interakcja między paleniem a wdychaniem włókien azbestowych : Oba zwiększają ryzyko raka płuc, ale narażenie na azbest zwielokrotnia ryzyko zachorowania na raka u palaczy i niepalących. Tutaj łączny efekt wdychania azbestu i palenia jest wyższy niż suma obu efektów.
  • Interakcja między genetycznymi czynnikami ryzyka cukrzycy typu 2 a dietą (w szczególności „zachodni” schemat żywieniowy). Wykazano, że zachodni wzorzec żywieniowy zwiększa ryzyko cukrzycy u osób z wysokim „wynikiem ryzyka genetycznego”, ale nie u innych osób.
  • Interakcja między edukacją a orientacją polityczną, wpływająca na ogólne postrzeganie zmian klimatycznych. Na przykład badania w USA często pokazują, że akceptacja rzeczywistości antropogenicznych zmian klimatycznych wzrasta wraz z wykształceniem wśród umiarkowanych lub liberalnych respondentów, ale spada wraz z wykształceniem wśród najbardziej konserwatywnych. Zaobserwowano, że podobne interakcje wpływają na niektóre postrzeganie nauk o klimacie lub środowisko, a zamiast edukacji działają na podstawie umiejętności przyrodniczych lub innych wskaźników wiedzy.

Zobacz też

Bibliografia

Dalsza lektura

Linki zewnętrzne