Brakujące dane - Missing data

W statystykach , brakujących danych lub brakujących wartości , gdy występuje brak danych wartość jest przechowywana w zmiennej w obserwacji . Brakujące dane są częstym zjawiskiem i mogą mieć znaczący wpływ na wnioski, które można wyciągnąć z danych.

Brakujące dane mogą wystąpić z powodu braku odpowiedzi: nie podano informacji dla jednej lub większej liczby pozycji lub dla całej jednostki („temat”). Niektóre pozycje z większym prawdopodobieństwem wygenerują brak odpowiedzi niż inne: na przykład pozycje dotyczące spraw prywatnych, takich jak dochód. Attrition to rodzaj braku, który może wystąpić w badaniach podłużnych — na przykład w badaniu rozwoju, w którym pomiar jest powtarzany po pewnym czasie. Braki pojawiają się, gdy uczestnicy wypadają przed zakończeniem testu i brakuje jednego lub więcej pomiarów.

W badaniach w dziedzinie ekonomii , socjologii i nauk politycznych często brakuje danych , ponieważ rządy lub podmioty prywatne nie zgłaszają krytycznych statystyk lub nie zgłaszają ich lub informacje te nie są dostępne. Czasami brakujące wartości są spowodowane przez badacza — na przykład, gdy zbieranie danych odbywa się niewłaściwie lub popełniane są błędy we wprowadzaniu danych.

Te formy braków przybierają różne typy, z różnym wpływem na słuszność wniosków z badań: brak całkowicie losowy, brak losowy i brak losowy. Brakujące dane można traktować podobnie jak dane ocenzurowane .

Rodzaje

Zrozumienie przyczyn braku danych jest ważne dla prawidłowej obsługi pozostałych danych. Jeśli brakuje wartości całkowicie losowo, próbka danych prawdopodobnie nadal jest reprezentatywna dla populacji. Ale jeśli wartości systematycznie brakuje, analiza może być stronnicza. Na przykład, w badaniu związku między IQ a dochodem, jeśli uczestnicy o ponadprzeciętnym IQ mają tendencję do pomijania pytania „Jaka jest twoja pensja?”, analizy, które nie uwzględniają tego losowo (wzorzec MAR (wzorzec MAR) patrz poniżej)) może fałszywie nie znaleźć pozytywnego związku między IQ a pensją. Z powodu tych problemów metodolodzy rutynowo doradzają naukowcom projektowanie badań w celu zminimalizowania występowania brakujących wartości. Modele graficzne można wykorzystać do szczegółowego opisania brakującego mechanizmu danych.

Wykres przedstawia rozkłady prawdopodobieństwa oszacowań oczekiwanego nasilenia depresji w populacji. Liczba przypadków wynosi 60. Niech prawdziwa populacja będzie standaryzowanym rozkładem normalnym, a prawdopodobieństwo braku odpowiedzi będzie logistyczną funkcją nasilenia depresji. Wniosek jest następujący: im więcej danych brakuje (MNAR), tym bardziej stronnicze są oszacowania. Nie doceniamy nasilenia depresji w populacji.

Brakuje całkowicie losowo

Wartości w zbiorze danych brakuje całkowicie losowo (MCAR), jeśli zdarzenia, które prowadzą do braku określonego elementu danych, są niezależne zarówno od obserwowalnych zmiennych, jak i nieobserwowalnych parametrów będących przedmiotem zainteresowania i występują całkowicie losowo. Gdy dane są MCAR, analiza przeprowadzona na danych jest bezstronna; jednak dane rzadko są MCAR.

W przypadku MCAR brak danych nie jest związany z żadną zmienną badania: w ten sposób uczestnicy z całkowicie zaobserwowanymi danymi są w efekcie losową próbą wszystkich uczestników, którym przypisano konkretną interwencję. W przypadku MCAR zakłada się, że losowe przypisanie terapii jest zachowane, ale w praktyce jest to zwykle nierealistycznie mocne założenie.

Brakuje losowo

Losowy brak danych (MAR) występuje wtedy, gdy braki nie są losowe, ale gdy braki mogą być w pełni wyjaśnione przez zmienne, w których istnieje pełna informacja. Ponieważ MAR jest założeniem niemożliwym do statystycznej weryfikacji, musimy polegać na jego zasadności merytorycznej. Przykładem jest to, że mężczyźni rzadziej wypełniają ankietę dotyczącą depresji, ale nie ma to nic wspólnego z ich poziomem depresji, po uwzględnieniu męskości. W zależności od metody analizy, dane te mogą nadal wywoływać błędy parametrów w analizach ze względu na warunkową pustkę komórek (męska, bardzo wysoka depresja może mieć zero wpisów). Jednakże, jeśli parametr jest oszacowany z pełnymi informacjami o maksymalnym prawdopodobieństwie, MAR zapewni asymptotycznie bezstronne oszacowania.

Brakujące nie losowo

Missing not at random (MNAR) (znany również jako nonignorable nonresponse) to dane, które nie są ani MAR, ani MCAR (tj. wartość brakującej zmiennej jest związana z przyczyną jej braku). Aby rozszerzyć poprzedni przykład, miałoby to miejsce, gdyby mężczyźni nie wypełnili ankiety na temat depresji z powodu ich poziomu depresji.

Techniki postępowania z brakującymi danymi

Brakujące dane zmniejszają reprezentatywność próby i dlatego mogą zniekształcać wnioski dotyczące populacji. Ogólnie rzecz biorąc, istnieją trzy główne podejścia do obsługi brakujących danych: (1) imputacja — gdzie wartości są wypełniane w miejsce brakujących danych, (2) pominięcie — gdzie próbki z nieprawidłowymi danymi są odrzucane z dalszej analizy oraz (3) analiza — poprzez bezpośrednie zastosowanie metod, na które brakujące wartości nie mają wpływu. W jednym systematycznym przeglądzie dotyczącym zapobiegania i postępowania z brakującymi danymi w badaniach dotyczących wyników skoncentrowanych na pacjencie zidentyfikowano 10 standardów niezbędnych do zapobiegania i postępowania z brakującymi danymi. Obejmują one standardy projektowania badań, prowadzenia badań, analizy i raportowania.

W niektórych praktycznych zastosowaniach eksperymentatorzy mogą kontrolować poziom braków i zapobiegać brakującym wartościom przed zebraniem danych. Na przykład w kwestionariuszach komputerowych często nie można pominąć pytania. Na pytanie trzeba odpowiedzieć, inaczej nie można przejść do następnego. Tak więc brakujące wartości należne uczestnikowi są eliminowane przez tego typu kwestionariusze, chociaż ta metoda może nie być dozwolona przez komisję etyczną nadzorującą badanie. W badaniach ankietowych powszechne jest podejmowanie wielu wysiłków, aby skontaktować się z każdą osobą w próbie, często wysyłając listy w celu przekonania tych, którzy zdecydowali się nie uczestniczyć, do zmiany zdania. Jednak takie techniki mogą albo pomóc, albo zaszkodzić, jeśli chodzi o zmniejszenie negatywnych skutków wnioskowania brakujących danych, ponieważ ludzie, którzy chcą zostać przekonani do udziału po początkowej odmowie lub nieobecności w domu, prawdopodobnie znacznie różnią się od tych osób, które nadal odmówią lub pozostaną nieosiągalne po dodatkowym wysiłku.

W sytuacjach, w których prawdopodobne jest wystąpienie brakujących wartości, badaczowi często doradza się zaplanowanie zastosowania metod analizy danych, które są odporne na braki. Analiza jest solidna, gdy jesteśmy pewni, że łagodne lub umiarkowane naruszenia kluczowych założeń techniki spowodują niewielkie lub żadne stronniczość lub zniekształcenie wniosków dotyczących populacji.

Przypisanie

Niektóre techniki analizy danych nie są odporne na braki i wymagają „uzupełnienia” lub imputacji brakujących danych. Rubin (1987) twierdził, że powtarzanie imputacji nawet kilka razy (5 lub mniej) ogromnie poprawia jakość estymacji. Dla wielu praktycznych celów, 2 lub 3 imputacje przechwytują większość względnej wydajności, którą można by uchwycić przy większej liczbie imputacji. Jednak zbyt mała liczba imputacji może prowadzić do znacznej utraty mocy statystycznej , a niektórzy badacze zalecają obecnie od 20 do 100 lub więcej. Każda wielokrotna analiza danych imputowanych musi być powtórzona dla każdego zestawu danych imputowanych, aw niektórych przypadkach odpowiednie statystyki muszą być połączone w stosunkowo skomplikowany sposób.

Algorytm oczekiwanie-maksymalizacja jest podejście, w którym wartości statystyk, które byłyby obliczone jeśli kompletny zestaw danych dostępne były szacowane są (przypisane), biorąc pod uwagę wzór brakujących danych. W tym podejściu wartości dla poszczególnych brakujących elementów danych zwykle nie są imputowane.

Interpolacja

W matematycznej dziedzinie analizy numerycznej interpolacja jest metodą konstruowania nowych punktów danych w zakresie dyskretnego zestawu znanych punktów danych.

W porównaniu dwóch sparowanych próbek z brakującymi danymi statystyką testową, która wykorzystuje wszystkie dostępne dane bez konieczności imputacji, jest test t dla prób częściowo nakładających się. Jest to ważne w normalności i przy założeniu MCAR

Częściowe usunięcie

Metody polegające na ograniczeniu dostępnych danych do zbioru danych bez brakujących wartości obejmują:

Pełna analiza

Metody, które w pełni uwzględniają wszystkie dostępne informacje, bez zniekształceń wynikających z użycia wartości imputowanych tak, jakby były rzeczywiście obserwowane:

Można również zastosować metody częściowej identyfikacji .

Techniki oparte na modelach

Techniki oparte na modelach, często wykorzystujące wykresy, oferują dodatkowe narzędzia do testowania brakujących typów danych (MCAR, MAR, MNAR) oraz do szacowania parametrów w warunkach brakujących danych. Na przykład test na odrzucenie MAR/MCAR brzmi następująco:

Dla dowolnych trzech zmiennych X,Y i Z, gdzie Z jest w pełni obserwowane, a X i Y obserwowane częściowo, dane powinny spełniać: .

Innymi słowy, obserwowana część X powinna być niezależna od statusu braku Y, uwarunkowana każdą wartością Z . Niespełnienie tego warunku wskazuje, że problem należy do kategorii MNAR.

(Uwaga: te testy są konieczne dla MAR opartego na zmiennych, który jest niewielką odmianą MAR opartego na zdarzeniach.)

Gdy dane mieszczą się w kategorii MNAR, dostępne są techniki do konsekwentnego szacowania parametrów, gdy w modelu występują pewne warunki. Na przykład, jeśli Y wyjaśnia przyczynę missingness w X i Y sam ma brakujących wartości, wspólny rozkład prawdopodobieństwa z X i Y można jeszcze oszacować, czy missingness z Y jest przypadkowa. Szacunek w tym przypadku będzie wynosił:

gdzie i oznaczają obserwowane części ich odpowiednich zmiennych.

Różne struktury modeli mogą dawać różne szacunki i różne procedury estymacji, gdy tylko możliwe jest spójne oszacowanie. Poprzednie oszacowanie wymaga pierwszego oszacowania na podstawie pełnych danych i pomnożenia go przez oszacowanie z przypadków, w których obserwuje się Y niezależnie od statusu X . Ponadto w celu uzyskania spójnego oszacowania ważne jest, aby pierwszy termin był w przeciwieństwie do .

W wielu przypadkach techniki oparte na modelach pozwalają na poddanie konstrukcji modelu testom obalania. Każdy model, który implikuje niezależność między częściowo obserwowaną zmienną X a wskaźnikiem braków innej zmiennej Y (tj. ), uwarunkowaną od tego, można poddać następującemu testowi refutacji: .

Wreszcie, szacunki, które wyłaniają się z tych technik, są wyprowadzane w formie zamkniętej i nie wymagają procedur iteracyjnych, takich jak Maksymalizacja oczekiwań, które są podatne na lokalne optima.

Specjalna klasa problemów pojawia się, gdy prawdopodobieństwo zaginięcia zależy od czasu. Na przykład w bazach danych dotyczących traumy prawdopodobieństwo utraty danych o skutkach traumy zależy od dnia po traumie. W tych przypadkach stosuje się różne niestacjonarne modele łańcucha Markowa .

Zobacz też

Bibliografia

Dalsza lektura

Zewnętrzne linki

Tło

Oprogramowanie