Błąd stawki podstawowej - Base rate fallacy

Błąd stopa bazowa , zwana również zaniedbanie stopa bazowa lub stronniczość stopa bazowa , jest rodzajem mitu . Jeśli zostaną przedstawione z powiązanymi informacjami o stawce bazowej (tj. ogólnymi informacjami na temat chorobowości) i szczegółowymi informacjami (tj. informacjami dotyczącymi tylko konkretnego przypadku), ludzie mają tendencję do ignorowania stawki bazowej na korzyść informacji indywiduujących, zamiast poprawnego zintegrowania tych dwóch .

Zaniedbanie stopy bazowej jest specyficzną formą bardziej ogólnego zaniedbania rozszerzającego .

Fałszywie pozytywny paradoks

Przykładem błędu stopy bazowej jest paradoks fałszywie pozytywnych . Ten paradoks opisuje sytuacje, w których jest więcej wyników fałszywie dodatnich niż prawdziwie dodatnich. Na przykład 50 na 1000 osób ma pozytywny wynik testu na infekcję, ale tylko 10 ma infekcję, co oznacza, że ​​40 testów było fałszywie dodatnich. Prawdopodobieństwo pozytywnego wyniku testu jest determinowane nie tylko dokładnością testu, ale także charakterystyką badanej populacji. Gdy częstość występowania, odsetek osób, które mają dany stan, jest niższy niż współczynnik fałszywie dodatnich testu , nawet testy, które mają bardzo małą szansę na uzyskanie wyniku fałszywie dodatniego w indywidualnym przypadku , dadzą ogólnie więcej wyników fałszywie niż prawdziwych . Paradoks zaskakuje większość ludzi.

Jest to szczególnie sprzeczne z intuicją, gdy interpretuje się pozytywny wynik testu na populacji o niskiej prewalencji po zapoznaniu się z pozytywnymi wynikami uzyskanymi z populacji o wysokiej prewalencji. Jeśli odsetek wyników fałszywie dodatnich w teście jest wyższy niż odsetek nowej populacji z tym schorzeniem, administrator testu, którego doświadczenie zostało zaczerpnięte z testów w populacji o wysokiej częstości występowania, może wywnioskować z doświadczenia, że pozytywny wynik testu zwykle wskazuje na pozytywny temat, podczas gdy w rzeczywistości istnieje znacznie większe prawdopodobieństwo wystąpienia fałszywego pozytywnego wyniku.

Przykłady

Przykład 1: Choroba

Populacja o wysokiej zachorowalności

Liczba
osób
Zainfekowany Niezainfekowany Całkowity
Test
pozytywny
400
(prawdziwe pozytywne)
30
(fałszywie dodatnie)
430
Test
negatywny
0
(fałszywie ujemny)
570
(prawdziwe negatywne)
570
Całkowity 400 600 1000

Wyobraź sobie, że przeprowadzasz test na choroby zakaźne w populacji A liczącej 1000 osób, w której 40% jest zarażonych. Test ma odsetek wyników fałszywie dodatnich wynoszący 5% (0,05) i brak odsetka wyników fałszywie ujemnych. Oczekiwany wynik z 1000 testów na populacji A byłoby:

Zakażony i test wskazuje na chorobę ( prawdziwie pozytywny )
1000 × 40/100 = 400 osób otrzymałoby prawdziwy pozytyw
Niezakażony i test wskazuje na chorobę (fałszywie dodatni)
1000 × 100 – 40/100 × 0,05 = 30 osób otrzymałoby fałszywie pozytywny wynik
Pozostałe 570 testów jest poprawnie negatywnych.

Tak więc w populacji A osoba otrzymująca pozytywny wynik testu może mieć ponad 93% pewności siebie (400/30 + 400), że poprawnie wskazuje infekcję.

Populacja o niskiej zachorowalności

Liczba
osób
Zainfekowany Niezainfekowany Całkowity
Test
pozytywny
20
(prawdziwe pozytywne)
49
(fałszywie dodatni)
69
Test
negatywny
0
(fałszywie ujemny)
931
(prawdziwe negatywne)
931
Całkowity 20 980 1000

Rozważmy teraz ten sam test zastosowany do populacji B , w której tylko 2% jest zarażonych. Oczekiwany wynik testów na populacji 1000 B będzie:

Zakażony i test wskazuje na chorobę ( prawdziwie pozytywny )
1000 × 2/100 = 20 osób otrzyma prawdziwy pozytyw
Niezakażony i test wskazuje na chorobę (fałszywie dodatni)
1000 × 100 – 2/100 × 0,05 = 49 osób otrzymałoby fałszywie pozytywny wynik
Pozostałe 931 (= 1000 - (49 + 20)) testów są poprawnie negatywne.

W populacji B tylko 20 z 69 osób z pozytywnym wynikiem testu jest faktycznie zarażonych. Tak więc prawdopodobieństwo faktycznego zarażenia po tym, jak ktoś zostanie zarażony, wynosi tylko 29% (20/20 + 49) dla testu, który w przeciwnym razie wydaje się być „dokładny 95%”.

Tester z doświadczeniem grupy A może uznać za paradoks, że w grupie B wynik, który zwykle prawidłowo wskazywał infekcję, jest teraz zwykle fałszywie dodatni . Pomylenie tylnego prawdopodobieństwa infekcji z wcześniejszym prawdopodobieństwem otrzymania fałszywie pozytywnego wyniku jest naturalnym błędem po otrzymaniu zagrażającego zdrowiu wyniku testu.

Przykład 2: Pijani kierowcy

Grupa policjantów w 5% przypadków, w których kierowca jest trzeźwy, posiada alkomaty, które wykazują fałszywe pijaństwo. Jednak alkomaty nigdy nie zawodzą w wykryciu naprawdę pijanej osoby. Jeden na tysiąc kierowców jedzie pod wpływem alkoholu. Załóżmy, że policjanci zatrzymają losowo kierowcę w celu wykonania testu alkomatem. Wskazuje, że kierowca jest pijany. Zakładamy, że nie wiesz o nich nic więcej. Jak wysokie jest prawdopodobieństwo, że naprawdę są pijani?

Wielu odpowiedziałoby aż 95%, ale prawdopodobieństwo to około 2%.

Wyjaśnienie tego jest następujące: średnio na każde 1000 przebadanych kierowców,

  • 1 kierowca jest pijany i jest na 100% pewne, że dla tego kierowcy jest prawdziwy pozytywny wynik testu, więc jest 1 prawdziwy pozytywny wynik testu
  • 999 kierowców nie jest pijanych, a wśród tych kierowców jest 5% wyników fałszywie dodatnich, a więc 49,95 wyników fałszywie dodatnich

Dlatego prawdopodobieństwo, że jeden z kierowców spośród pozytywnych wyników testu 1 + 49,95 = 50,95 rzeczywiście jest pijany wynosi .

Ważność tego wyniku zależy jednak od słuszności początkowego założenia, że ​​policjant zatrzymał kierowcę naprawdę przypadkowo, a nie z powodu złej jazdy. Jeśli wystąpił ten lub inny niearbitralny powód zatrzymania kierowcy, wówczas obliczenie obejmuje również prawdopodobieństwo, że kierowca pod wpływem alkoholu jedzie kompetentnie, a kierowca niepijany prowadzi (nie)kompetentnie.

Bardziej formalnie, to samo prawdopodobieństwo około 0,02 można ustalić za pomocą twierdzenia Bayesa . Celem jest znalezienie prawdopodobieństwa, że ​​kierowca jest pijany, biorąc pod uwagę, że alkomat wskazał, że jest pijany, co można przedstawić jako

gdzie D oznacza, że ​​alkomat wskazuje, że kierowca jest pijany. Twierdzenie Bayesa mówi nam, że

W pierwszym akapicie powiedziano nam, co następuje:

oraz

Jak widać ze wzoru, potrzebne jest p ( D ) do twierdzenia Bayesa, które można obliczyć z poprzednich wartości, korzystając z prawa całkowitego prawdopodobieństwa :

co daje

Wstawiając te liczby do twierdzenia Bayesa, okazuje się, że…

Przykład 3: Identyfikacja terrorystów

W milionowym mieście niech będzie 100 terrorystów i 999 900 nieterrorystów. Dla uproszczenia przykładu zakłada się, że wszyscy ludzie obecni w mieście są mieszkańcami. Zatem prawdopodobieństwo bazowej stopy procentowej, że losowo wybrany mieszkaniec miasta jest terrorystą wynosi 0,0001, a bazowe prawdopodobieństwo tego, że ten sam mieszkaniec nie jest terrorystą wynosi 0,9999. Próbując złapać terrorystów, miasto instaluje system alarmowy z kamerą monitorującą i oprogramowaniem do automatycznego rozpoznawania twarzy .

Oprogramowanie ma dwa wskaźniki awaryjności 1%:

  • Wskaźnik wyników fałszywie ujemnych: jeśli kamera skanuje terrorystę, dzwonek zadzwoni w 99% przypadków i nie zadzwoni w 1% przypadków.
  • Wskaźnik fałszywych trafień: Jeśli kamera skanuje osobę niebędącą terrorystą, dzwonek nie zadzwoni w 99% przypadków, ale zadzwoni w 1% przypadków.

Załóżmy teraz, że mieszkaniec uruchamia alarm. Jaka jest szansa, że ​​dana osoba jest terrorystą? Innymi słowy, jakie jest P(T | B), prawdopodobieństwo wykrycia terrorysty, biorąc pod uwagę dzwonek? Ktoś powołujący się na „błędność stopy bazowej” wywnioskuje, że istnieje 99% szans, że wykryta osoba jest terrorystą. Chociaż wnioskowanie wydaje się mieć sens, w rzeczywistości jest to złe rozumowanie, a poniższe obliczenia pokażą, że prawdopodobieństwo, że są oni terrorystami, wynosi w rzeczywistości 1%, a nie 99%.

Błąd wynika z pomylenia natury dwóch różnych wskaźników niepowodzeń. „Liczba osób niebędących dzwonkami na 100 terrorystów” i „liczba osób niebędących terrorystami na 100 dzwonków” to wielkości niepowiązane. Jedno niekoniecznie równa się drugiemu, a nawet nie muszą być prawie równe. Aby to pokazać, zastanów się, co się stanie, jeśli identyczny system alarmowy zostanie zainstalowany w drugim mieście, w którym nie ma żadnych terrorystów. Podobnie jak w pierwszym mieście, alarm włącza się dla 1 na 100 wykrytych mieszkańców niebędących terrorystami, ale w przeciwieństwie do pierwszego miasta, alarm nigdy nie dzwoni dla terrorystów. Dlatego 100% wszystkich przypadków uruchomienia alarmu dotyczy osób niebędących terrorystami, ale nie można nawet obliczyć współczynnika fałszywie ujemnych wyników. „Liczba nieterrorystów na 100 dzwonów” w tym mieście wynosi 100, ale P(T | B) = 0%. Nie ma szans na wykrycie terrorysty, biorąc pod uwagę dzwonek.

Wyobraź sobie, że cała milionowa populacja pierwszego miasta przechodzi przed kamerą. Około 99 ze 100 terrorystów uruchomi alarm – podobnie jak około 9999 z 999900 nieterrorystów. Dlatego około 10 098 osób uruchomi alarm, wśród których około 99 będzie terrorystami. Tak więc prawdopodobieństwo, że osoba wywołująca alarm faktycznie jest terrorystą, wynosi tylko około 99 na 10 098, czyli mniej niż 1% i bardzo, bardzo dużo poniżej naszych początkowych szacunków 99%.

Błąd stopy bazowej jest tak mylący w tym przykładzie, ponieważ jest znacznie więcej nieterrorystów niż terrorystów, a liczba fałszywych alarmów (nieterroryści skanowani jako terroryści) jest znacznie większa niż prawdziwych pozytywnych (terroryści skanowani jako terroryści).

Odkrycia w psychologii

W eksperymentach stwierdzono, że ludzie wolą informacje indywidualne niż ogólne, gdy ta pierwsza jest dostępna.

W niektórych eksperymentach uczniowie zostali poproszeni o oszacowanie średnich ocen (GPA) hipotetycznych uczniów. Po otrzymaniu odpowiednich statystyk dotyczących dystrybucji GPA, uczniowie mieli tendencję do ignorowania ich, jeśli otrzymali opisowe informacje o konkretnym uczniu, nawet jeśli nowe informacje opisowe miały oczywiście niewielkie lub żadne znaczenie dla wyników w szkole. To odkrycie zostało wykorzystane do stwierdzenia, że ​​rozmowy kwalifikacyjne są niepotrzebną częścią procesu rekrutacji na studia , ponieważ ankieterzy nie są w stanie wybrać zwycięskich kandydatów lepiej niż podstawowe statystyki.

Psychologowie Daniel Kahneman i Amos Tversky próbowali wyjaśnić to odkrycie za pomocą prostej reguły lub „heurystyki” zwanej reprezentatywnością . Argumentowali, że wiele orzeczeń odnoszących się do prawdopodobieństwa lub przyczyny i skutku opiera się na tym, jak reprezentatywna jest jedna rzecz dla innej lub kategorii. Kahneman uważa, że ​​zaniedbanie stopy bazowej jest szczególną formą zaniedbania rozszerzającego . Richard Nisbett twierdzi, że niektóre attributional uprzedzenia takie jak podstawowy błąd atrybucji są instancjami mitu stopa bazowa: ludzie nie korzystają z „informacji Consensus” ( „Stopa bazowa”) o tym, jak inni zachowywali się w podobnej sytuacji, a zamiast tego wolą prostsze dyspozycyjnych atrybucji .

W psychologii toczy się poważna debata na temat warunków, w jakich ludzie doceniają lub nie doceniają informacji o stopie bazowej. Badacze biorący udział w programie heurystyki i stronniczości podkreślili wyniki empiryczne pokazujące, że ludzie mają tendencję do ignorowania wskaźników bazowych i wyciągania wniosków, które naruszają pewne normy rozumowania probabilistycznego, takie jak twierdzenie Bayesa . Wniosek wyciągnięty z tego kierunku badań był taki, że ludzkie myślenie probabilistyczne jest zasadniczo wadliwe i podatne na błędy. Inni badacze podkreślali związek między procesami poznawczymi a formatami informacji, argumentując, że takie wnioski generalnie nie są uzasadnione.

Rozważ ponownie przykład 2 z góry. Wymaganym wnioskowaniem jest oszacowanie (a posteriori) prawdopodobieństwa, że ​​(losowo wybrany) kierowca jest pijany, biorąc pod uwagę pozytywny wynik testu alkomatem. Formalnie prawdopodobieństwo to można obliczyć za pomocą twierdzenia Bayesa , jak pokazano powyżej. Istnieją jednak różne sposoby przedstawiania odpowiednich informacji. Rozważmy następujący, formalnie równoważny wariant problemu:

 1 na 1000 kierowców jedzie pod wpływem alkoholu. Alkomaty nigdy nie zawodzą w wykryciu naprawdę pijanej osoby. Dla 50 z 999 kierowców, którzy nie są pijani, alkomat fałszywie pokazuje pijaństwo. Załóżmy, że policjanci zatrzymają kierowcę na chybił trafił i zmuszą go do wykonania testu alkomatem. Wskazuje, że są pijani. Zakładamy, że nie wiesz o nich nic więcej. Jak wysokie jest prawdopodobieństwo, że naprawdę są pijani?

W tym przypadku odpowiednie informacje liczbowe — p (pijany), p ( D | pijany), p ( D | trzeźwy) — są przedstawiane w postaci częstotliwości drgań własnych w odniesieniu do pewnej klasy odniesienia (patrz problem klas odniesienia ). Badania empiryczne pokazują, że wnioski ludzi bardziej odpowiadają regule Bayesa, gdy informacje są prezentowane w ten sposób, pomagając przezwyciężyć zaniedbanie wskaźnika bazowego u laików i ekspertów. W konsekwencji organizacje takie jak Cochrane Collaboration zalecają używanie tego rodzaju formatu do przekazywania statystyk dotyczących zdrowia. Nauczenie ludzi tłumaczenia tego rodzaju problemów z rozumowaniem bayesowskim na formaty częstotliwości naturalnych jest bardziej efektywne niż samo uczenie ich wstawiania prawdopodobieństw (lub wartości procentowych) do twierdzenia Bayesa. Wykazano również, że graficzne reprezentacje częstotliwości naturalnych (np. tablice ikon) pomagają ludziom w lepszym wnioskowaniu.

Dlaczego przydatne są formaty częstotliwości naturalnej? Jednym z ważnych powodów jest to, że ten format informacji ułatwia wymagane wnioskowanie, ponieważ upraszcza niezbędne obliczenia. Można to zobaczyć, używając alternatywnego sposobu obliczania wymaganego prawdopodobieństwa p (pijany| D ):

gdzie N (pijany ∩ D ) oznacza liczbę kierowców, którzy są pod wpływem alkoholu i uzyskują dodatni wynik alkomatu, a N ( D ) oznacza całkowitą liczbę przypadków z dodatnim wynikiem alkomatu. Równoważność tego równania do powyższego wynika z aksjomatów teorii prawdopodobieństwa, zgodnie z którymi N (pij ∩ D ) = N × p ( D | pij) × p (pij). Co ważne, chociaż to równanie jest formalnie równoważne z regułą Bayesa, nie jest ono równoważne psychologicznie. Korzystanie z częstotliwości naturalnych upraszcza wnioskowanie, ponieważ wymagane działanie matematyczne można wykonać na liczbach naturalnych zamiast na ułamkach znormalizowanych (tj. prawdopodobieństwach), ponieważ sprawia, że ​​duża liczba fałszywych trafień jest bardziej przejrzysta, a częstości naturalne wykazują „zestaw zagnieżdżony”. Struktura".

Nie każdy format częstotliwości ułatwia rozumowanie bayesowskie. Częstotliwości naturalne odnoszą się do informacji o częstotliwościach, które wynikają z próbkowania naturalnego , które zachowują informacje o stawce podstawowej (np. liczba pijanych kierowców podczas losowej próby kierowców). Różni się to od systematycznego pobierania próbek , w którym stawki bazowe są ustalane a priori (np. w eksperymentach naukowych). W tym drugim przypadku nie można wywnioskować prawdopodobieństwa a posteriori p (pijany | pozytywny test) z porównania liczby kierowców, którzy są pijani i mają pozytywny wynik testu z całkowitą liczbą osób, które uzyskały pozytywny wynik alkomatu, ponieważ informacja o stawce bazowej nie jest zachowany i musi zostać wyraźnie ponownie wprowadzony przy użyciu twierdzenia Bayesa.

Zobacz też

Bibliografia

Zewnętrzne linki