Partycjonowanie rekurencyjne — Recursive partitioning

Partycjonowanie rekurencyjne to statystyczna metoda analizy wielu zmiennych . Partycjonowanie rekurencyjne tworzy drzewo decyzyjne, które stara się poprawnie klasyfikować członków populacji, dzieląc ją na podpopulacje na podstawie kilku dychotomicznych zmiennych niezależnych . Proces ten jest określany jako rekurencyjny, ponieważ każda podpopulacja może z kolei zostać podzielona nieskończoną liczbę razy, aż proces podziału zakończy się po osiągnięciu określonego kryterium zatrzymania.

Rekurencyjne drzewo podziału pokazujące przeżycie pasażerów Titanica („sibsp” to liczba małżonków lub rodzeństwa na pokładzie). Liczby pod liśćmi pokazują prawdopodobieństwo przeżycia i procent obserwacji w liściu. Podsumowując: Twoje szanse na przeżycie były duże, gdybyś był (i) kobietą lub (ii) małym chłopcem bez kilku członków rodziny.

Rekurencyjne metody partycjonowania są rozwijane od lat 80. XX wieku. Dobrze znane metody partycjonowania rekurencyjnego obejmują algorytm ID3 Rossa Quinlana i jego następcy, C4.5 i C5.0 oraz Drzewa Klasyfikacji i Regresji . Metody uczenia zespołowego, takie jak Random Forests, pomagają przezwyciężyć powszechną krytykę tych metod – ich podatność na nadmierne dopasowanie danych – poprzez zastosowanie różnych algorytmów i łączenie ich wyników w pewien sposób.

W tym artykule skupiono się na rekurencyjnym partycjonowaniu dla medycznych testów diagnostycznych , ale technika ta ma znacznie szersze zastosowania. Zobacz drzewo decyzyjne .

W porównaniu z analizą regresji, która tworzy formułę, którą pracownicy służby zdrowia mogą wykorzystać do obliczenia prawdopodobieństwa, że ​​pacjent ma chorobę, podział rekurencyjny tworzy regułę, taką jak „Jeśli pacjent znalazł x, y lub z, prawdopodobnie ma chorobę q'.

Odmianą jest „liniowy rekurencyjny partycjonowanie Coxa”.

Zalety i wady

W porównaniu z innymi metodami wielowymiarowymi partycjonowanie rekurencyjne ma zalety i wady.

  • Zalety to:
    • Generuje klinicznie bardziej intuicyjne modele, które nie wymagają od użytkownika wykonywania obliczeń.
    • Umożliwia różne ustalanie priorytetów błędnych klasyfikacji w celu utworzenia reguły decyzyjnej o większej czułości lub swoistości .
    • Może być dokładniejsze.
  • Wady to:
    • Nie działa dobrze dla zmiennych ciągłych
    • Może przepełnić dane.

Przykłady

Dostępne są przykłady wykorzystania partycjonowania rekurencyjnego w badaniach testów diagnostycznych. Goldman zastosował rekurencyjne partycjonowanie, aby nadać priorytet czułości w diagnostyce zawału mięśnia sercowego u pacjentów z bólem w klatce piersiowej na izbie przyjęć.

Zobacz też

Bibliografia