Klasyfikacja statystyczna - Statistical classification

W statystycznych , klasyfikacja jest Problem określenia, które z zestawu kategorii (subpopulacji) z obserwacji (lub obserwacji) należy. Przykładami są przypisanie danego e-maila do klasy „spam” lub „bez spamu” oraz przypisanie diagnozy danemu pacjentowi na podstawie zaobserwowanych cech pacjenta (płeć, ciśnienie krwi, obecność lub brak pewnych objawów itp.) .

Często poszczególne obserwacje są analizowane pod kątem zbioru wymiernych właściwości, znanych jako zmienne objaśniające lub cechy . Właściwości te mogą być różnie kategoryczne (np. „A”, „B”, „AB” lub „O”, dla grupy krwi ), porządkowe (np. „duży”, „średni” lub „mały”), wartościami całkowitymi (np. liczba wystąpień danego słowa w wiadomości e-mail ) lub wartości rzeczywistej (np. pomiar ciśnienia krwi ). Inne klasyfikatory działają porównując obserwacje z poprzednimi obserwacjami za pomocą funkcji podobieństwa lub odległości .

Algorytm , który implementuje klasyfikacji, zwłaszcza w konkretnej realizacji, jest znany jako klasyfikatora . Termin „klasyfikator” czasami odnosi się również do funkcji matematycznej implementowanej przez algorytm klasyfikacji, który mapuje dane wejściowe do kategorii.

Terminologia w różnych dziedzinach jest dość zróżnicowana. W statystyce , gdzie klasyfikacja jest często dokonywana za pomocą regresji logistycznej lub podobnej procedury, właściwości obserwacji są określane jako zmienne objaśniające (lub zmienne niezależne , regresory itp.), a kategorie, które mają być przewidywane, nazywane są wynikami, które są uważane za być możliwymi wartościami zmiennej zależnej . W uczeniu maszynowym obserwacje są często nazywane instancjami , zmienne objaśniające są określane jako cechy (pogrupowane w wektor cech ), a możliwe kategorie do przewidzenia to klasy . Inne dziedziny mogą wykorzystywać inną terminologię: np. w ekologii społeczności termin „klasyfikacja” zwykle odnosi się do analizy skupień .

Związek z innymi problemami

Klasyfikacja i grupowanie są przykładami bardziej ogólnego problemu rozpoznawania wzorców , który polega na przypisaniu pewnego rodzaju wartości wyjściowej do danej wartości wejściowej. Inne przykłady to regresja , która przypisuje dane wyjściowe o wartościach rzeczywistych do każdego wejścia; etykietowanie sekwencji , które przypisuje klasę każdemu członkowi sekwencji wartości (na przykład część tagowania mowy , która przypisuje część mowy do każdego słowa w zdaniu wejściowym); parsing , który przypisuje zdaniu wejściowemu drzewo parsowania , opisując strukturę składniową zdania; itp.

Powszechną podklasą klasyfikacji jest klasyfikacja probabilistyczna . Algorytmy tego rodzaju wykorzystują wnioskowanie statystyczne, aby znaleźć najlepszą klasę dla danej instancji. W przeciwieństwie do innych algorytmów, które po prostu wyświetlają „najlepszą” klasę, algorytmy probabilistyczne generują prawdopodobieństwo, że instancja jest członkiem każdej z możliwych klas. Najlepsza klasa jest zwykle wybierana jako ta z największym prawdopodobieństwem. Jednak taki algorytm ma wiele zalet w porównaniu z klasyfikatorami nieprobabilistycznymi:

  • Może wyprowadzić wartość ufności powiązaną z jego wyborem (ogólnie klasyfikator, który może to zrobić, jest znany jako klasyfikator ważony ufnością ).
  • W związku z tym może wstrzymać się od głosu, gdy jego pewność wyboru konkretnego produktu jest zbyt niska.
  • Ze względu na generowane prawdopodobieństwa klasyfikatory probabilistyczne można skuteczniej włączać do większych zadań uczenia maszynowego w sposób, który częściowo lub całkowicie eliminuje problem propagacji błędów .

Procedury częstsze

Wczesne prace nad klasyfikacją statystyczną podjął Fisher , w kontekście problemów dwugrupowych, prowadząc do liniowej funkcji dyskryminacyjnej Fishera jako zasady przypisywania grupy do nowej obserwacji. Ta wczesna praca zakładała, że ​​wartości danych w każdej z dwóch grup mają wielowymiarowy rozkład normalny . Rozważono również rozszerzenie tego samego kontekstu na więcej niż dwie grupy z nałożonym ograniczeniem, że zasada klasyfikacji powinna być liniowa . Późniejsze prace nad wielowymiarowym rozkładem normalnym pozwoliły na to, aby klasyfikator był nieliniowy : można wyprowadzić kilka reguł klasyfikacji na podstawie różnych korekt odległości Mahalanobisa , przy czym nowa obserwacja została przypisana do grupy, której środek ma najniższą skorygowaną odległość od obserwacji.

Procedury bayesowskie

W przeciwieństwie do procedur częstościowych, procedury klasyfikacji bayesowskiej zapewniają naturalny sposób uwzględniania wszelkich dostępnych informacji o względnych rozmiarach różnych grup w całej populacji. Procedury bayesowskie są na ogół kosztowne obliczeniowo, aw czasach przed opracowaniem obliczeń Monte Carlo łańcucha Markowa opracowano przybliżenia dla bayesowskich reguł grupowania.

Niektóre procedury bayesowskie obejmują obliczenie prawdopodobieństw przynależności do grupy : dostarczają one bardziej informacyjny wynik niż proste przypisanie pojedynczej etykiety grupy do każdej nowej obserwacji.

Klasyfikacja binarna i wieloklasowa

Klasyfikacja może być traktowana jako dwa oddzielne problemy – klasyfikacja binarna i klasyfikacja wieloklasowa . W klasyfikacji binarnej, lepiej rozumianym zadaniu, występują tylko dwie klasy, natomiast klasyfikacja wieloklasowa polega na przypisaniu obiektu do jednej z kilku klas. Ponieważ wiele metod klasyfikacji zostało opracowanych specjalnie dla klasyfikacji binarnej, klasyfikacja wieloklasowa często wymaga łącznego użycia wielu klasyfikatorów binarnych.

Wektory cech

Większość algorytmów opisuje pojedynczą instancję, której kategorię należy przewidzieć za pomocą wektora cech indywidualnych, mierzalnych właściwości instancji. Każda właściwość jest określana jako cecha , znana również w statystyce jako zmienna objaśniająca (lub zmienna niezależna , chociaż cechy mogą być statystycznie niezależne lub nie ). Funkcje mogą być różnie binarne (np. „włączone” lub „wyłączone”); kategoryczny (np. „A”, „B”, „AB” lub „O” dla grupy krwi ); porządkowe (np. „duży”, „średni” lub „mały”); wartościami całkowitymi (np. liczba wystąpień danego słowa w wiadomości e-mail); lub wartości rzeczywistej (np. pomiar ciśnienia krwi). Jeśli instancja jest obrazem, wartości funkcji mogą odpowiadać pikselom obrazu; jeśli wystąpienie jest fragmentem tekstu, wartościami cech mogą być częstotliwości występowania różnych słów. Niektóre algorytmy działają tylko w kategoriach danych dyskretnych i wymagają, aby dane o wartościach rzeczywistych lub całkowitych były dyskretyzowane na grupy (np. mniej niż 5, od 5 do 10 lub większe niż 10).

Klasyfikatory liniowe Line

Wiele algorytmów klasyfikacji można sformułować w postaci funkcji liniowej, która przypisuje ocenę każdej możliwej kategorii k , łącząc wektor cech instancji z wektorem wag, używając iloczynu skalarnego . Przewidywana kategoria to ta z najwyższym wynikiem. Ten typ funkcji punktacji jest znany jako funkcja predyktora liniowego i ma następującą ogólną postać:

gdzie X i jest wektorem cech na przykład i , β k jest wektorem wag odpowiadającym kategorii k , a score( X i , k ) jest wynikiem związanym z przypisaniem instancji i do kategorii k . W teorii wyboru dyskretnego , gdzie przypadki reprezentują ludzi, a kategorie reprezentują wybory, wynik jest uważany za użyteczność związaną z wyborem przez osobę i kategorii k .

Algorytmy w tej podstawowej konfiguracji są znane jako klasyfikatory liniowe . Wyróżnia je procedura wyznaczania (treningu) optymalnych wag/współczynników oraz sposób interpretacji wyniku.

Przykładami takich algorytmów są

Algorytmy

Ponieważ żadna pojedyncza forma klasyfikacji nie jest odpowiednia dla wszystkich zbiorów danych, opracowano duży zestaw narzędzi algorytmów klasyfikacji. Najczęściej używane to:

Ocena

Wydajność klasyfikatora zależy w dużej mierze od charakterystyki danych, które mają być sklasyfikowane. Nie ma jednego klasyfikatora, który najlepiej sprawdzałby się we wszystkich podanych problemach (zjawisko, które można wyjaśnić twierdzeniem o braku wolnego lunchu ). Przeprowadzono różne testy empiryczne w celu porównania wydajności klasyfikatora i znalezienia charakterystyk danych, które określają wydajność klasyfikatora. Ustalenie odpowiedniego klasyfikatora dla danego problemu jest jednak nadal bardziej sztuką niż nauką.

Precyzja miar i przypomnienie to popularne metryki używane do oceny jakości systemu klasyfikacji. Niedawno krzywe charakterystyki operacyjnej odbiornika (ROC) zostały wykorzystane do oceny kompromisu między współczynnikami prawdziwie i fałszywie dodatnimi algorytmów klasyfikacji.

Jako metryka wydajności, współczynnik niepewności ma przewagę nad zwykłą dokładnością , ponieważ nie ma na niego wpływu względne rozmiary różnych klas. Co więcej, nie będzie to karać algorytmu za zwykłe przestawianie klas.

Domeny aplikacji

Klasyfikacja ma wiele zastosowań. W niektórych z nich jest on wykorzystywany jako procedura eksploracji danych , podczas gdy w innych podejmowane jest bardziej szczegółowe modelowanie statystyczne.

Zobacz też

Bibliografia