Regresja najmniejszego kąta — Least-angle regression

Standaryzowane współczynniki przedstawione jako funkcja proporcji skurczu.

W statystyce , regresję najmniej kąta (Lars) jest algorytmem do montażu regresji liniowej modeli wysokich-wymiarowej danych, opracowanych przez Bradley Efron , Trevor Hastie , Iain Johnstone i Roberta Tibshirani .

Załóżmy, że oczekujemy, że zmienna odpowiedzi będzie określona przez kombinację liniową podzbioru potencjalnych zmiennych towarzyszących. Następnie algorytm LARS zapewnia środki do oszacowania, które zmienne należy uwzględnić, a także ich współczynników.

Zamiast dawać wynik wektorowy, rozwiązanie LARS składa się z krzywej oznaczającej rozwiązanie dla każdej wartości normy L1 wektora parametrów. Algorytm jest podobny do postępowej regresji krokowej , ale zamiast uwzględniać zmienne na każdym kroku, szacowane parametry są zwiększane w kierunku równokątnym do korelacji każdego z nich z resztą.

Plusy i minusy

Zaletami metody LARS są:

  1. Jest to tak samo szybkie obliczeniowo, jak selekcja do przodu.
  2. Daje pełną odcinkową liniową ścieżkę rozwiązania, która jest przydatna w walidacji krzyżowej lub podobnych próbach dostrojenia modelu.
  3. Jeśli dwie zmienne są prawie równo skorelowane z odpowiedzią, to ich współczynniki powinny rosnąć w przybliżeniu w tym samym tempie. Algorytm zachowuje się zatem tak, jak oczekiwałaby intuicja, a także jest bardziej stabilny.
  4. Można go łatwo zmodyfikować w celu uzyskania wydajnych algorytmów dla innych metod dających podobne wyniki, takich jak lasso i regresja stopniowa do przodu.
  5. Jest skuteczny w kontekstach, w których p  >>  n (tj. gdy liczba predyktorów p jest znacznie większa niż liczba punktów n )

Wady metody LARS to:

  1. Przy dowolnej ilości szumu w zmiennej zależnej i przy wielowymiarowych wielokoliniowych zmiennych niezależnych nie ma powodu, aby sądzić, że wybrane zmienne będą miały duże prawdopodobieństwo, że będą faktycznymi zmiennymi przyczynowymi. Problem ten nie jest unikalny dla LARS, ponieważ jest to ogólny problem w podejściach do selekcji zmiennych, które dążą do znalezienia leżących u podstaw komponentów deterministycznych. Jednak ponieważ LARS opiera się na iteracyjnym dopasowywaniu reszt, wydaje się być szczególnie wrażliwy na wpływ szumu. Problem ten jest szczegółowo omawiany przez Weisberga w części poświęconej dyskusji Efron et al. (2004) artykuł w „Rocznikach Statystycznych”. Weisberg dostarcza empirycznego przykładu opartego na ponownej analizie danych pierwotnie użytych do walidacji LARS, że wybór zmiennych wydaje się mieć problemy z wysoce skorelowanymi zmiennymi.
  2. Ponieważ prawie wszystkie dane wielkowymiarowe w świecie rzeczywistym przez przypadek wykażą pewien stopień współliniowości przynajmniej niektórych zmiennych, problem LARS ze skorelowanymi zmiennymi może ograniczać jego zastosowanie do danych wielkowymiarowych.

Algorytm

Podstawowe kroki algorytmu regresji najmniejszych kątów to:

  • Zacznij od wszystkich współczynników równych zero.
  • Znajdź predyktor najbardziej skorelowany z
  • Zwiększ współczynnik w kierunku znaku jego korelacji z . Po drodze weź resztki . Zatrzymaj się, gdy jakiś inny predyktor ma taką samą korelację, jak miał.
  • Zwiększaj ( , ) w kierunku najmniejszych kwadratów, aż jakiś inny predyktor będzie miał tak dużą korelację z resztą .
  • Zwiększaj ( , , ) w kierunku najmniejszych kwadratów, aż jakiś inny predyktor będzie miał tak dużą korelację z resztą .
  • Kontynuuj, aż: wszystkie predyktory znajdą się w modelu

Wdrażanie oprogramowania

Regresja najmniejszego kąta jest zaimplementowana w R za pomocą pakietu lars , w Pythonie za pomocą pakietu scikit-learn oraz w SAS za pomocą procedury GLMSELECT .

Zobacz też

Bibliografia