Matryca projektowa - Design matrix

W statystyce, aw szczególności w analizie regresji , macierz projektu , znana również jako macierz modelu lub macierz regresora i często oznaczana przez X , jest macierzą wartości zmiennych objaśniających zbioru obiektów. Każdy wiersz reprezentuje pojedynczy obiekt, z kolejnymi kolumnami odpowiadającymi zmiennym i ich specyficznymi wartościami dla tego obiektu. Macierz projektu jest używana w niektórych modelach statystycznych , np. w ogólnym modelu liniowym . Może zawierać zmienne wskaźnikowe (jedynki i zera), które wskazują przynależność do grupy w ANOVA , lub może zawierać wartości zmiennych ciągłych .

Macierz projektu zawiera dane dotyczące zmiennych niezależnych (zwanych również zmiennymi objaśniającymi) w modelach statystycznych, które próbują wyjaśnić zaobserwowane dane dotyczące zmiennej odpowiedzi (często nazywanej zmienną zależną ) w kategoriach zmiennych objaśniających. Teoria odnosząca się do takich modeli w znacznym stopniu wykorzystuje manipulacje macierzami z wykorzystaniem macierzy projektu: patrz na przykład regresja liniowa . Godną uwagi cechą koncepcji macierzy projektu jest to, że jest ona w stanie reprezentować szereg różnych projektów eksperymentalnych i modeli statystycznych, np. ANOVA , ANCOVA i regresja liniowa.

Definicja

Macierz projektu jest zdefiniowana jako macierz taka, że ( j- ta kolumna i- tego wiersza ) reprezentuje wartość j- tej zmiennej związanej z i- tym obiektem.

Model regresji, który jest liniową kombinacją zmiennych objaśniających, może być zatem reprezentowany przez mnożenie macierzy jako

gdzie X jest macierzą projektu, jest wektorem współczynników modelu (jeden dla każdej zmiennej), a y jest wektorem przewidywanych wyników dla każdego obiektu.

Rozmiar

Matrycy z danych ma wymiar n -by- p , gdzie n jest liczbą próbek obserwowano i p oznacza liczbę zmiennych ( cechy ) pomiar wszystkich próbek.

W tej reprezentacji różne wiersze zazwyczaj reprezentują różne powtórzenia eksperymentu, podczas gdy kolumny reprezentują różne typy danych (powiedzmy, wyniki z poszczególnych sond). Załóżmy na przykład, że przeprowadza się eksperyment, w którym 10 osób zostaje wyciągniętych z ulicy i zadaje im cztery pytania. Macierz danych M byłaby macierzą 10×4 (czyli 10 wierszy i 4 kolumny). Daną w wierszu i i kolumnie j tej macierzy byłaby odpowiedź i- tej osoby na j- te pytanie.

Przykłady

Średnia arytmetyczna

Macierz projektu dla średniej arytmetycznej jest wektorem kolumnowym jedynek .

Prosta regresja liniowa

W tej sekcji podano przykład prostej regresji liniowej — to znaczy regresji z tylko jedną zmienną objaśniającą — z siedmioma obserwacjami. Siedem punktów danych to { y i , x i }, dla i  = 1, 2, …, 7. Prosty model regresji liniowej to

gdzie jest punktem przecięcia y i jest nachyleniem linii regresji. Model ten można przedstawić w postaci macierzowej jako

gdzie pierwsza kolumna z jedynkami w macierzy projektu umożliwia oszacowanie punktu przecięcia y, podczas gdy druga kolumna zawiera wartości x związane z odpowiednimi wartościami y .

Wielokrotna regresja

Ta sekcja zawiera przykład regresji wielokrotnej z dwiema współzmiennymi (zmiennymi objaśniającymi): w i x . Ponownie załóżmy, że dane składają się z siedmiu obserwacji i że dla każdej obserwowanej wartości, która ma być przewidywana ( ), obserwowane są również wartości w i oraz x i dwóch zmiennych towarzyszących. Rozważany model to

Model ten można zapisać w kategoriach macierzowych jako

Tutaj matryca 7×3 po prawej stronie jest matrycą projektu.

Jednokierunkowa ANOVA (komórka oznacza model)

Ta sekcja zawiera przykład z jednokierunkową analizą wariancji ( ANOVA ) z trzema grupami i siedmioma obserwacjami. Podany zbiór danych zawiera pierwsze trzy obserwacje należące do pierwszej grupy, kolejne dwie obserwacje należące do drugiej grupy i dwie końcowe obserwacje należące do trzeciej grupy. Jeśli model, który ma być dopasowany, jest tylko średnią z każdej grupy, to model jest

które można napisać

W tym modelu reprezentuje średnią grupy.

Jednokierunkowa ANOVA (przesunięcie względem grupy odniesienia)

Model ANOVA można równoważnie zapisać jako każdy parametr grupy będący przesunięciem względem jakiegoś ogólnego odniesienia. Zazwyczaj ten punkt odniesienia jest uważany za jedną z rozważanych grup. Ma to sens w kontekście porównywania wielu grup terapeutycznych z grupą kontrolną, a grupa kontrolna jest uważana za „referencyjną”. W tym przykładzie grupa 1 została wybrana jako grupa odniesienia. W związku z tym model, który ma być dopasowany, to

z ograniczeniem równym zero.

W tym modelu jest to średnia grupy odniesienia i jest różnicą między grupą a grupą odniesienia. nie jest uwzględniana w macierzy, ponieważ jej różnica od grupy odniesienia (samej) jest z konieczności równa zeru.

Zobacz też

Bibliografia

Dalsza lektura

  • Verbeek, Albert (1984). „Geometria wyboru modelu w regresji”. W Dijkstrze Theo K. (red.). Analiza błędnych specyfikacji . Nowy Jork: Springer. s. 20–36. Numer ISBN 0-387-13893-5.