Systematyczne pobieranie próbek - Systematic sampling

W metodologii badania , systematyczne próbkowania jest metoda statystyczna obejmujące wybór elementów z uporządkowanym ramki próbek . Najpopularniejszą formą systematycznego pobierania próbek jest metoda zrównania prawdopodobieństwa . W tym podejściu przechodzenie przez listę jest traktowane cyklicznie, z powrotem na górę po przejściu końca listy. Próbkowanie rozpoczyna się od losowego wybrania elementu z listy, a następnie wybierany jest każdy k- ^ty element w ramce, gdzie k jest interwałem próbkowania (czasami znanym jako pominięcie ): jest to obliczane jako:

{\ Displaystyle k = {\ Frac {N} {n}}}

gdzie n to wielkość próby, a N to wielkość populacji.

Stosując tę procedurę, każdy element w populacji ma znane i równe prawdopodobieństwo selekcji (znane również jako epsem ). Dzięki temu systematyczne próbkowanie jest funkcjonalnie podobne do prostego próbkowania losowego (SRS). Nie jest to jednak to samo, co SRS, ponieważ nie każda możliwa próbka o określonej wielkości ma taką samą szansę na wybór (np. próbki z co najmniej dwoma sąsiadującymi ze sobą elementami nigdy nie zostaną wybrane w systematycznym doborze). Jest jednak znacznie bardziej wydajny (jeśli wariancja w ramach próby systematycznej jest większa niż wariancja populacji).

Próbkowanie systematyczne należy stosować tylko wtedy, gdy dana populacja jest logicznie jednorodna, ponieważ jednostki próby systematycznej są równomiernie rozłożone w całej populacji. Badacz musi upewnić się, że wybrany interwał próbkowania nie przesłania wzorca. Każdy wzór zagrażałby losowości.

Przykład: Załóżmy, że supermarket chce zbadać zwyczaje zakupowe swoich klientów, a następnie, stosując systematyczne pobieranie próbek, może wybrać co 10 lub 15 klienta wchodzącego do supermarketu i przeprowadzić badanie na tej próbce.

To jest losowe pobieranie próbek w systemie. Z operatu losowania wybierany jest losowo punkt początkowy, a następnie dokonywane są wybory w regularnych odstępach czasu. Załóżmy na przykład, że chcesz pobrać próbkę 8 domów z ulicy składającej się ze 120 domów. 120/8=15, więc każdy 15 dom jest wybierany po losowym punkcie początkowym między 1 a 15. Jeśli losowy punkt początkowy to 11, wtedy wybrane domy to 11, 26, 41, 56, 71, 86, 101 i 116. Na marginesie, jeśli co 15 dom był „domem narożnym”, to ten wzór narożny mógłby zniszczyć losowość próbki.

Jeśli, częściej, populacja nie jest podzielna równomiernie (przypuśćmy, że chcesz pobrać próbkę 8 ze 125 domów, gdzie 125/8=15.625), czy powinieneś wziąć co 15. czy co 16. dom? Jeśli weźmiesz co szesnasty dom, 8*16=128, więc istnieje ryzyko, że ostatni wybrany dom nie istnieje. Z drugiej strony, jeśli weźmiesz co 15 dom, 8*15=120, więc ostatnie pięć domów nigdy nie zostanie wybranych. Losowy punkt początkowy należy zamiast tego wybrać jako liczbę niecałkowitą z zakresu od 0 do 15,625 (włącznie z jednym punktem końcowym), aby zapewnić, że każdy dom ma równe szanse na wybór; przedział powinien być teraz niecałkowity (15.625); a każdą wybraną liczbę niecałkowitą należy zaokrąglić w górę do następnej liczby całkowitej. Jeśli losowy punkt początkowy to 3,6, to wybrane domy to 4, 20, 35, 50, 66, 82, 98 i 113, gdzie są 3 cykliczne interwały po 15 i 4 interwały po 16.

Aby zilustrować niebezpieczeństwo systematycznego przeskakiwania zasłaniającego wzór, załóżmy, że mielibyśmy próbować zaplanowanej dzielnicy, w której każda ulica ma dziesięć domów na każdym bloku. Umieszcza to domy nr 1, 10, 11, 20, 21, 30... na rogach bloków; bloki narożne mogą być mniej wartościowe, ponieważ większą część ich powierzchni zajmuje front ulicy itp., który jest niedostępny dla celów budowlanych. Jeśli następnie pobierzemy próbkę co dziesiąte gospodarstwo domowe, nasza próba będzie składać się tylko z domów narożnych (jeśli zaczniemy od 1 lub 10) lub nie będzie mieć domów narożnych (każdy inny początek); tak czy inaczej, nie będzie reprezentatywny.

Dobór systematyczny może być również stosowany przy nierównych prawdopodobieństwach wyboru. W tym przypadku, zamiast po prostu liczyć przez elementy populacji i wybierać każdą k- ^tą jednostkę, przydzielamy każdemu elementowi spację wzdłuż osi liczbowej zgodnie z prawdopodobieństwem jego wyboru. Następnie generujemy losowy początek z rozkładu równomiernego od 0 do 1 i poruszamy się wzdłuż osi liczbowej w krokach co 1.

Przykład: Mamy populację składającą się z 5 jednostek (od A do E). Chcemy dać jednostce A 20% prawdopodobieństwo wyboru, jednostce B 40% i tak dalej aż do jednostki E (100%). Zakładając, że zachowujemy porządek alfabetyczny, każdą jednostkę przypisujemy do następującego przedziału:

A: 0 to 0.2
B: 0.2 to 0.6 (= 0.2 + 0.4)
C: 0.6 to 1.2 (= 0.6 + 0.6)
D: 1.2 to 2.0 (= 1.2 + 0.8)
E: 2.0 to 3.0 (= 2.0 + 1.0)

Gdyby nasz losowy start wynosił 0,156, najpierw wybralibyśmy jednostkę, której przedział zawiera tę liczbę (tj. A). Następnie wybierzemy przedział zawierający 1.156 (element C), a następnie 2.156 (element E). Gdyby zamiast tego nasz losowy start wynosił 0,350, wybralibyśmy z punktów 0,350 (B), 1,350 (D) i 2,350 (E).

Bibliografia

Linki zewnętrzne

TRSL – Template Range Sampling Library to bezpłatna biblioteka C++ typu open source, która implementuje systematyczne próbkowanie za interfejsem iteratora (podobnym do STL).

Languages

In other projects

Systematyczne pobieranie próbek - Systematic sampling

Bibliografia

Linki zewnętrzne