Efektywna wielkość próbki - Effective sample size

W statystykach , efektywna wielkość próby to pojęcie zdefiniowane dla próbki z rozkładem gdy obserwacje w próbce są skorelowane lub ważone . W 1965 Leslie Kish zdefiniował to jako pierwotną wielkość próby podzieloną przez efekt projektu, aby odzwierciedlić wariancję od obecnego projektu próbkowania w porównaniu z tym, co byłoby, gdyby próbka była prostą próbą losową

Obserwacje skorelowane

Załóżmy, że na podstawie rozkładu ze średnią i odchyleniem standardowym wylosowano próbkę kilku niezależnych obserwacji o identycznym rozkładzie . Następnie średnia tego rozkładu jest szacowana przez średnią z próby: ${\ Displaystyle Y_ {1}, \ kropki, Y_ {n}}$ ${\ Displaystyle \ mu}$ $\sigma$

{\ Displaystyle {\ kapelusz {\ mu}} = {\ Frac {1} {n}} \ suma _ {i = 1} ^ {n} Y_ {i}.}

W tym przypadku odchylenie od oblicza się według ${\kapelusz {\mu}}$

{\ Displaystyle \ Operatorname {Var} ({\ kapelusz {\ mu}}) = {\ Frac {\ Sigma ^ {2}} {n}}}

Jeśli jednak obserwacje w próbie są skorelowane (w sensie korelacji wewnątrzklasowej ), to jest nieco wyższe. Na przykład, jeśli wszystkie obserwacje w próbie są całkowicie skorelowane ( ), to niezależnie od . ${\ Displaystyle \ operatorname {Var} ({\ kapelusz {\ mu}})}$ ${\ Displaystyle \ rho _ {(i, j)} = 1}$ ${\ Displaystyle \ operatorname {Var} ({\ kapelusz {\ mu}}) = \ sigma ^ {2}}$ ${\ Displaystyle n}$

Efektywna wielkość próbki to unikalna wartość (niekoniecznie liczba całkowita) taka, że $n_{\tekst{eff}}$

{\ Displaystyle \ Operatorname {Var} ({\ kapelusz {\ mu}}) = {\ Frac {\ Sigma ^ {2}} {n_ {\ tekst {eff}}}}.}

$n_{\tekst{eff}}$ jest funkcją korelacji między obserwacjami w próbie.

Załóżmy, że wszystkie (nietrywialne) korelacje są takie same i większe niż , tj. if , then . Następnie $-1/(n-1)$ $i\neqj$ ${\ Displaystyle \ rho _ {(i, j)} = \ rho >-1/(n-1)}$

{\ Displaystyle {\ zacząć {wyrównany} \ nazwa operatora {Var} ({\ kapelusz {\ mu}}) & = \ nazwa operatora {Var} \ lewo ({\ Frac {1} {n}} Y_ {1} + { \frac {1}{n}}Y_{2}+\cdots +{\frac {1}{n}}Y_{n}\right)\\[5pt]&=\sum _{i=1}^ {n}{\frac {1}{n^{2}}}\nazwa operatora {Var} (Y_{i})+\sum _{i=1}^{n}\sum _{j=1,j \neq i}^{n}{\frac {1}{n^{2}}}\operatorname {Cov} (Y_{i},Y_{j})\\[5pt]&=n{\frac { \sigma ^{2}}{n^{2}}}+n(n-1){\frac {\sigma ^{2}\rho }{n^{2}}}\\[5pt]&= \sigma ^{2}{\frac {1+(n-1)\rho }{n}}.\end{wyrównany}}}

W związku z tym

{\ Displaystyle n_ {\ tekst {eff}} = {\ Frac {n} {1+ (n-1) \ rho}}.}

W przypadku gdy , to . Podobnie, jeśli wtedy . A jeśli wtedy ... ${\ Displaystyle \ rho = 0}$ $n_{\tekst{eff}}=n$ ${\ Displaystyle \ rho =1}$ $n_{\tekst{eff}}=1$ $-1/(n-1)<\rho <0$ $n_{\tekst{eff}}>n$

Sprawa, w której korelacje nie są jednolite, jest nieco bardziej skomplikowana. Należy zauważyć, że jeśli korelacja jest ujemna, efektywna wielkość próby może być większa niż rzeczywista wielkość próby. Jeśli dopuścimy bardziej ogólną postać (gdzie ), to możliwe jest skonstruowanie macierzy korelacji, które mają parzystość, gdy wszystkie korelacje są dodatnie. Intuicyjnie, maksymalna wartość spośród wszystkich wyborów współczynników może być traktowana jako zawartość informacyjna obserwowanych danych. ${\ Displaystyle {\ kapelusz {\ mu}} = \ suma _ {i = 1} ^ {n} a_ {i} y_ {i}}$ ${\ Displaystyle \ suma _ {i = 1} ^ {n} a_ {i} = 1}$ $n_{\tekst{eff}}>n$ $n_{\tekst{eff}}$ $a_{i}$

Próbki ważone

Jeżeli dane zostały zważone (wagi nie muszą być normalizowane, tzn. mają ich sumę równą 1 lub n, lub jakąś inną stałą), to z rozkładu wyciągnięto kilka obserwacji składających się na próbę z efektywnie 100% korelacją z jakąś poprzednią próbką. W tym przypadku efekt jest znany jako efektywna wielkość próbki Kisha

{\ Displaystyle n_ {\ tekst {efekt}} = {\ Frac {n} {D_ {\ tekst {wy}}}} = {\ Frac {n} {\ Frac {\ overline {w ^ {2}}} {{\overline {w}}^{2}}}}={\frac {n}{\frac {{\frac {1}{n}}\sum _{i=1}^{n}w_{ i}^{2}}{\lewo({\frac {1}{n}}\sum _{i=1}^{n}w_{i}\prawo)^{2}}}}={\ frac {n}{\frac {n\sum _{i=1}^{n}w_{i}^{2}}{(\sum _{i=1}^{n}w_{i})^ {2}}}}={\frac {(\sum _{i=1}^{n}w_{i})^{2}}{\sum _{i=1}^{n}w_{i }^{2}}}}

Bibliografia

Dalsza lektura

MB, Priestley (1981), Analiza spektralna i seria czasowa 1 , Prasa akademicka, §5.3.

Zobacz też

Efekt projektowy

Languages

In other projects