Zestaw danych - Data set

Zbiór danych (lub zbiór danych ) to zbiór danych . W przypadku danych tabelarycznych zestaw danych odpowiada jednej lub większej liczbie tabel bazy danych , gdzie każda kolumna tabeli reprezentuje określoną zmienną , a każdy wiersz odpowiada danemu rekordowi danego zestawu danych. Zestaw danych zawiera wartości dla każdej ze zmiennych, takie jak wysokość i waga obiektu, dla każdego elementu zestawu danych. Każda wartość nazywana jest datum. Zbiory danych mogą również składać się ze zbioru dokumentów lub plików.

W dyscyplinie otwartych danych zbiór danych jest jednostką pomiaru informacji udostępnianych w publicznym repozytorium otwartych danych. Europejski portal otwartych danych agreguje ponad pół miliona zbiorów danych. Niektóre inne kwestie (źródła danych w czasie rzeczywistym, nierelacyjne zbiory danych itp.) zwiększają trudność w osiągnięciu konsensusu w tej sprawie.

Nieruchomości

Kilka cech określa strukturę i właściwości zbioru danych. Obejmują one liczbę i typy atrybutów lub zmiennych oraz różne miary statystyczne mające do nich zastosowanie, takie jak odchylenie standardowe i kurtoza .

Wartości mogą być liczbami, takimi jak liczby rzeczywiste lub liczby całkowite , na przykład reprezentujące wzrost osoby w centymetrach, ale mogą również być danymi nominalnymi (tj. nie składającymi się z wartości liczbowych ), na przykład reprezentującymi pochodzenie etniczne osoby. Bardziej ogólnie, wartości mogą być dowolnego rodzaju opisanego jako poziom pomiaru . Dla każdej zmiennej wartości są zwykle tego samego rodzaju. Mogą jednak występować również brakujące wartości , które należy w jakiś sposób wskazać.

W statystykach , zestawy danych zazwyczaj pochodzą od rzeczywistych obserwacji uzyskanych przez pobieranie próbek do zbiorowości , a każdy wiersz odpowiada obserwacji na jednym elemencie tej populacji. Zbiory danych mogą być ponadto generowane przez algorytmy w celu testowania niektórych rodzajów oprogramowania . Niektóre nowoczesne programy do analizy statystycznej, takie jak SPSS, nadal prezentują swoje dane w klasyczny sposób. Jeśli brakuje danych lub są one podejrzane, do uzupełnienia zestawu danych można zastosować metodę imputacji .

Klasyczne zbiory danych

W literaturze statystycznej szeroko stosowano kilka klasycznych zestawów danych :

Zobacz też

Bibliografia

Zewnętrzne linki