Eksploracja danych - Data mining

Eksploracja danych to proces wyodrębniania i odkrywania wzorców w dużych zbiorach danych, obejmujący metody na przecięciu uczenia maszynowego , statystyki i systemów baz danych . Eksploracja danych to interdyscyplinarna poddziedzina informatyki i statystyki, której ogólnym celem jest wyodrębnienie informacji (za pomocą inteligentnych metod) ze zbioru danych i przekształcenie informacji w zrozumiałą strukturę do dalszego wykorzystania. Eksploracja danych to etap analizy procesu „odkrywania wiedzy w bazach danych” lub KDD. Oprócz etapu analizy surowej obejmuje on również aspekty zarządzania bazą danych i danymi , wstępne przetwarzanie danych , rozważania dotyczące modelu i wnioskowania , metryki zainteresowania, rozważania dotyczące złożoności , przetwarzanie końcowe odkrytych struktur, wizualizację i aktualizację online .

Termin „eksploracja danych” jest mylący , ponieważ celem jest wydobycie wzorców i wiedzy z dużych ilości danych, a nie wydobycie ( wydobywanie ) samych danych . Jest to również modne hasło i jest często stosowane do każdej formy wielkoskalowego przetwarzania danych lub informacji ( zbieranie , ekstrakcja , magazynowanie , analiza i statystyka) oraz wszelkich zastosowań komputerowych systemów wspomagania decyzji , w tym sztucznej inteligencji (np. maszyny uczenia się) i wywiadu gospodarczego . Książka Data mining: Praktyczne narzędzia i techniki uczenia maszynowego w Javie (która obejmuje głównie materiały do ​​uczenia maszynowego) miała pierwotnie nosić nazwę Praktyczne uczenie maszynowe , a termin eksploracja danych został dodany tylko ze względów marketingowych. Często bardziej ogólne warunki ( na dużą skalę ), analiza danych i analityki -lub, odnosząc się do rzeczywistych metod sztucznej inteligencji i maszyny uczenia -are bardziej odpowiednie.

Rzeczywiste zadanie eksploracji danych to półautomatyczna lub automatyczna analiza dużych ilości danych w celu wyodrębnienia nieznanych wcześniej, interesujących wzorców, takich jak grupy rekordów danych ( analiza klastrowa ), nietypowe rekordy ( wykrywanie anomalii ) i zależności ( eksploracja reguł asocjacyjnych , sekwencyjne wydobywanie wzorców ). Zwykle wiąże się to z wykorzystaniem technik bazodanowych, takich jak indeksy przestrzenne . Wzorce te mogą być następnie postrzegane jako rodzaj podsumowania danych wejściowych i mogą być wykorzystywane w dalszej analizie lub np. w uczeniu maszynowym i analityce predykcyjnej . Na przykład etap eksploracji danych może zidentyfikować wiele grup w danych, które można następnie wykorzystać do uzyskania dokładniejszych wyników predykcji przez system wspomagania decyzji . Ani zbieranie danych, przygotowywanie danych, ani interpretacja wyników i raportowanie nie są częścią etapu eksploracji danych, ale należą do ogólnego procesu KDD jako dodatkowe etapy.

Różnica między analizą danych a eksploracją danych polega na tym, że analiza danych służy do testowania modeli i hipotez dotyczących zbioru danych, np. analizy skuteczności kampanii marketingowej, niezależnie od ilości danych; z kolei eksploracja danych wykorzystuje uczenie maszynowe i modele statystyczne do odkrywania tajnych lub ukrytych wzorców w dużej ilości danych.

Terminy związane z nimi dane pogłębiarskich , wędkarstwo dane oraz dane podglądanie zapoznać się z wykorzystaniem metod eksploracji danych do spróbowania części większego zbioru danych populacji, które są (lub mogą być) zbyt małe dla wiarygodnych wnioskowań statystycznych być wykonane o ważności każdego odkryte wzorce. Metody te można jednak wykorzystać do tworzenia nowych hipotez do testowania na większych populacjach danych.

Etymologia

W latach sześćdziesiątych statystycy i ekonomiści używali terminów takich jak łowienie danych lub pogłębianie danych, aby odnieść się do tego, co uważali za złą praktykę analizowania danych bez hipotezy a priori. Termin „eksploracja danych” został użyty w podobnie krytyczny sposób przez ekonomistę Michaela Lovella w artykule opublikowanym w Review of Economic Studies w 1983 roku. ) na „wędkowanie” lub „wędkowanie” (ujemne).

Termin eksploracja danych pojawił się około 1990 roku w społeczności baz danych, na ogół z pozytywnymi konotacjami. Przez krótki czas w latach 80. używano wyrażenia „database mining”™, ale odkąd zostało ono zastrzeżone przez HNC, firmę z siedzibą w San Diego, do prezentacji ich Database Mining Workstation; badacze w konsekwencji zwrócili się do eksploracji danych . Inne terminy stosowane obejmują archeologię danych , pozyskiwanie informacji , o odkrycie , ekstrakcji wiedzy , itp Gregory Piatetsky-Shapiro ukuł termin „odkrywanie wiedzy w bazach danych” na pierwszym warsztacie na ten sam temat (KDD-1989) i termin ten stał się bardziej popularny w społeczności AI i uczenia maszynowego . Jednak termin eksploracja danych stał się bardziej popularny w społecznościach biznesowych i prasowych. Obecnie terminy eksploracja danych i odkrywanie wiedzy są używane zamiennie.

W środowisku akademickim główne fora badawcze rozpoczęły się w 1995 r., kiedy w Montrealu pod patronatem AAAI rozpoczęła się pierwsza międzynarodowa konferencja na temat eksploracji danych i odkrywania wiedzy ( KDD-95 ) . Współprzewodniczyli mu Usama Fayyad i Ramasamy Uthurusamy. Rok później, w 1996 roku, Usama Fayyad uruchomił czasopismo Kluwera o nazwie Data Mining and Knowledge Discovery jako jego redaktor naczelny założyciel. Później założył Biuletyn SIGKDD Eksploracje SIGKDD. Konferencja KDD International stała się główną konferencją najwyższej jakości w dziedzinie eksploracji danych, przy współczynniku akceptacji zgłoszeń artykułów naukowych poniżej 18%. Czasopismo Data Mining and Knowledge Discovery jest głównym czasopismem naukowym w tej dziedzinie.

Tło

Ręczne wydobywanie wzorców z danych odbywało się od wieków. Wczesne metody identyfikacji wzorców w danych obejmują twierdzenie Bayesa (XVIII wiek) i analizę regresji (XVIII wiek). Rozprzestrzenianie się, wszechobecność i rosnąca moc technologii komputerowej radykalnie zwiększyły możliwości gromadzenia, przechowywania i manipulacji danymi. Ponieważ zbiory danych rosły w rozmiarach i złożoności, bezpośrednia „praktyczna” analiza danych była coraz bardziej rozszerzana o pośrednie, zautomatyzowane przetwarzanie danych, wspomagane przez inne odkrycia w informatyce, szczególnie w dziedzinie uczenia maszynowego, takie jak sieci neuronowe , analiza skupień , algorytmy genetyczne (lata pięćdziesiąte XX wieku), drzewa decyzyjne i reguły decyzyjne (lata sześćdziesiąte XX wieku) oraz maszyny wektorów nośnych (lata dziewięćdziesiąte XX wieku). Eksploracja danych to proces stosowania tych metod w celu wykrycia ukrytych wzorców. w dużych zbiorach danych. Wypełnia lukę między statystyką stosowaną i sztuczną inteligencją (która zwykle zapewnia podstawy matematyczne) a zarządzaniem bazami danych , wykorzystując sposób przechowywania i indeksowania danych w bazach danych do bardziej wydajnego wykonywania rzeczywistych algorytmów uczenia się i odkrywania, umożliwiając zastosowanie takich metod do coraz większe zbiory danych.

Proces

Proces odkrywania wiedzy w bazach danych (KDD) jest powszechnie definiowany za pomocą etapów:

  1. Wybór
  2. Wstępne przetwarzanie
  3. Transformacja
  4. Eksploracja danych
  5. Interpretacja/ocena.

Istnieje jednak wiele odmian tego tematu, takich jak międzybranżowy standardowy proces eksploracji danych (CRISP-DM), który definiuje sześć faz:

  1. Zrozumienie biznesu
  2. Zrozumienie danych
  3. Przygotowywanie danych
  4. Modelowanie
  5. Ocena
  6. Rozlokowanie

lub uproszczony proces, taki jak (1) wstępne przetwarzanie, (2) eksploracja danych i (3) walidacja wyników.

Sondaże przeprowadzone w latach 2002, 2004, 2007 i 2014 pokazują, że metodologia CRISP-DM jest wiodącą metodologią stosowaną przez eksploratorów danych. Jedynym innym standardem eksploracji danych wymienionym w tych sondażach był SEMMA . Jednak 3–4 razy więcej osób zgłosiło stosowanie CRISP-DM. Kilka zespołów badaczy opublikowało przeglądy modeli procesów eksploracji danych, a Azevedo i Santos przeprowadzili porównanie CRISP-DM i SEMMA w 2008 roku.

Wstępne przetwarzanie

Zanim będzie można użyć algorytmów eksploracji danych, należy zebrać docelowy zestaw danych. Ponieważ eksploracja danych może odkryć tylko wzorce faktycznie obecne w danych, docelowy zestaw danych musi być wystarczająco duży, aby zawierać te wzorce, a jednocześnie być wystarczająco zwięzły, aby można go było przeszukać w akceptowalnym terminie. Typowym źródłem danych jest baza danych lub hurtownia danych . Wstępne przetwarzanie jest niezbędne do analizy wielowymiarowych zestawów danych przed eksploracją danych. Zestaw docelowy jest następnie czyszczony. Czyszczenie danych usuwa obserwacje zawierające szum oraz te, w których brakuje danych .

Eksploracja danych

Eksploracja danych obejmuje sześć typowych klas zadań:

  • Wykrywanie anomalii ( wykrywanie wartości odstających/zmian/odchylenia) — identyfikacja nietypowych rekordów danych, które mogą być interesujące lub błędów danych, które wymagają dalszego badania.
  • Nauka reguł asocjacyjnych (modelowanie zależności) — wyszukuje relacje między zmiennymi. Na przykład supermarket może gromadzić dane na temat nawyków zakupowych klientów. Dzięki uczeniu się reguł skojarzeń supermarket może określić, które produkty są często kupowane razem, i wykorzystać te informacje do celów marketingowych. Jest to czasami nazywane analizą koszyka rynkowego.
  • Klastrowanie – to zadanie polegające na odkrywaniu w danych grup i struktur, które są w jakiś sposób „podobne”, bez wykorzystywania w danych znanych struktur.
  • Klasyfikacja – to zadanie uogólnienia znanej struktury w celu zastosowania do nowych danych. Na przykład program pocztowy może próbować sklasyfikować wiadomość e-mail jako „legalną” lub „spam”.
  • Regresja – próbuje znaleźć funkcję, która modeluje dane z najmniejszym błędem, czyli do szacowania relacji między danymi lub zbiorami danych.
  • Podsumowanie — zapewnia bardziej zwartą reprezentację zbioru danych, w tym wizualizację i generowanie raportów.

Walidacja wyników

Przykład danych uzyskanych w wyniku przeszukiwania danych przez bota obsługiwanego przez statystyka Tylera Vigena, który najwyraźniej pokazuje ścisły związek między najlepszym słowem wygrywającym konkurs ortografii a liczbą osób w Stanach Zjednoczonych zabitych przez jadowite pająki. Podobieństwo trendów to oczywiście przypadek.

Eksploracja danych może zostać nieumyślnie nadużyta, a następnie może dawać wyniki, które wydają się znaczące; ale które w rzeczywistości nie przewidują przyszłych zachowań i nie mogą być odtworzone na nowej próbce danych i są mało przydatne. Często wynika to z badania zbyt wielu hipotez i nieodpowiedniego testowania hipotez statystycznych . Prosta wersja tego problemu w uczeniu maszynowym jest znana jako overfitting , ale ten sam problem może pojawić się w różnych fazach procesu, a zatem podział pociąg/test – jeśli w ogóle ma zastosowanie – może nie wystarczyć, aby temu zapobiec.

Ostatnim krokiem odkrywania wiedzy z danych jest sprawdzenie, czy wzorce generowane przez algorytmy eksploracji danych występują w szerszym zbiorze danych. Nie wszystkie wzorce znalezione przez algorytmy eksploracji danych są koniecznie prawidłowe. Często algorytmy eksploracji danych znajdują wzorce w zbiorze uczącym, które nie występują w ogólnym zbiorze danych. Nazywa się to overfittingiem . Aby rozwiązać ten problem, ocena używa zestawu testowego danych, na którym algorytm wyszukiwania danych nie został przeszkolony. Wyuczone wzorce są stosowane do tego zestawu testowego, a wynikowe dane wyjściowe są porównywane z żądanymi danymi wyjściowymi. Na przykład algorytm eksploracji danych próbujący odróżnić „spam” od „uzasadnionych” wiadomości e-mail zostanie przeszkolony na zestawie uczącym przykładowych wiadomości e-mail. Po wyuczeniu, wyuczone wzorce byłyby stosowane do testowego zestawu e-maili, na których nie były wytrenowane. Dokładność wzorców można następnie zmierzyć na podstawie liczby e-maili, które poprawnie klasyfikują. Do oceny algorytmu można użyć kilku metod statystycznych, takich jak krzywe ROC .

Jeśli wyuczone wzorce nie spełniają pożądanych standardów, konieczne jest ponowne oszacowanie i zmiana etapów wstępnego przetwarzania i eksploracji danych. Jeśli wyuczone wzorce spełniają pożądane standardy, ostatnim krokiem jest zinterpretowanie wyuczonych wzorców i przekształcenie ich w wiedzę.

Badania

Najważniejszym organem zawodowym w tej dziedzinie jest grupa specjalnego zainteresowania (SIG) ds. odkrywania wiedzy i eksploracji danych ( SIGKDD ) Stowarzyszenia Maszyn Komputerowych (ACM ). Od 1989 r. ACM SIG jest gospodarzem corocznej międzynarodowej konferencji i publikuje jej materiały, a od 1999 r. wydaje dwuletnie czasopismo naukowe zatytułowane „SIGKDD Explorations”.

Konferencje informatyczne poświęcone eksploracji danych obejmują:

Tematy eksploracji danych są również obecne na wielu konferencjach dotyczących zarządzania danymi/bazami danych, takich jak Konferencja ICDE, Konferencja SIGMOD i Międzynarodowa Konferencja na temat Bardzo Dużych Baz Danych

Normy

Podjęto pewne wysiłki w celu zdefiniowania standardów dla procesu eksploracji danych, na przykład europejskiego standardowego procesu eksploracji danych z 1999 r. (CRISP-DM 1.0) i standardu eksploracji danych Java z 2004 r. (JDM 1.0). Rozwój następców tych procesów (CRISP-DM 2.0 i JDM 2.0) był aktywny w 2006 roku, ale od tego czasu utknął w martwym punkcie. JDM 2.0 został wycofany bez osiągnięcia ostatecznego projektu.

Do wymiany wyodrębnionych modeli — w szczególności do użytku w analityce predykcyjnej — kluczowym standardem jest Predictive Model Markup Language (PMML), który jest językiem opartym na XML , opracowanym przez Data Mining Group (DMG) i obsługiwanym jako format wymiany przez wiele aplikacje do eksploracji danych. Jak sama nazwa wskazuje, obejmuje tylko modele predykcyjne, szczególne zadanie eksploracji danych o dużym znaczeniu dla aplikacji biznesowych. Jednak rozszerzenia obejmujące (na przykład) klastry podprzestrzenne zostały zaproponowane niezależnie od DMG.

Wybitne zastosowania

Eksploracja danych jest stosowana wszędzie tam, gdzie obecnie dostępne są dane cyfrowe. Godne uwagi przykłady eksploracji danych można znaleźć w biznesie, medycynie, nauce i inwigilacji.

Troska o prywatność i etyka

Chociaż sam termin „eksploracja danych” może nie mieć implikacji etycznych, często wiąże się z eksploracją informacji w odniesieniu do zachowań ludzi (etycznych i innych).

Sposoby wykorzystania eksploracji danych mogą w niektórych przypadkach i kontekstach rodzić pytania dotyczące prywatności , legalności i etyki. W szczególności obawy dotyczące prywatności wzbudziły eksploracja danych rządowych lub komercyjnych zbiorów danych do celów bezpieczeństwa narodowego lub organów ścigania, takich jak program Total Information Awareness Program lub ADVISE .

Eksploracja danych wymaga przygotowania danych, które odkryje informacje lub wzorce, które zagrażają zobowiązaniom do zachowania poufności i prywatności. Typowym sposobem na to jest agregacja danych . Agregacja danych polega na łączeniu danych (być może pochodzących z różnych źródeł) w sposób ułatwiający analizę (ale może to również sprawić, że identyfikacja prywatnych danych na poziomie indywidualnym będzie możliwa do wywnioskowania lub w inny sposób oczywista). Nie jest to eksploracja danych per se , ale wynik przygotowania danych przed i na potrzeby analizy. Zagrożenie dla prywatności danej osoby pojawia się, gdy dane po skompilowaniu powodują, że eksplorator danych lub każdy, kto ma dostęp do nowo skompilowanego zestawu danych, jest w stanie zidentyfikować konkretne osoby, zwłaszcza gdy dane były pierwotnie anonimowe.

Zaleca się, aby przed zebraniem danych mieć świadomość następujących kwestii :

  • Cel zbierania danych i wszelkie (znane) projekty eksploracji danych;
  • W jaki sposób dane będą wykorzystywane;
  • Kto będzie mógł wydobywać dane i wykorzystywać dane oraz ich pochodne;
  • Status bezpieczeństwa związanego z dostępem do danych;
  • Jak można aktualizować zebrane dane.

Dane mogą być również modyfikowane w taki sposób, aby stały się anonimowe, tak aby nie można było łatwo zidentyfikować osób. Jednak nawet „anonimowe” zestawy danych mogą potencjalnie zawierać wystarczającą ilość informacji, aby umożliwić identyfikację osób, co miało miejsce, gdy dziennikarzom udało się znaleźć kilka osób na podstawie zestawu historii wyszukiwania, które zostały nieumyślnie opublikowane przez AOL.

Nieumyślne ujawnienie informacji umożliwiających identyfikację osoby prowadzące do dostawcy narusza Uczciwe Praktyki Informacyjne. Ta niedyskrecja może spowodować szkodę finansową, emocjonalną lub cielesną u wskazanej osoby. W jednym przypadku naruszenia prywatności , patroni Walgreens złożyli pozew przeciwko firmie w 2011 roku za sprzedaż informacji na receptę firmom zajmującym się eksploracją danych, które z kolei dostarczyły dane firmom farmaceutycznym.

Sytuacja w Europie

W Europie obowiązują dość surowe przepisy dotyczące prywatności i trwają wysiłki na rzecz dalszego wzmocnienia praw konsumentów. Jednak zasady US-EU Safe Harbor , opracowane w latach 1998-2000, obecnie skutecznie narażają użytkowników europejskich na wykorzystywanie prywatności przez firmy amerykańskie. W konsekwencji Edward Snowden „s globalnej ujawnienia nadzoru , nastąpił wzrost dyskusji o odwołaniu niniejszej Umowy, jak w szczególności dane zostaną w pełni narażone na Agencję Bezpieczeństwa Narodowego , a próby osiągnięcia porozumienia z USA nie powiodły się.

Zwłaszcza w Wielkiej Brytanii zdarzały się przypadki wykorzystywania eksploracji danych przez korporacje jako sposobu dotarcia do określonych grup klientów, zmuszając ich do płacenia nieuczciwie wysokich cen. Grupy te to zazwyczaj ludzie o niższym statusie społeczno-ekonomicznym, którzy nie mają doświadczenia w sposobach wykorzystywania ich na rynkach cyfrowych.

Sytuacja w Stanach Zjednoczonych

W Stanach Zjednoczonych problemy dotyczące prywatności zostały rozwiązane przez Kongres USA poprzez wprowadzenie kontroli regulacyjnych, takich jak ustawa o przenośności i odpowiedzialności w ubezpieczeniach zdrowotnych (HIPAA). HIPAA wymaga, aby osoby fizyczne wyraziły „świadomą zgodę” w odniesieniu do przekazywanych przez nich informacji oraz ich zamierzonego obecnego i przyszłego wykorzystania. Zgodnie z artykułem w Biotech Business Week , „[w] praktyce HIPAA nie może oferować większej ochrony niż długoletnie przepisy na arenie badawczej”, mówi AAHC. Co ważniejsze, celem zasady jest ochrona poprzez świadomą zgodę. zbliżyć się do poziomu niezrozumiałego dla przeciętnych osób." Podkreśla to konieczność zachowania anonimowości danych w praktykach agregacji i eksploracji danych.

Amerykańskie przepisy dotyczące prywatności informacji, takie jak HIPAA i Family Educational Rights and Privacy Act (FERPA), mają zastosowanie tylko do określonych obszarów, do których odnosi się każde takie prawo. Korzystanie z eksploracji danych przez większość firm w USA nie jest kontrolowane przez żadne przepisy.

prawa autorskie

Sytuacja w Europie

Zgodnie z europejskimi przepisami dotyczącymi praw autorskich i baz danych , wydobywanie utworów chronionych prawem autorskim (np. przez eksplorację sieci ) bez zgody właściciela praw autorskich jest niezgodne z prawem. Jeżeli w Europie baza danych jest czystymi danymi, może się zdarzyć, że nie ma praw autorskich – ale prawa do baz danych mogą istnieć, więc eksploracja danych staje się przedmiotem praw właścicieli własności intelektualnej, które są chronione dyrektywą w sprawie baz danych . Zgodnie z zaleceniem przeglądu Hargreavesa doprowadziło to do zmiany przez rząd Wielkiej Brytanii prawa autorskiego w 2014 r., aby zezwolić na eksplorację treści jako ograniczenie i wyjątek . Wielka Brytania była drugim krajem na świecie, który to zrobił, po Japonii, która wprowadziła w 2009 r. wyjątek dla eksploracji danych. Jednak ze względu na ograniczenie dyrektywy w sprawie społeczeństwa informacyjnego (2001) wyjątek brytyjski zezwala na eksplorację treści wyłącznie do celów niekomercyjnych. Prawo autorskie Wielkiej Brytanii również nie zezwala na zastępowanie tego postanowienia warunkami umownymi.

Komisja Europejska ułatwiła interesariuszy dyskusji na temat tekstu i eksploracji danych w 2013 roku, pod tytułem licencje dla Europy. Skupienie się na rozwiązaniu tego problemu prawnego, takim jak licencjonowanie, a nie ograniczenia i wyjątki, skłoniło przedstawicieli uniwersytetów, naukowców, bibliotek, grup społeczeństwa obywatelskiego i wydawców z otwartym dostępem do opuszczenia dialogu z zainteresowanymi stronami w maju 2013 r.

Sytuacja w Stanach Zjednoczonych

Amerykańskie prawo autorskie , a w szczególności jego postanowienie dotyczące dozwolonego użytku , podtrzymuje legalność eksploracji treści w Ameryce i innych krajach dozwolonego użytku, takich jak Izrael, Tajwan i Korea Południowa. Ponieważ eksploracja treści ma charakter transformacyjny, tj. nie zastępuje oryginalnej pracy, jest postrzegana jako legalna w ramach dozwolonego użytku. Na przykład w ramach ugody w sprawie Google Book przewodniczący w tej sprawie orzekł, że projekt digitalizacji książek chronionych prawem autorskim Google był zgodny z prawem, po części ze względu na transformacyjne zastosowania, jakie prezentował projekt digitalizacji – jednym z nich jest eksploracja tekstów i danych.

Oprogramowanie

Bezpłatne oprogramowanie i aplikacje do eksploracji danych typu open source

Następujące aplikacje są dostępne na licencjach wolnych/open-source. Dostępny jest również publiczny dostęp do kodu źródłowego aplikacji.

Zastrzeżone oprogramowanie i aplikacje do eksploracji danych

Następujące aplikacje są dostępne na licencjach własnościowych.

  • Angoss KnowledgeSTUDIO: narzędzie do eksploracji danych
  • LIONsolver : zintegrowana aplikacja do eksploracji danych, analizy biznesowej i modelowania, która implementuje podejście Learning and Intelligent OptimizatioN (LION).
  • Megaputer Intelligence: oprogramowanie do eksploracji danych i tekstu nazywa się PolyAnalyst .
  • Microsoft Analysis Services : oprogramowanie do eksploracji danych dostarczane przez firmę Microsoft .
  • NetOwl : zestaw wielojęzycznych produktów do analizy tekstu i jednostek, które umożliwiają eksplorację danych.
  • Oracle Data Mining : oprogramowanie do eksploracji danych firmy Oracle Corporation .
  • PSeven : platforma do automatyzacji symulacji i analiz inżynierskich, multidyscyplinarnej optymalizacji i eksploracji danych dostarczana przez DATADVANCE .
  • Qlucore Omics Explorer: oprogramowanie do eksploracji danych.
  • RapidMiner : Środowisko do eksperymentów z uczeniem maszynowym i eksploracją danych.
  • SAS Enterprise Miner : oprogramowanie do eksploracji danych dostarczone przez SAS Institute .
  • SPSS Modeler : oprogramowanie do eksploracji danych dostarczane przez IBM .
  • STATISTICA Data Miner: oprogramowanie do eksploracji danych dostarczane przez StatSoft .
  • Tanagra : Oprogramowanie do eksploracji danych zorientowane na wizualizację, również do nauczania.
  • Vertica : oprogramowanie do eksploracji danych dostarczane przez firmę Hewlett-Packard .
  • Google Cloud Platform : zautomatyzowane niestandardowe modele ML zarządzane przez Google .
  • Amazon SageMaker : zarządzana usługa dostarczana przez Amazon do tworzenia i produkcji niestandardowych modeli ML.

Zobacz też

Metody
Domeny aplikacji
Przykłady aplikacji
powiązane tematy

Aby uzyskać więcej informacji o wyodrębnianiu informacji z danych (w przeciwieństwie do analizowania danych) zobacz:

Inne zasoby

Bibliografia

Dalsza lektura

Zewnętrzne linki