Przykłady eksploracji danych - Examples of data mining

Data mining , czyli proces odkrywania wzorców w dużych zbiorach danych , znalazł zastosowanie w wielu aplikacjach.

Gry

Od wczesnych lat sześćdziesiątych, wraz z dostępnością wyroczni dla niektórych gier kombinatorycznych , zwanych również podstawami stołowymi (np. dla szachów 3x3) z dowolną konfiguracją początkową, kropkami i polami na małej planszy, heksami na małej planszy i niektórymi końcówkami w szachach , kropki-i-kwadraciki i szesnastkę; otwarty został nowy obszar do eksploracji danych. To jest wydobycie z tych wyroczni strategii, które mogą być użyteczne dla człowieka. Obecne podejścia do rozpoznawania wzorców nie wydają się w pełni osiągać wysokiego poziomu abstrakcji wymaganego do pomyślnego zastosowania. Zamiast tego, szeroko zakrojone eksperymenty z bazami tabel – w połączeniu z intensywnym badaniem odpowiedzi na podstawie tabel na dobrze zaprojektowane problemy oraz ze znajomością stanu techniki (tj. wiedza sprzed baz tabel) – są wykorzystywane do uzyskania wnikliwych wzorców. Berlekamp (w kropkach-i-kwadratach itp.) i John Nunn (w szachowych końcówkach ) są godnymi uwagi przykładami badaczy wykonujących tę pracę, chociaż nie byli – i nie są – zaangażowani w generowanie tabeli.

Biznes

W biznesie data mining to analiza historycznych działań biznesowych, przechowywanych jako dane statyczne w bazach hurtowni danych. Celem jest odkrycie ukrytych wzorów i trendów. Oprogramowanie do eksploracji danych wykorzystuje zaawansowane algorytmy rozpoznawania wzorców do przesiewania dużych ilości danych, aby pomóc w odkryciu wcześniej nieznanych strategicznych informacji biznesowych. Przykładami tego, do czego firmy wykorzystują eksplorację danych, jest przeprowadzanie analizy rynku w celu zidentyfikowania nowych pakietów produktów, znalezienie pierwotnej przyczyny problemów produkcyjnych, zapobieganie utracie klientów i pozyskiwanie nowych klientów, sprzedaż krzyżowa do istniejących klientów i dokładniejsze profilowanie klientów .

W dzisiejszym świecie firmy gromadzą surowe dane w błyskawicznym tempie. Na przykład Walmart codziennie przetwarza ponad 20 milionów transakcji w punktach sprzedaży. Informacje te są przechowywane w scentralizowanej bazie danych, ale byłyby bezużyteczne bez oprogramowania do eksploracji danych do ich analizy. Gdyby Walmart przeanalizował swoje dane z punktów sprzedaży za pomocą technik eksploracji danych, byłby w stanie określić trendy sprzedaży, opracować kampanie marketingowe i dokładniej przewidywać lojalność klientów.
Kategoryzacja produktów dostępnych w serwisie e-commerce to podstawowy problem. Prawidłowy system kategoryzacji przedmiotów jest niezbędny dla wygody użytkownika, ponieważ pomaga określić elementy, które są dla niego istotne podczas wyszukiwania i przeglądania. Kategoryzacja pozycji może być sformułowana jako nadzorowany problem klasyfikacji w eksploracji danych, gdzie kategorie są klasami docelowymi, a cechy są słowami składającymi się na tekstowy opis pozycji. Jednym z podejść jest znalezienie początkowo podobnych grup i umieszczenie ich razem w grupie utajonej. Mając teraz nową pozycję, najpierw zaklasyfikuj ją do ukrytej grupy, która nazywa się klasyfikacją zgrubnego poziomu. Następnie wykonaj drugą rundę klasyfikacji, aby znaleźć kategorię, do której należy przedmiot.
Za każdym razem, gdy używana jest karta kredytowa, sklepowa karta lojalnościowa lub wypełniana jest karta gwarancyjna, gromadzone są dane o zachowaniu użytkownika. Wiele osób uważa, że ilość informacji przechowywanych o nas od firm, takich jak Google, Facebook i Amazon, jest niepokojąca i martwi się o prywatność. Chociaż istnieje możliwość, że nasze dane osobowe mogą być wykorzystywane w szkodliwy lub niechciany sposób, są one również wykorzystywane do ulepszania naszego życia. Na przykład, Ford i Audi mają nadzieję, że pewnego dnia zbierzą informacje o wzorcach jazdy klientów, aby mogli polecać bezpieczniejsze trasy i ostrzegać kierowców o niebezpiecznych warunkach na drogach.
Eksploracja danych w aplikacjach do zarządzania relacjami z klientami może znacząco przyczynić się do osiągnięcia wyniku finansowego. Zamiast losowo kontaktować się z potencjalnym lub klientem przez call center lub wysyłać pocztę, firma może skoncentrować swoje wysiłki na potencjalnych klientach, co do których przewiduje się, że mają duże prawdopodobieństwo odpowiedzi na ofertę. Bardziej wyrafinowane metody można wykorzystać do optymalizacji zasobów w kampaniach, tak aby można było przewidzieć, na który kanał i na jaką ofertę dana osoba zareaguje z największym prawdopodobieństwem (we wszystkich potencjalnych ofertach). Dodatkowo, zaawansowane aplikacje mogą być używane do automatyzacji wysyłania poczty. Po ustaleniu wyników eksploracji danych (potencjalnego klienta/potencjalnego klienta i kanału/oferty), ta „wyrafinowana aplikacja” może automatycznie wysłać wiadomość e-mail lub zwykłą pocztę. Wreszcie, w przypadkach, gdy wiele osób podejmie działanie bez oferty, „ modelowanie wzrostu” może być wykorzystane do określenia, które osoby mają największy wzrost odpowiedzi, jeśli otrzymają ofertę. Dzięki temu modelowanie uplift umożliwia marketerom skoncentrowanie wysyłek i ofert na przekonujących ludziach, a nie wysyłanie ofert do osób, które kupią produkt bez oferty. Grupowanie danych można również wykorzystać do automatycznego wykrywania segmentów lub grup w zestawie danych klienta.
Firmy stosujące eksplorację danych mogą zauważyć zwrot z inwestycji, ale zdają sobie również sprawę, że liczba modeli predykcyjnych może szybko stać się bardzo duża. Na przykład zamiast używać jednego modelu do przewidywania liczby klientów odchodzących , firma może zdecydować się na utworzenie oddzielnego modelu dla każdego regionu i typu klienta. W sytuacjach, w których trzeba utrzymać dużą liczbę modeli, niektóre firmy zwracają się ku bardziej zautomatyzowanym metodom eksploracji danych.
Eksploracja danych może być pomocna dla działów zasobów ludzkich (HR) w identyfikowaniu cech ich pracowników, którzy odnoszą największe sukcesy. Uzyskane informacje – takie jak uczelnie, w których pracują odnoszący sukcesy pracownicy – mogą pomóc działowi HR odpowiednio skoncentrować wysiłki rekrutacyjne. Ponadto aplikacje do strategicznego zarządzania przedsiębiorstwem pomagają firmie przełożyć cele na poziomie korporacyjnym, takie jak docelowe zyski i udziały w marży, na decyzje operacyjne, takie jak plany produkcyjne i poziomy zatrudnienia.
Analiza koszyka rynkowego została wykorzystana do zidentyfikowania wzorców zakupowych Alpha Consumer . Analiza danych zebranych na temat tego typu użytkowników umożliwiła firmom przewidywanie przyszłych trendów zakupowych i prognozowanie zapotrzebowania na dostawy.
Eksploracja danych to bardzo skuteczne narzędzie w branży marketingu katalogów. Katalogi mają bogatą bazę historii transakcji swoich klientów dla milionów klientów sprzed wielu lat. Narzędzia do eksploracji danych mogą identyfikować wzorce wśród klientów i pomagać w identyfikacji klientów, którzy z największym prawdopodobieństwem zareagują na nadchodzące kampanie mailingowe.
Eksplorację danych dla aplikacji biznesowych można zintegrować ze złożonym procesem modelowania i podejmowania decyzji. LIONsolver wykorzystuje reaktywną inteligencję biznesową (RBI) do propagowania „holistycznego” podejścia, które integruje eksplorację danych, modelowanie i interaktywną wizualizację z kompleksowym procesem odkrywania i ciągłym innowacyjnym opartym na ludzkim i zautomatyzowanym uczeniu się.
W obszarze podejmowania decyzji podejście RBI zostało wykorzystane do wydobywania wiedzy, która jest stopniowo zdobywana od decydenta, a następnie do odpowiedniego dostrajania metody podejmowania decyzji. Zależność między jakością systemu eksploracji danych a wielkością inwestycji, jaką decydent jest skłonny ponieść, została sformalizowana poprzez przedstawienie ekonomicznej perspektywy wartości „wydobytej wiedzy” w kontekście jej korzyści dla organizacji. Ramy klasyfikacji zastosowano do rzeczywistej linii produkcyjnej płytek półprzewodnikowych, gdzie opracowano reguły decyzyjne do skutecznego monitorowania i kontrolowania linii produkcyjnej płytek półprzewodnikowych.
Przykład eksploracji danych związanych z linią produkcyjną układów scalonych (IC) opisano w artykule „Mining IC Test Data to Optimize VLSI Testing”. W artykule opisano zastosowanie eksploracji danych i analizy decyzji do problemu testowania funkcjonalnego na poziomie matrycy. Wspomniane eksperymenty demonstrują możliwość zastosowania systemu eksploracji historycznych danych z testów matryc do stworzenia modelu probabilistycznego wzorców awarii matrycy. Te wzorce są następnie wykorzystywane do decydowania w czasie rzeczywistym, które z nich zostaną przetestowane jako następne i kiedy przestać testować. Wykazano, na podstawie eksperymentów z historycznymi danymi testowymi, że system ten może zwiększyć zyski z dojrzałych produktów IC. Inne przykłady zastosowania metodologii eksploracji danych w środowiskach produkcji półprzewodników sugerują, że metodologie eksploracji danych mogą być szczególnie przydatne, gdy danych jest niewiele, a różne parametry fizyczne i chemiczne, które wpływają na proces, wykazują wysoce złożone interakcje. Inną implikacją jest to, że monitorowanie on-line procesu produkcji półprzewodników przy użyciu eksploracji danych może być bardzo skuteczne.

Nauka i inżynieria

W ostatnich latach eksploracja danych znalazła szerokie zastosowanie w dziedzinach nauki i inżynierii, takich jak bioinformatyka , genetyka , medycyna , edukacja i elektroenergetyka .

W badaniach nad genetyką człowieka eksploracja sekwencji pomaga w realizacji ważnego celu, jakim jest zrozumienie zależności mapowania między zmiennością międzyosobniczą w sekwencji ludzkiego DNA a zmiennością podatności na choroby. Mówiąc prościej, ma on na celu ustalenie, w jaki sposób zmiany w sekwencji DNA danej osoby wpływają na ryzyko rozwoju powszechnych chorób, takich jak nowotwory , co ma ogromne znaczenie dla doskonalenia metod diagnozowania, zapobiegania i leczenia tych chorób. Jedną z metod eksploracji danych, która jest wykorzystywana do wykonania tego zadania, jest wieloczynnikowa redukcja wymiarowości .
W obszarze elektroenergetyki metody eksploracji danych są szeroko stosowane do monitorowania stanu urządzeń elektrycznych wysokiego napięcia. Celem monitorowania stanu jest uzyskanie cennych informacji, na przykład o stanie izolacji (lub innych ważnych parametrów związanych z bezpieczeństwem). Techniki grupowania danych — takie jak mapa samoorganizująca się (SOM) — zastosowano do monitorowania drgań i analizy przełączników zaczepów pod obciążeniem transformatora (OLTCS). Korzystając z monitorowania drgań, można zaobserwować, że każda operacja zmiany zaczepów generuje sygnał, który zawiera informacje o stanie styków przełącznika zaczepów i mechanizmach napędowych. Oczywiście różne pozycje kranu będą generować różne sygnały. Jednak istniała znaczna zmienność pomiędzy sygnałami normalnego stanu dla dokładnie tej samej pozycji zaczepu. SOM zastosowano do wykrywania nienormalnych stanów i postawienia hipotezy o naturze nieprawidłowości.
Metody eksploracji danych zostały zastosowane do analizy gazów rozpuszczonych (DGA) w transformatorach elektroenergetycznych . DGA jako diagnostyka transformatorów mocy jest dostępna od wielu lat. Metody takie jak SOM zostały zastosowane do analizy wygenerowanych danych i określenia trendów, które nie są oczywiste dla standardowych metod współczynnika DGA (takich jak Duval Triangle).
W badaniach edukacyjnych, gdzie eksploracja danych została wykorzystana do zbadania czynników, które skłaniają studentów do podejmowania zachowań, które ograniczają ich uczenie się, oraz do zrozumienia czynników wpływających na retencję studentów. Podobnym przykładem społecznego zastosowania eksploracji danych jest jej wykorzystanie w systemach wyszukiwania wiedzy eksperckiej , w których deskryptory ludzkiej wiedzy eksperckiej są wyodrębniane, normalizowane i klasyfikowane w celu ułatwienia znajdowania ekspertów, w szczególności w dziedzinach naukowych i technicznych. W ten sposób eksploracja danych może ułatwić pamięć instytucjonalną .
Metody eksploracji danych biomedycznych wspomagane przez ontologie domenowe , eksplorację danych z badań klinicznych i analizę ruchu za pomocą SOM.
W ramach nadzoru nad działaniami niepożądanymi leków Centrum Monitorowania w Uppsali od 1998 r. stosuje metody eksploracji danych w celu rutynowego sprawdzania wzorców zgłaszania wskazujących na pojawiające się problemy związane z bezpieczeństwem leków w globalnej bazie danych WHO zawierającej 4,6 mln podejrzewanych działań niepożądanych leków . Ostatnio podobna metodologia została opracowana w celu przeszukiwania dużych zbiorów elektronicznych kart zdrowia pod kątem wzorców czasowych łączących przepisywanie leków z diagnozami medycznymi.
Eksploracja danych została zastosowana do artefaktów oprogramowania w sferze inżynierii oprogramowania : Mining Software Repositories .
W dziedzinie mikrobiologii zastosowano metody eksploracji danych do przewidywania zachowania populacji bakterii w żywności.

Prawa człowieka

Eksploracja danych z rejestrów rządowych – w szczególności rejestrów wymiaru sprawiedliwości (tj. sądów, więzień) – umożliwia wykrywanie systemowych naruszeń praw człowieka w związku z generowaniem i publikowaniem nieważnych lub fałszywych rejestrów prawnych przez różne agencje rządowe.

Eksploracja danych medycznych

Niektóre algorytmy uczenia maszynowego mogą być stosowane w medycynie jako narzędzia diagnostyczne drugiego zdania oraz jako narzędzia w fazie ekstrakcji wiedzy w procesie odkrywania wiedzy w bazach danych . Jeden z tych klasyfikatorów (tzw. Prototype exemplar learning classifier ( PEL-C ) jest w stanie wykryć zarówno syndromy, jak i nietypowe przypadki kliniczne.

Aktualną dziedziną medycyny, która wykorzystuje proces eksploracji danych, jest Metabolomika , która polega na badaniu i badaniu cząsteczek biologicznych oraz scharakteryzowaniu ich interakcji z płynami ustrojowymi, komórkami, tkankami itp. Metabolomika to temat bardzo obfitujący w dane i często wymaga przesiewania ogromnych ilości nieistotnych danych przed znalezieniem jakichkolwiek wniosków. Eksploracja danych umożliwiła znaczny rozwój tej stosunkowo nowej dziedziny badań medycznych w ciągu ostatniej dekady i prawdopodobnie będzie metodą, dzięki której można znaleźć nowe badania w tym temacie.

W 2011 roku w sprawie Sorrell przeciwko IMS Health, Inc. , wydanej przez Sąd Najwyższy Stanów Zjednoczonych , apteki mogą udostępniać informacje firmom zewnętrznym. Praktyka ta została dozwolona na mocy 1. Poprawki do Konstytucji , chroniącej „wolność słowa”. Jednak uchwalenie ustawy o technologii informacyjnej w zakresie zdrowia ekonomicznego i klinicznego (ustawa HITECH) pomogło zainicjować przyjęcie elektronicznej dokumentacji medycznej (EHR) i wspierającej ją technologii w Stanach Zjednoczonych. Ustawa HITECH została podpisana 17 lutego 2009 r. jako część Amerykańskiej Ustawy o Odzyskiwaniu i Reinwestycji (ARRA) i pomogła otworzyć drzwi do eksploracji danych medycznych. Szacuje się, że przed podpisaniem tej ustawy tylko 20% lekarzy w Stanach Zjednoczonych korzystało z elektronicznej dokumentacji pacjentów. Søren Brunak zauważa, że „kartoteka pacjenta staje się tak bogata w informacje, jak to tylko możliwe”, a tym samym „maksymalizuje możliwości eksploracji danych”. W związku z tym elektroniczne rekordy pacjentów jeszcze bardziej rozszerzają możliwości eksploracji danych medycznych, otwierając tym samym drzwi do ogromnego źródła analizy danych medycznych.

Eksploracja danych przestrzennych

Przestrzenne eksploracja danych to zastosowanie metod eksploracji danych do danych przestrzennych. Ostatecznym celem eksploracji danych przestrzennych jest znalezienie wzorców danych w odniesieniu do geografii. Do tej pory eksploracja danych i systemy informacji geograficznej (GIS) istniały jako dwie oddzielne technologie, każda z własnymi metodami, tradycjami i podejściami do wizualizacji i analizy danych. W szczególności większość współczesnych GIS ma tylko bardzo podstawowe funkcje analizy przestrzennej. Ogromna eksplozja danych z odniesieniami geograficznymi spowodowana rozwojem informatyki, mapowaniem cyfrowym, teledetekcją i globalną dyfuzją GIS podkreśla znaczenie opracowania opartych na danych indukcyjnych podejść do analizy i modelowania geograficznego.

Eksploracja danych oferuje ogromne potencjalne korzyści dla stosowanego procesu decyzyjnego opartego na GIS. W ostatnim czasie zadanie integracji tych dwóch technologii nabrało krytycznego znaczenia, zwłaszcza że różne organizacje sektora publicznego i prywatnego dysponujące ogromnymi bazami danych z danymi tematycznymi i geograficznymi zaczynają zdawać sobie sprawę z ogromnego potencjału zawartych w nich informacji. Wśród tych organizacji są:

Urzędy wymagające analizy lub rozpowszechniania georeferencyjnych danych statystycznych
Służby zdrowia publicznego poszukujące wyjaśnień grupowania chorób
Agencje środowiskowe oceniające wpływ zmieniających się wzorców użytkowania gruntów na zmiany klimatu
Firmy geomarketingowe dokonujące segmentacji klientów w oparciu o lokalizację przestrzenną.

Wyzwania w górnictwie przestrzennym: Repozytoria danych geoprzestrzennych są zwykle bardzo duże. Co więcej, istniejące zbiory danych GIS są często dzielone na komponenty cech i atrybutów, które są zwykle archiwizowane w hybrydowych systemach zarządzania danymi. Wymagania algorytmiczne różnią się znacznie w przypadku zarządzania danymi relacyjnymi (atrybutowymi) oraz zarządzania danymi topologicznymi (cechowymi). Wiąże się z tym zakres i różnorodność formatów danych geograficznych, które stanowią wyjątkowe wyzwania. Rewolucja w zakresie cyfrowych danych geograficznych polega na tworzeniu nowych typów formatów danych wykraczających poza tradycyjne formaty „wektorowe” i „rastrowe”. Repozytoria danych geograficznych coraz częściej zawierają dane o złej strukturze, takie jak obrazy i multimedia z odniesieniem geograficznym.

Istnieje kilka krytycznych wyzwań badawczych związanych z odkrywaniem wiedzy geograficznej i eksploracją danych. Miller i Han oferują następującą listę pojawiających się tematów badawczych w tej dziedzinie:

Rozwijanie i wspieranie geograficzne hurtowni danych (GDW'S) : Właściwości przestrzenne są często zredukowane do prostych aspatial atrybutów w hurtowni danych głównego nurtu. Stworzenie zintegrowanego GDW wymaga rozwiązania kwestii interoperacyjności danych przestrzennych i czasowych – w tym różnic w semantyce, systemach odniesienia, geometrii, dokładności i położeniu.
Lepsze reprezentacje przestrzenno-czasowe w odkrywaniu wiedzy geograficznej : Obecne metody odkrywania wiedzy geograficznej (GKD) zazwyczaj wykorzystują bardzo proste reprezentacje obiektów geograficznych i relacji przestrzennych. Metody eksploracji danych geograficznych powinny rozpoznawać bardziej złożone obiekty geograficzne (tj. linie i wielokąty) oraz zależności (tj. odległości nieeuklidesowe, kierunek, łączność i interakcję poprzez przypisaną przestrzeń geograficzną, taką jak teren). Ponadto wymiar czasu musi być w pełni zintegrowany z tymi reprezentacjami i relacjami geograficznymi.
Odkrywanie wiedzy geograficznej przy użyciu różnych typów danych : należy opracować metody GKD, które mogą obsługiwać różne typy danych poza tradycyjnymi modelami rastrowymi i wektorowymi, w tym obrazy i multimedia georeferencyjne, a także dynamiczne typy danych (strumienie wideo, animacje).

Eksploracja danych czasowych

Dane mogą zawierać atrybuty generowane i rejestrowane w różnym czasie. W takim przypadku znalezienie znaczących relacji w danych może wymagać rozważenia kolejności czasowej atrybutów. Relacja czasowa może wskazywać na związek przyczynowy lub po prostu związek.

Eksploracja danych z czujników

Sieci czujników bezprzewodowych mogą być wykorzystywane do ułatwiania gromadzenia danych do eksploracji danych przestrzennych do różnych zastosowań, takich jak monitorowanie zanieczyszczenia powietrza. Cechą charakterystyczną takich sieci jest to, że pobliskie węzły czujnikowe monitorujące cechę środowiskową zazwyczaj rejestrują podobne wartości. Ten rodzaj nadmiarowości danych ze względu na przestrzenną korelację między obserwacjami czujnika inspiruje techniki agregacji i eksploracji danych w sieci. Mierząc korelację przestrzenną między danymi próbkowanymi przez różne czujniki, można opracować szeroką klasę wyspecjalizowanych algorytmów w celu opracowania bardziej wydajnych algorytmów eksploracji danych przestrzennych.

Wizualna eksploracja danych

W procesie przechodzenia z analogowego na cyfrowe, generowano, gromadzono i przechowywano duże zbiory danych, odkrywając wzorce statystyczne, trendy i informacje ukryte w danych w celu zbudowania wzorców predykcyjnych. Badania sugerują, że eksploracja danych wizualnych jest szybsza i znacznie bardziej intuicyjna niż tradycyjna eksploracja danych. Zobacz także Widzenie komputerowe .

Eksploracja danych muzycznych

Techniki eksploracji danych, a w szczególności analiza współwystępowania , zostały wykorzystane do odkrycia istotnych podobieństw między korpusami muzycznymi (listy radiowe, bazy danych CD) w celach obejmujących klasyfikację muzyki według gatunków w bardziej obiektywny sposób.

Nadzór

Eksploracja danych została wykorzystana przez rząd USA. Programy obejmują program Total Information Awareness (TIA), Secure Flight (wcześniej znany jako Computer-Assisted Passenger Prescreening System ( CAPS II )), analizę, rozpowszechnianie, wizualizację, wgląd, wzmocnienie semantyczne ( ADVISE ) oraz wielostanową ochronę Wymiana informacji o terroryzmie ( MATRIX ). Programy te zostały przerwane z powodu kontrowersji dotyczących tego, czy naruszają one czwartą poprawkę do konstytucji Stanów Zjednoczonych, chociaż wiele programów, które powstały w ich ramach, nadal jest finansowanych przez różne organizacje lub pod różnymi nazwami.

W kontekście zwalczania terroryzmu dwie szczególnie wiarygodne metody eksploracji danych to „eksploracja wzorców” i „eksploracja danych na podstawie tematu”.

Wydobywanie wzorów

„Wyszukiwanie wzorców” to metoda eksploracji danych, która polega na znajdowaniu istniejących wzorców w danych. W tym kontekście wzorce często oznaczają reguły asocjacyjne . Pierwotna motywacja do wyszukiwania reguł skojarzeń wynikała z chęci analizy danych transakcyjnych supermarketów, czyli zbadania zachowań klientów w zakresie kupowanych produktów. Na przykład zasada stowarzyszenia „piwo ⇒ chipsy ziemniaczane (80%)” stanowi, że czterech na pięciu klientów, którzy kupili piwo, kupiło również chipsy ziemniaczane.

W kontekście eksploracji wzorców jako narzędzia do identyfikacji działalności terrorystycznej National Research Council podaje następującą definicję: „Eksploracja danych oparta na wzorcach poszukuje wzorców (w tym anomalnych wzorców danych), które mogą być powiązane z działalnością terrorystyczną — wzorce te mogą być uważane za małe sygnały w wielkim oceanie szumu”. Pattern Mining obejmuje nowe obszary, takie jak Music Information Retrieval (MIR), gdzie wzorce widoczne zarówno w domenie temporalnej, jak i nietemporalnej są importowane do klasycznych metod wyszukiwania wiedzy.

Eksploracja danych tematycznych

„Subject-based data mining” to metoda eksploracji danych polegająca na poszukiwaniu powiązań między osobami w danych. W kontekście zwalczania terroryzmu National Research Council podaje następującą definicję: „Eksploracja danych oparta na podmiotach wykorzystuje inicjującą osobę lub inne dane, które na podstawie innych informacji są uważane za wysoce interesujące, a celem jest określenie jakie inne osoby lub transakcje lub ruchy finansowe itp. są powiązane z daną inicjującą."

Siatka wiedzy

Odkrywanie wiedzy „On the Grid” ogólnie odnosi się do przeprowadzania odkrywania wiedzy w otwartym środowisku przy użyciu koncepcji obliczeń siatkowych , co pozwala użytkownikom integrować dane z różnych źródeł danych online, a także korzystać ze zdalnych zasobów w celu wykonywania zadań eksploracji danych. Najwcześniejszym przykładem był Discovery Net , opracowany w Imperial College London , który zdobył nagrodę "Most Innovative Data-Intensive Application Award" na konferencji i wystawie ACM SC02 (Supercomputing 2002), w oparciu o demonstrację w pełni interaktywnej aplikacji do odkrywania rozproszonej wiedzy do zastosowań bioinformatycznych. Inne przykłady obejmują prace prowadzone przez naukowców z University of Calabria , którzy opracowali architekturę Knowledge Grid do rozproszonego odkrywania wiedzy, opartą na obliczeniach siatkowych .

Bibliografia

Zewnętrzne linki

Wikipedia:Wyszukiwanie danych Wikipedia

Languages

In other projects