Łączenie jednostek — Entity linking

W przetwarzania języka naturalnego , podmiot łączenia , określany również jako nazwanego jednostka łącząca (NEL), nazwanego jednostka ujednoznacznienie (NED), nazwanego jednostka uznanie i ujednoznacznienie (NERD) lub nazwanego jednostka normalizacja (NEN) jest zadaniem przypisywania unikalną tożsamość podmiotów (takich jak znane osoby, lokalizacje lub firmy) wymienionych w tekście. Na przykład, biorąc pod uwagę zdanie „Paryż jest stolicą Francji” , pomysł polega na określeniu, że „Paryż” odnosi się do miasta Paryż, a nie do Paris Hilton lub jakiegokolwiek innego podmiotu, który można by określić jako „Paryż” . Łączenie encji różni się od rozpoznawania encji nazwanego (NER) tym, że NER identyfikuje wystąpienie nazwanego encji w tekście, ale nie identyfikuje, która konkretna encja to jest (patrz Różnice w stosunku do innych technik ).

W łączeniu jednostek każda nazwana jednostka jest połączona z unikalnym identyfikatorem. Często ten identyfikator odpowiada stronie Wikipedii.

Wstęp

W łączeniu encji słowa zainteresowania (nazwiska osób, lokalizacje i firmy) są mapowane z tekstu wejściowego do odpowiednich unikalnych encji w docelowej bazie wiedzy . Słowa zainteresowania nazywane są nazwanymi jednostkami (NE), wzmiankami lub formami powierzchniowymi. Docelowa baza wiedzy zależy od zamierzonej aplikacji, ale w przypadku systemów łączenia jednostek przeznaczonych do pracy z tekstem w otwartej domenie powszechnie używa się baz wiedzy pochodzących z Wikipedii (takich jak Wikidata lub DBpedia ). W takim przypadku każda strona Wikipedii jest traktowana jako osobna jednostka. Techniki łączenia encji, które mapują nazwane encje na encje Wikipedii, są również nazywane wikifikacją .

Rozpatrując ponownie przykładowe zdanie „Paryż jest stolicą Francji” oczekiwaną wydajnością systemu łączącego podmioty będą Paryż i Francja . Te jednolite lokalizatory zasobów (URL) mogą być używane jako unikalne jednolite identyfikatory zasobów (URI) dla jednostek w bazie wiedzy. Korzystanie z innej bazy wiedzy zwróci różne identyfikatory URI, ale w przypadku baz wiedzy zbudowanych na podstawie Wikipedii istnieją mapowania URI typu jeden do jednego.

W większości przypadków bazy wiedzy są tworzone ręcznie, ale w aplikacjach, w których dostępne są duże korpusy tekstowe , bazę wiedzy można wywnioskować automatycznie z dostępnego tekstu .

Łączenie jednostek jest kluczowym krokiem do połączenia danych internetowych z bazami wiedzy, co jest korzystne dla adnotacji ogromnej ilości surowych i często zaszumionych danych w sieci i przyczynia się do wizji sieci semantycznej . Oprócz łączenia encji istnieją inne krytyczne kroki, w tym między innymi wyodrębnianie zdarzeń i łączenie zdarzeń itp.

Aplikacje

Łączenie encji jest korzystne w dziedzinach, które muszą wydobyć abstrakcyjne reprezentacje z tekstu, tak jak ma to miejsce w analizie tekstu, systemach rekomendujących , wyszukiwaniu semantycznym i chatbotach. We wszystkich tych polach pojęcia istotne dla aplikacji są oddzielone od tekstu i innych nieistotnych danych.

Na przykład częstym zadaniem wykonywanym przez wyszukiwarki jest znalezienie dokumentów, które są podobne do podanego jako dane wejściowe lub znalezienie dodatkowych informacji o osobach, które są w nim wymienione. Rozważ zdanie zawierające wyrażenie „stolica Francji” : bez linkowania podmiotu wyszukiwarka, która przegląda treść dokumentów, nie byłaby w stanie bezpośrednio pobrać dokumentów zawierających słowo „Paryż” , co prowadzi do tak zwanych fałszywych negatywów (FN). Co gorsza, wyszukiwarka może generować fałszywe dopasowania (lub fałszywe alarmy (FP)), takie jak pobieranie dokumentów odnoszących się do „Francji” jako kraju.

Istnieje wiele podejść ortogonalnych do łączenia encji w celu pobrania dokumentów podobnych do dokumentu wejściowego. Na przykład utajona analiza semantyczna (LSA) lub porównywanie osadzonych dokumentów uzyskanych za pomocą doc2vec . Jednak te techniki nie pozwalają na taką samą precyzyjną kontrolę, jaka jest oferowana przez łączenie jednostek, ponieważ zwrócą one inne dokumenty zamiast tworzyć reprezentacje wysokiego poziomu oryginału. Na przykład, uzyskanie schematycznych informacji o "Paryżu" , jakie prezentują infoboks Wikipedii byłoby znacznie mniej proste, a czasem wręcz niemożliwe, w zależności od złożoności zapytania.

Co więcej, łączenie encji zostało wykorzystane do poprawy wydajności systemów wyszukiwania informacji i poprawy wydajności wyszukiwania w bibliotekach cyfrowych. Łączenie jednostek jest również kluczowym elementem wyszukiwania semantycznego .

Wyzwania w łączeniu encji

System łączenia jednostek musi poradzić sobie z wieloma wyzwaniami, zanim będzie działał w rzeczywistych aplikacjach. Niektóre z tych problemów, takie jak niejednoznaczność tekstu, są nierozerwalnie związane z zadaniem łączenia encji, podczas gdy inne, takie jak skalowalność i czas wykonania, stają się istotne przy rozważaniu rzeczywistego użycia takich systemów.

Wariacje nazw : ta sama jednostka może pojawić się z reprezentacjami tekstowymi. Źródła tych odmian obejmują skróty ( New York , NY ), aliasy ( New York , Big Apple ) lub odmiany pisowni i błędy ( New yokr ).
Niejednoznaczność : ta sama wzmianka może często odnosić się do wielu różnych jednostek, w zależności od kontekstu, ponieważ wiele nazw jednostek ma tendencję do wieloznaczności (tj. ma wiele znaczeń). Słowo Paryż może między innymi odnosić się do stolicy Francji lub do Paris Hilton . W niektórych przypadkach (np. w stolicy Francji ) nie ma podobieństwa tekstowego między tekstem wzmianki a rzeczywistą jednostką docelową ( Paryż ).
Brak : czasami niektóre nazwane encje mogą nie mieć prawidłowego łącza encji w docelowej bazie wiedzy. Może się to zdarzyć, gdy mamy do czynienia z bardzo specyficznymi lub nietypowymi podmiotami lub podczas przetwarzania dokumentów dotyczących niedawnych wydarzeń, w których mogą znajdować się wzmianki o osobach lub zdarzeniach, które nie mają jeszcze odpowiadającej jednostki w bazie wiedzy. Inną częstą sytuacją, w której brakuje jednostek, jest korzystanie z baz wiedzy specyficznych dla domeny (na przykład bazy wiedzy o biologii lub bazy danych filmów). We wszystkich tych przypadkach system łączenia encji powinien zwrócić NILlink encji. Zrozumienie, kiedy zwrócić NILprognozę nie jest proste i zaproponowano wiele różnych podejść; na przykład przez progowanie pewnego rodzaju wyniku zaufania w systemie łączenia encji lub przez dodanie dodatkowej NILencji do bazy wiedzy, która jest traktowana w taki sam sposób jak inne encje. Co więcej, w niektórych przypadkach podanie błędnej, ale powiązanej prognozy linku podmiotu może być lepsze niż brak jakiegokolwiek wyniku z punktu widzenia użytkownika końcowego.
Skalowalność i szybkość : pożądane jest, aby system łączący jednostki przemysłowe zapewniał wyniki w rozsądnym czasie, często w czasie rzeczywistym. Wymóg ten ma kluczowe znaczenie dla wyszukiwarek, chat-botów i systemów łączących podmioty, oferowanych przez platformy analizy danych. Zapewnienie krótkiego czasu wykonania może stanowić wyzwanie w przypadku korzystania z dużych baz wiedzy lub przetwarzania dużych dokumentów. Na przykład Wikipedia zawiera prawie 9 milionów podmiotów i ponad 170 milionów relacji między nimi.
Ewoluujące informacje : system łączenia podmiotów powinien również zajmować się ewoluującymi informacjami i łatwo integrować aktualizacje w bazie wiedzy. Problem ewoluowania informacji jest czasem związany z problemem brakujących encji, np. podczas przetwarzania ostatnich artykułów prasowych, w których pojawiają się wzmianki o zdarzeniach, które nie mają odpowiedniego wpisu w bazie wiedzy ze względu na ich nowość.
Wiele języków : system łączenia jednostek może obsługiwać zapytania wykonywane w wielu językach. W idealnym przypadku język wprowadzania nie powinien wpływać na dokładność systemu łączenia encji, a encje w bazie wiedzy powinny być takie same w różnych językach.

Różnice w stosunku do innych technik

Łączenie jednostek jest również znane jako ujednoznacznienie nazwanych jednostek (NED) i jest głęboko powiązane z wikifikacją i łączeniem rekordów . Definicje są często niejasne i różnią się nieznacznie między różnymi autorami: Alhelbawy et al. Rozważ łączenie encji jako szerszą wersję NED, ponieważ NED powinien zakładać, że encja, która poprawnie pasuje do określonej tekstowej wzmianki o encji, znajduje się w bazie wiedzy. Systemy łączenia encji mogą radzić sobie z przypadkami, w których brak wpisu dla nazwanej encji w referencyjnej bazie wiedzy. Inni autorzy nie dokonują takiego rozróżnienia i używają obu nazw zamiennie.

Wikyfikacja to zadanie łączenia wzmianek tekstowych z podmiotami w Wikipedii (ogólnie ograniczenie zakresu do angielskiej Wikipedii w przypadku wikyfikacji międzyjęzykowej).
Łączenie rekordów (RL) jest uważane za szersze pole niż łączenie encji i polega na wyszukiwaniu rekordów, w wielu i często niejednorodnych zestawach danych, które odnoszą się do tej samej encji. Powiązanie rekordów jest kluczowym elementem digitalizacji archiwów i łączenia wielu baz wiedzy.
Rozpoznawanie nazwanych jednostek lokalizuje i klasyfikuje nazwane jednostki w nieustrukturyzowanym tekście do wstępnie zdefiniowanych kategorii, takich jak nazwy, organizacje, lokalizacje i inne. Na przykład następujące zdanie:

Paryż jest stolicą Francji.

zostaną przetworzone przez system NER w celu uzyskania następujących wyników:

[ Paryż ] _Miasto jest stolicą [ Francji ] _Kraju .

Rozpoznawanie nazwanych encji jest zwykle etapem przetwarzania wstępnego systemu łączenia encji, ponieważ warto wiedzieć z góry, które słowa powinny być połączone z encjami bazy wiedzy.

Rozdzielczość współreferencyjna rozumie, czy wiele słów w tekście odnosi się do tej samej jednostki. Przydatne może być na przykład zrozumienie słowa, do którego odnosi się zaimek. Rozważmy następujący przykład:

Paryż jest stolicą Francji. Jest to także największe miasto we Francji.

W tym przykładzie algorytm rozpoznawania współreferencji określi, że zaimek It odnosi się do Paris , a nie do Francji lub innej jednostki. Godnym uwagi rozróżnieniem w porównaniu do łączenia jednostek jest to, że Coreference Resolution nie przypisuje żadnej unikalnej tożsamości do dopasowanych słów, ale po prostu mówi, czy odnoszą się do tej samej jednostki, czy nie. W tym sensie predykcje z systemu rozstrzygania koreferencji mogą być przydatne dla kolejnego elementu łączącego jednostki.

Podejścia do łączenia podmiotów

Łączenie podmiotów było gorącym tematem w przemyśle i nauce przez ostatnią dekadę. Jednak na dzień dzisiejszy większość istniejących wyzwań pozostaje nierozwiązanych i zaproponowano wiele systemów łączących podmioty o bardzo różnych mocnych i słabych stronach.

Ogólnie rzecz biorąc, nowoczesne systemy łączenia podmiotów można podzielić na dwie kategorie:

Podejścia oparte na tekście , które wykorzystują cechy tekstowe wyodrębnione z dużych korpusów tekstowych (np. Termin częstotliwość – odwrotna częstotliwość dokumentu (Tf – Idf), prawdopodobieństwa współwystępowania słów itp.).
Podejścia oparte na grafach , które wykorzystują strukturę grafów wiedzy do reprezentowania kontekstu i relacji podmiotów.

Często systemy łączenia bytów nie mogą być ściśle skategoryzowane w żadnej z kategorii, ale korzystają z grafów wiedzy, które zostały wzbogacone o dodatkowe cechy tekstowe wyodrębnione, na przykład, z korpusów tekstowych, które zostały użyte do budowy samych grafów wiedzy.

Reprezentacja głównych kroków w algorytmie łączenia encji. Większość algorytmów łączenia jednostek składa się z początkowego etapu rozpoznawania nazwanych jednostek, w którym nazwane jednostki znajdują się w oryginalnym tekście (tutaj, Paryż i Francja) oraz z kolejnego kroku, w którym każda nazwana jednostka jest połączona z odpowiadającym jej unikalnym identyfikatorem ( tutaj, strona Wikipedii). Ten ostatni krok jest często wykonywany przez utworzenie małego zestawu identyfikatorów kandydatów dla każdej nazwanej jednostki i wybranie najbardziej obiecującego kandydata w odniesieniu do wybranej metryki.

Łączenie jednostek tekstowych

Przełomowa praca Cucerzana z 2007 roku zaproponowała jeden z pierwszych systemów łączenia jednostek, które pojawiły się w literaturze i zajęła się zadaniem wikyfikacji, łącząc wzmianki tekstowe ze stronami Wikipedii. Ten system dzieli strony na jednostki, strony ujednoznaczniające lub listy, używane do przypisywania kategorii do każdej jednostki. Zestaw jednostek obecnych na każdej stronie jednostki służy do budowania kontekstu jednostki. Ostatnim etapem łączenia encji jest kolektywne ujednoznacznienie wykonywane przez porównanie wektorów binarnych uzyskanych z ręcznie wykonanych funkcji oraz z kontekstu każdej encji. System łączenia jednostek Cucerzana jest nadal używany jako punkt odniesienia dla wielu ostatnich prac.

Praca Rao i in. to dobrze znany artykuł z dziedziny linkowania podmiotów. Autorzy proponują dwuetapowy algorytm łączenia nazwanych jednostek z jednostkami w docelowej bazie wiedzy. Najpierw wybierany jest zestaw encji kandydujących przy użyciu dopasowywania ciągów, akronimów i znanych aliasów. Następnie najlepsze połączenie spośród kandydatów jest wybierane za pomocą maszyny wektorów wsparcia rankingu (SVM), która wykorzystuje funkcje językowe.

Najnowsze systemy, takie jak ten zaproponowany przez Tsai et al., wykorzystują osadzania słów uzyskane za pomocą modelu pomijania gramatycznego jako cechy języka i mogą być stosowane do dowolnego języka, o ile zapewniony jest duży korpus do tworzenia osadzonych słów. Podobnie jak w przypadku większości systemów łączenia jednostek, łączenie odbywa się w dwóch krokach, z początkowym wyborem jednostek kandydujących i liniowym rankingiem SVM jako drugim krokiem.

Próbowano różnych podejść do rozwiązania problemu niejednoznaczności podmiotów. W przełomowym podejściu Milne'a i Wittena uczenie nadzorowane jest wykorzystywane przy użyciu tekstów kotwiczących podmiotów Wikipedii jako danych szkoleniowych. Inne podejścia również zbierały dane szkoleniowe na podstawie jednoznacznych synonimów.

Łączenie jednostek na podstawie wykresu

Nowoczesne systemy łączenia jednostek nie ograniczają swojej analizy do funkcji tekstowych generowanych z dokumentów wejściowych lub korpusów tekstowych, ale wykorzystują duże grafy wiedzy utworzone z baz wiedzy, takich jak Wikipedia. Systemy te wyodrębniają złożone funkcje, które wykorzystują topologię grafu wiedzy lub wykorzystują wieloetapowe połączenia między jednostkami, które zostałyby ukryte przez prostą analizę tekstu. Co więcej, tworzenie wielojęzycznych systemów łączących jednostki oparte na przetwarzaniu języka naturalnego (NLP) jest z natury trudne, ponieważ wymaga albo dużych korpusów tekstowych, często nieobecnych w wielu językach, albo ręcznie opracowanych reguł gramatycznych, które są bardzo różne w zależności od języka. Han i in. zaproponować stworzenie grafu ujednoznaczniającego (podgrafu bazy wiedzy, który zawiera encje kandydujące). Ten wykres jest wykorzystywany do czysto zbiorowej procedury rankingowej, która znajduje najlepszy link kandydata dla każdej wzmianki tekstowej.

Innym znanym podejściem do łączenia bytów jest AIDA, który wykorzystuje serię złożonych algorytmów grafowych oraz algorytm zachłanny, który identyfikuje spójne wzmianki na gęstym podgrafie, biorąc również pod uwagę podobieństwa kontekstu i cechy ważności wierzchołków w celu przeprowadzenia kolektywnej dezambiguacji.

Ranking wykresu (lub ranking wierzchołków) oznacza algorytmy, takie jak PageRank (PR) i Wyszukiwanie tematów indukowane hiperłączem (HITS), których celem jest przypisanie każdemu wierzchołkowi wyniku, który reprezentuje jego względną ważność na ogólnym wykresie. System łączenia podmiotów przedstawiony w Alhelbawy et al. wykorzystuje PageRank, aby wykonać zbiorcze łączenie jednostek na wykresie ujednoznacznienia i zrozumieć, które jednostki są ze sobą silniej powiązane i będą reprezentować lepsze łączenie.

Matematyczne łączenie jednostek

Wyrażenia matematyczne (symbole i formuły) można łączyć z jednostkami semantycznymi (np. artykułami Wikipedii lub elementami Wikidanych ) oznaczonymi ich znaczeniem w języku naturalnym. Jest to istotne dla ujednoznacznienia, ponieważ symbole mogą mieć różne znaczenia (np. „E” może oznaczać „energię” lub „wartość oczekiwaną” itp.). Proces łączenia encji matematycznych można ułatwić i przyspieszyć dzięki rekomendacji adnotacji, np. przy użyciu systemu „AnnoMathTeX” udostępnianego przez Wikimedia.

Aby ułatwić powtarzalność eksperymentów Mathematical Entity Linking (MathEL), stworzono wzorzec MathMLben. Zawiera formuły z Wikipedii, arXiV i Cyfrowej Biblioteki Funkcji Matematycznych NIST (DLMF). Wpisy formuł w benchmarku są oznaczone i rozszerzone przez znaczniki Wikidanych . Ponadto, dla dwóch dużych korpusów z repozytorium arXiv i zbMATH zbadano rozkłady zapisu matematycznego. Matematyczne obiekty zainteresowania (MOI) są identyfikowane jako potencjalni kandydaci do MathEL.

Oprócz linkowania do Wikipedii, Schubotz i Scharpf et al. opisz łączenie treści formuł matematycznych z Wikidata, zarówno w znacznikach MathML , jak i LaTeX . Aby rozszerzyć klasyczne cytaty o matematykę, w celu opracowania zautomatyzowanego programu MathEL konieczne jest podjęcie wyzwania Formula Concept Discovery (FCD) i Formula Concept Recognition (FCR). Ich podejście FCD zapewnia przywołanie 68% w przypadku pobierania równoważnych reprezentacji często występujących formuł i 72% w przypadku wyodrębniania nazwy formuły z otaczającego tekstu w zestawie danych NTCIR arXiv.

Zobacz też

Scholia ma profil tematyczny do łączenia jednostek .

Languages

In other projects