Multimodalna analiza sentymentu - Multimodal sentiment analysis

Multimodalna analiza sentymentu to nowy wymiar tradycyjnej tekstowej analizy sentymentu , która wykracza poza analizę tekstów i obejmuje inne modalności, takie jak dane dźwiękowe i wizualne. Może być bimodalny, który obejmuje różne kombinacje dwóch modalności, lub trimodalny, który obejmuje trzy modalności. Dzięki dużej ilości społecznościowych danych dostępnych online, w różnych formach, takich jak wideo i obrazów, konwencjonalne tekstowa analiza nastrojów przekształciła się w bardziej skomplikowanych modeli multimodalnego analizy nastrojów, które mogą być stosowane w rozwoju wirtualnych asystentów , analizy z Recenzje filmów na YouTube, analiza filmów z wiadomościami i rozpoznawanie emocji (czasami znane jako wykrywanie emocji ), takie jak monitorowanie depresji , między innymi.

Podobnie jak w przypadku tradycyjnej analizy nastrojów , jednym z najbardziej podstawowych zadań w multimodalnej analizie nastrojów jest klasyfikacja nastrojów , która dzieli różne nastroje na kategorie, takie jak pozytywne, negatywne lub neutralne. Złożoność analizowania funkcji tekstowych, dźwiękowych i wizualnych w celu wykonania takiego zadania wymaga zastosowania różnych technik fuzji, takich jak łączenie na poziomie funkcji, na poziomie decyzji i hybrydowe. Na wydajność tych technik fuzji i zastosowanych algorytmów klasyfikacji ma wpływ rodzaj cech tekstowych, dźwiękowych i wizualnych zastosowanych w analizie.

funkcje

Inżynieria funkcji , która obejmuje wybór funkcji, które są wprowadzane do algorytmów uczenia maszynowego , odgrywa kluczową rolę w wydajności klasyfikacji tonacji. W multimodalnej analizie sentymentu wykorzystuje się kombinację różnych funkcji tekstowych, dźwiękowych i wizualnych.

Cechy tekstowe

Podobna do konwencjonalnego tekstowej analizy nastrojów , niektóre z najczęściej używanych funkcji tekstowych w multimodalnego analizy nastrojów są unigrams i n-gramów , które są w zasadzie kolejność słów w danym dokumencie tekstowym. Cechy te są stosowane za pomocą reprezentacji cech worka słów lub worka pojęć, w których słowa lub pojęcia są reprezentowane jako wektory w odpowiedniej przestrzeni.

Funkcje audio

Charakterystyki nastrojów i emocji są widoczne w różnych właściwościach fonetycznych i prozodycznych zawartych w funkcjach audio. Niektóre z najważniejszych funkcji audio zatrudniony w multimodalnego analizy nastrojów są cepstrum mel częstotliwości (MFCC) , widmowa ciężkości , widmowy strumienia , bicie histogram, suma beat, najsilniejsze uderzenie, czas trwania pauzy, a murawa . OpenSMILE i Praat to popularne zestawy narzędzi typu open source do wyodrębniania takich funkcji audio.

Cechy wizualne

Jedną z głównych zalet analizowania filmów pod kątem samych tekstów jest obecność bogatych wskazówek dotyczących sentymentu w danych wizualnych. Cechy wizualne obejmują mimikę twarzy , które mają ogromne znaczenie w uchwyceniu uczuć i emocji , ponieważ są głównym kanałem kształtowania obecnego stanu umysłu danej osoby. W szczególności smile , jest uważany za jeden z najbardziej predykcyjnych wskaźników wizualnych w multimodalnej analizie sentymentu. OpenFace to zestaw narzędzi do analizy twarzy typu open source, który umożliwia wyodrębnianie i zrozumienie takich cech wizualnych.

Techniki fuzji

W przeciwieństwie do tradycyjnej analizy tonacji opartej na tekście , multimodalna analiza tonacji podlega procesowi łączenia, w którym dane z różnych modalności (tekstowej, dźwiękowej lub wizualnej) są łączone i analizowane razem. Istniejące podejścia do fuzji danych multimodalnej analizy tonacji można pogrupować w trzy główne kategorie: łączenie na poziomie funkcji, na poziomie decyzji i hybrydowe, a wydajność klasyfikacji tonacji zależy od rodzaju zastosowanej techniki fuzji.

Fuzja na poziomie funkcji

Fuzja na poziomie cech (czasami znana jako wczesna fuzja) gromadzi wszystkie cechy z każdej modalności (tekstowej, dźwiękowej lub wizualnej) i łączy je w jeden wektor cech, który jest ostatecznie wprowadzany do algorytmu klasyfikacji. Jedną z trudności we wdrażaniu tej techniki jest integracja cech heterogenicznych.

Fuzja na poziomie decyzji

Fuzja na poziomie decyzji (czasami nazywana późną fuzją) niezależnie dostarcza dane z każdej modalności (tekstowej, dźwiękowej lub wizualnej) do własnego algorytmu klasyfikacji i uzyskuje ostateczne wyniki klasyfikacji tonacji, łącząc każdy wynik w pojedynczy wektor decyzji. Jedną z zalet tej techniki fuzji jest to, że eliminuje potrzebę łączenia heterogenicznych danych, a każda modalność może wykorzystywać swój najbardziej odpowiedni algorytm klasyfikacji .

Fuzja hybrydowa

Fuzja hybrydowa to połączenie technik fuzji na poziomie funkcji i na poziomie decyzji, które podczas procesu klasyfikacji wykorzystuje uzupełniające się informacje z obu metod. Zwykle obejmuje procedurę dwuetapową, w której najpierw przeprowadza się fuzję na poziomie cech między dwiema modalnościami, a następnie fuzję na poziomie decyzji stosuje się jako drugi krok, aby połączyć początkowe wyniki z fuzji na poziomie cech z pozostałą modalnością .

Aplikacje

Podobnie jak w przypadku tekstowej analizy sentymentu, multimodalną analizę sentymentu można zastosować przy opracowywaniu różnych form systemów rekomendacji, takich jak analiza generowanych przez użytkowników filmów wideo z recenzjami filmów i ogólnych recenzji produktów, w celu przewidywania nastrojów klientów, a następnie tworzyć rekomendacje produktów lub usług. Multimodalna analiza sentymentu odgrywa również ważną rolę w rozwoju wirtualnych asystentów poprzez zastosowanie przetwarzania języka naturalnego (NLP) i technik uczenia maszynowego . W dziedzinie opieki zdrowotnej multimodalna analiza sentymentu może być wykorzystywana do wykrywania pewnych schorzeń, takich jak stres , lęk lub depresja . Multimodalną analizę nastrojów można również zastosować do zrozumienia nastrojów zawartych w programach wideo z wiadomościami, co jest uważane za skomplikowaną i wymagającą dziedzinę, ponieważ nastroje wyrażane przez reporterów są zwykle mniej oczywiste lub neutralne.

Bibliografia