Przetwarzanie afektywne — Affective computing

Przetwarzanie afektywne to badanie i rozwój systemów i urządzeń, które potrafią rozpoznawać, interpretować, przetwarzać i symulować ludzkie wpływy . Jest to interdyscyplinarna dziedzina obejmująca informatykę , psychologię i kognitywistykę . Podczas gdy niektóre podstawowe idee w tej dziedzinie można prześledzić już we wczesnych filozoficznych dociekaniach na temat emocji , bardziej nowoczesna gałąź informatyki wywodzi się z artykułu Rosalind Picard z 1995 roku na temat komputerów afektywnych i jej książki Affective Computing, opublikowanej przez MIT Press . Jedną z motywacji do badań jest umiejętność przekazywania maszynom inteligencji emocjonalnej, w tym symulowania empatii . Maszyna powinna interpretować stan emocjonalny człowieka i dostosowywać do niego swoje zachowanie, dając odpowiednią reakcję na te emocje.

Obszary

Wykrywanie i rozpoznawanie informacji emocjonalnych

Wykrywanie informacji emocjonalnych zwykle rozpoczyna się od pasywnych czujników, które przechwytują dane o stanie fizycznym lub zachowaniu użytkownika bez interpretacji danych wejściowych. Zebrane dane są analogiczne do wskazówek, których ludzie używają do postrzegania emocji u innych. Na przykład kamera wideo może rejestrować mimikę twarzy, postawę ciała i gesty, podczas gdy mikrofon może rejestrować mowę. Inne czujniki wykrywają sygnały emocjonalne, bezpośrednio mierząc dane fizjologiczne , takie jak temperatura skóry i opór galwaniczny .

Rozpoznawanie informacji emocjonalnych wymaga wydobycia z zebranych danych znaczących wzorców. Odbywa się to za pomocą technik uczenia maszynowego, które przetwarzają różne modalności , takie jak rozpoznawanie mowy , przetwarzanie języka naturalnego lub wykrywanie mimiki twarzy . Celem większości tych technik jest stworzenie etykiet, które pasowałyby do etykiet, które osoba postrzegająca nadałaby w tej samej sytuacji: Na przykład, jeśli osoba robi wyraz twarzy, marszcząc brwi, komputerowy system wizyjny może zostać nauczony etykietowania ich twarz wyglądała na „zdezorientowaną” lub „skoncentrowaną” lub „lekko negatywną” (w przeciwieństwie do pozytywnej, co można by powiedzieć, gdyby uśmiechali się w szczęśliwy sposób). Etykiety te mogą, ale nie muszą odpowiadać temu, co dana osoba faktycznie czuje.

Emocje w maszynach

Innym obszarem informatyki afektywnej jest projektowanie urządzeń obliczeniowych, które mają wykazywać wrodzone zdolności emocjonalne lub potrafią przekonująco symulować emocje. Bardziej praktycznym podejściem, opartym na aktualnych możliwościach technologicznych, jest symulacja emocji w agentach konwersacyjnych w celu wzbogacenia i ułatwienia interakcji między człowiekiem a maszyną.

Marvin Minsky , jeden z pionierów informatyków zajmujących się sztuczną inteligencją , odnosi emocje do szerszych zagadnień związanych z inteligencją maszyn, stwierdzając w The Emotion Machine, że emocje „nie różnią się szczególnie od procesów, które nazywamy „myśleniem”.

Technologie

W psychologii, kognitywistyce i neuronauce istnieją dwa główne podejścia do opisu tego, jak ludzie postrzegają i klasyfikują emocje: ciągłe lub kategoryczne. Podejście ciągłe ma tendencję do używania wymiarów, takich jak negatywny vs. pozytywny, spokojny vs. pobudzony.

Podejście kategoryczne ma tendencję do używania dyskretnych klas, takich jak radość, smutek, złość, strach, zaskoczenie, wstręt. Różne rodzaje modeli regresji i klasyfikacji uczenia maszynowego mogą być używane do wytwarzania przez maszyny etykiet ciągłych lub dyskretnych. Czasami budowane są również modele, które pozwalają na kombinacje w różnych kategoriach, np. twarz szczęśliwa zdziwiona lub twarz strasznie zdziwiona.

W poniższych sekcjach omówiono wiele rodzajów danych wejściowych wykorzystywanych do zadania rozpoznawania emocji .

Emocjonalna mowa

Różne zmiany w autonomicznym układzie nerwowym mogą pośrednio zmienić mowę osoby, a technologie afektywne mogą wykorzystać te informacje do rozpoznawania emocji. Na przykład mowa wytworzona w stanie strachu, złości lub radości staje się szybka, głośna i precyzyjnie wypowiadana, z coraz większym zakresem tonacji, podczas gdy emocje takie jak zmęczenie, znudzenie lub smutek mają tendencję do generowania powolnych, niskich tonalna i niewyraźna mowa. Stwierdzono, że niektóre emocje, takie jak gniew czy aprobata, można łatwiej zidentyfikować obliczeniowo.

Technologie przetwarzania mowy emocjonalnej rozpoznają stan emocjonalny użytkownika za pomocą analizy obliczeniowej cech mowy. Parametry głosu i cechy prozodyczne, takie jak zmienne tonacji i tempo mowy, można analizować za pomocą technik rozpoznawania wzorców.

Analiza mowy jest skuteczną metodą identyfikowania stanu afektywnego, ze średnią raportowaną dokładnością od 70 do 80% w ostatnich badaniach. Systemy te mają tendencję do osiągania lepszych wyników niż przeciętna ludzka dokładność (około 60%), ale są mniej dokładne niż systemy wykorzystujące inne metody wykrywania emocji, takie jak stany fizjologiczne lub mimika. Jednakże, ponieważ wiele cech mowy jest niezależnych od semantyki czy kultury, technika ta jest uważana za obiecującą drogę do dalszych badań.

Algorytmy

Proces wykrywania wpływu mowy/tekstu wymaga stworzenia wiarygodnej bazy danych , bazy wiedzy lub modelu przestrzeni wektorowej , wystarczająco szerokiego, aby dopasować się do każdej potrzeby jego zastosowania, a także wyboru skutecznego klasyfikatora, który pozwoli na szybkie i dokładne identyfikacja emocji.

Obecnie najczęściej stosowanymi klasyfikatorami są liniowe klasyfikatory dyskryminacyjne (LDC), k-najbliższy sąsiad (k-NN), mieszany model Gaussa (GMM), maszyny wektorów nośnych (SVM), sztuczne sieci neuronowe (ANN), algorytmy drzew decyzyjnych i ukryte modele Markowa (HMM). Różne badania wykazały, że wybór odpowiedniego klasyfikatora może znacząco poprawić ogólną wydajność systemu. Poniższa lista zawiera krótki opis każdego algorytmu:

  • LDC – Klasyfikacja odbywa się na podstawie wartości uzyskanej z liniowej kombinacji wartości cech, które zwykle są podawane w postaci cech wektorowych.
  • k-NN – Klasyfikacja odbywa się poprzez zlokalizowanie obiektu w przestrzeni cech i porównanie go z k najbliższych sąsiadów (przykłady szkoleniowe). O klasyfikacji decyduje większość głosów.
  • GMM – jest modelem probabilistycznym używanym do reprezentowania istnienia subpopulacji w całej populacji. Każda subpopulacja jest opisana za pomocą rozkładu mieszaniny, co pozwala na klasyfikację obserwacji do subpopulacji.
  • SVM – jest rodzajem (zwykle binarnego) klasyfikatora liniowego, który decyduje, do której z dwóch (lub więcej) możliwych klas może należeć każde wejście.
  • ANN – to model matematyczny, inspirowany biologicznymi sieciami neuronowymi, który może lepiej uchwycić możliwe nieliniowości przestrzeni cech.
  • Algorytmy drzew decyzyjnych – praca polegająca na podążaniu za drzewem decyzyjnym, w którym liście reprezentują wynik klasyfikacji, a gałęzie stanowią połączenie kolejnych cech prowadzących do klasyfikacji.
  • HMM – statystyczny model Markowa, w którym stany i przejścia stanów nie są bezpośrednio dostępne do obserwacji. Zamiast tego widoczne są serie wyjść zależne od stanów. W przypadku rozpoznawania afektów dane wyjściowe reprezentują sekwencję wektorów cech mowy, które pozwalają na wydedukowanie sekwencji stanów, przez które przechodził model. Stany mogą składać się z różnych etapów pośrednich w wyrażaniu emocji, a każdy z nich ma rozkład prawdopodobieństwa na możliwe wektory wyjściowe. Sekwencje stanów pozwalają nam przewidzieć stan afektywny, który staramy się sklasyfikować i jest to jedna z najczęściej stosowanych technik w obszarze wykrywania afektów mowy.

Udowodniono, że mając wystarczającą ilość dostępnych dowodów akustycznych, stan emocjonalny osoby można sklasyfikować za pomocą zestawu klasyfikatorów głosowania większościowego. Proponowany zestaw klasyfikatorów opiera się na trzech głównych klasyfikatorach: kNN, C4.5 i SVM-RBF Kernel. Ten zestaw osiąga lepszą wydajność niż każdy podstawowy klasyfikator z osobna. Jest on porównywany z dwoma innymi zestawami klasyfikatorów: wieloklasowym SVM jeden przeciw wszystkim (OAA) z jądrami hybrydowymi oraz zestawem klasyfikatorów, który składa się z dwóch podstawowych klasyfikatorów: C5.0 i Sieć neuronowa. Proponowany wariant osiąga lepszą wydajność niż pozostałe dwa zestawy klasyfikatorów.

Bazy danych

Zdecydowana większość obecnych systemów jest zależna od danych. Stwarza to jedno z największych wyzwań w wykrywaniu emocji na podstawie mowy, ponieważ implikuje wybór odpowiedniej bazy danych wykorzystywanej do szkolenia klasyfikatora. Większość obecnie posiadanych danych pochodzi od aktorów i jest zatem reprezentacją archetypowych emocji. Te tak zwane działające bazy danych są zwykle oparte na teorii Emocji Podstawowych (opracowanej przez Paula Ekmana ), która zakłada istnienie sześciu podstawowych emocji (gniew, strach, wstręt, zaskoczenie, radość, smutek), przy czym pozostałe są po prostu mieszanką poprzednie. Niemniej jednak nadal oferują wysoką jakość dźwięku i zrównoważone klasy (choć często za mało), co przyczynia się do wysokiego wskaźnika sukcesu w rozpoznawaniu emocji.

Jednak w przypadku zastosowań rzeczywistych preferowane są dane naturalistyczne. Naturalistyczną bazę danych można stworzyć poprzez obserwację i analizę osobników w ich naturalnym kontekście. Docelowo taka baza danych powinna umożliwiać systemowi rozpoznawanie emocji na podstawie ich kontekstu oraz opracowywanie celów i rezultatów interakcji. Charakter tego typu danych pozwala na autentyczną implementację w prawdziwym życiu, ponieważ opisuje stany naturalnie występujące podczas interakcji człowiek-komputer (HCI).

Pomimo licznych przewag, jakie dane naturalistyczne mają nad danymi uzyskanymi, jest trudny do uzyskania i zwykle ma niską intensywność emocjonalną. Co więcej, dane uzyskane w naturalnym kontekście mają niższą jakość sygnału, ze względu na hałas otoczenia i odległość osób od mikrofonu. Pierwszą próbą stworzenia takiej bazy danych był FAU Aibo Emotion Corpus for CEICES (Combining Efforts for Improving Automatic Classification of Emotional User States), który został opracowany na podstawie realistycznego kontekstu dzieci (10–13 lat) bawiących się robotem Aibo firmy Sony. . Podobnie, stworzenie jednej standardowej bazy danych dla wszystkich badań nad emocjami zapewniłoby metodę oceny i porównania różnych systemów rozpoznawania afektów.

Deskryptory mowy

Złożoność procesu rozpoznawania afektów wzrasta wraz z liczbą klas (afektów) i deskryptorów mowy użytych w klasyfikatorze. Dlatego ważne jest, aby wybrać tylko najistotniejsze cechy, aby zapewnić zdolność modelu do skutecznej identyfikacji emocji, a także zwiększyć wydajność, co jest szczególnie istotne w przypadku wykrywania w czasie rzeczywistym. Zakres możliwych wyborów jest ogromny, a niektóre badania wspominają o użyciu ponad 200 różnych cech. Kluczowe jest zidentyfikowanie tych, które są zbędne i niepożądane, aby zoptymalizować system i zwiększyć skuteczność prawidłowego wykrywania emocji. Najczęstsze cechy mowy są podzielone na następujące grupy.

  1. Charakterystyka częstotliwości
    • Kształt akcentu – pod wpływem tempa zmiany częstotliwości podstawowej.
    • Średnia wysokość – opis, jak wysoko/nisko mówi osoba mówiąca w stosunku do normalnej mowy.
    • Nachylenie konturu – opisuje tendencję zmiany częstotliwości w czasie, może być wznosząca się, opadająca lub pozioma.
    • Obniżenie końcowe – kwota, o jaką spada częstotliwość na końcu wypowiedzi.
    • Zakres tonu – mierzy rozpiętość między maksymalną i minimalną częstotliwością wypowiedzi.
  2. Funkcje związane z czasem:
    • Szybkość mowy – opisuje szybkość wypowiadania słów lub sylab w jednostce czasu
    • Częstotliwość naprężeń – mierzy częstotliwość występowania wyrażeń akcentowanych wysokościowo
  3. Parametry jakości głosu i deskryptory energii:
    • Oddech – mierzy hałas aspiracji w mowie
    • Brilliance – opisuje dominację wysokich lub niskich częstotliwości w mowie
    • Głośność – mierzy amplitudę fali mowy, przekłada się na energię wypowiedzi
    • Pause Discontinuity – opisuje przejścia między dźwiękiem a ciszą
    • Pitch Discontinuity – opisuje przejścia częstotliwości podstawowej.

Wykrywanie afektu twarzy

Wykrywanie i przetwarzanie mimiki twarzy odbywa się różnymi metodami, takimi jak przepływ optyczny , ukryte modele Markowa , przetwarzanie sieci neuronowych czy modele aktywnego wyglądu. Można łączyć lub łączyć więcej niż jedną modalność (rozpoznawanie multimodalne, np. mimikę i prozodię mowy, mimikę i gesty rąk lub mimikę z mową i tekstem w przypadku multimodalnej analizy danych i metadanych), aby zapewnić bardziej rzetelne oszacowanie emocji podmiotu. Państwo. Affectiva to firma (współzałożona przez Rosalind Picard i Rana El Kaliouby ) bezpośrednio związana z przetwarzaniem afektywnym, której celem jest badanie rozwiązań i oprogramowania do wykrywania twarzy.

Bazy danych mimiki twarzy

Stworzenie bazy emocji to trudne i czasochłonne zadanie. Jednak tworzenie bazy danych jest niezbędnym krokiem w tworzeniu systemu, który będzie rozpoznawał ludzkie emocje. Większość publicznie dostępnych baz danych dotyczących emocji zawiera tylko pozowane wyrazy twarzy. W bazach wyrażeń pozowanych uczestnicy proszeni są o pokazanie różnych podstawowych wyrażeń emocjonalnych, podczas gdy w bazach wyrażeń spontanicznych wyrazy te są naturalne. Spontaniczne wzbudzanie emocji wymaga znacznego wysiłku w doborze odpowiednich bodźców, które mogą prowadzić do bogatej manifestacji zamierzonych emocji. Po drugie, proces ten polega na ręcznym tagowaniu emocji przez przeszkolone osoby, co sprawia, że ​​bazy danych są wysoce wiarygodne. Ponieważ percepcja wyrażeń i ich intensywność ma charakter subiektywny, adnotacja ekspertów jest niezbędna dla celów walidacji.

Badacze pracują z trzema rodzajami baz danych, takimi jak baza danych tylko obrazów szczytowych ekspresji, baza danych sekwencji obrazów przedstawiających emocje od neutralnego do szczytowego oraz klipy wideo z adnotacjami emocjonalnymi. Wiele baz danych z wyrazami twarzy zostało utworzonych i upublicznionych w celu rozpoznawania mimiki. Dwie z powszechnie używanych baz danych to CK+ i JAFFE.

Klasyfikacja emocji

Przeprowadzając badania międzykulturowe w Papui Nowej Gwinei nad plemionami przodków pod koniec lat sześćdziesiątych, Paul Ekman zaproponował ideę, że mimika emocji nie jest zdeterminowana kulturowo, ale uniwersalna. Zasugerował więc, że mają one pochodzenie biologiczne i dlatego można je bezpiecznie i prawidłowo sklasyfikować. Dlatego w 1972 oficjalnie przedstawił sześć podstawowych emocji:

Jednak w latach 90. Ekman rozszerzył swoją listę podstawowych emocji, w tym szereg emocji pozytywnych i negatywnych, z których nie wszystkie są zakodowane w mięśniach twarzy. Nowo uwzględnione emocje to:

  1. Rozrywka
  2. Pogarda
  3. Zadowolenie
  4. Zakłopotanie
  5. Podniecenie
  6. Wina
  7. Duma z osiągnięć
  8. Ulga
  9. Zadowolenie
  10. Przyjemność sensoryczna
  11. Wstyd

System kodowania akcji twarzy

Psychologowie wymyślili system w celu formalnej kategoryzacji fizycznej ekspresji emocji na twarzach. Centralną koncepcją Facial Action Coding System, czyli FACS, stworzoną przez Paula Ekmana i Wallace'a V. Friesena w 1978 r. na podstawie wcześniejszych prac Carla-Hermana Hjortsjö są jednostki działania (AU). Są to w zasadzie skurcz lub rozluźnienie jednego lub więcej mięśni. Psychologowie zaproponowali następującą klasyfikację sześciu podstawowych emocji, według ich jednostek działania ("+" tu oznacza "i"):

Emocja Jednostki akcji
Szczęście 6+12
Smutek 1+4+15
Niespodzianka 1+2+5B+26
Strach 1+2+4+5+20+26
Gniew 4+5+7+23
Niesmak 9+15+16
Pogarda R12A+R14A

Wyzwania w wykrywaniu twarzy

Podobnie jak w przypadku każdej praktyki obliczeniowej, w wykrywaniu afektów przez przetwarzanie twarzy należy pokonać niektóre przeszkody, aby w pełni uwolnić ukryty potencjał całego zastosowanego algorytmu lub metody. Na początku niemal każdego rodzaju wykrywania opartego na sztucznej inteligencji (rozpoznawanie mowy, rozpoznawanie twarzy, rozpoznawanie wpływu) problemem była dokładność modelowania i śledzenia. Wraz z rozwojem sprzętu, gromadzeniem większej ilości danych, dokonywaniem nowych odkryć i wprowadzaniem nowych praktyk, ten brak dokładności zanika, pozostawiając po sobie problemy z hałasem. Istnieją jednak metody usuwania szumu, w tym uśrednianie sąsiedztwa, liniowe wygładzanie Gaussa , filtrowanie mediany lub nowsze metody, takie jak algorytm optymalizacji żerowania bakteryjnego.

Inne wyzwania obejmują

  • Fakt, że wyrażenia pozowane, używane przez większość badanych w różnych badaniach, nie są naturalne, a zatem algorytmy wytrenowane na ich podstawie mogą nie mieć zastosowania do naturalnych wyrażeń.
  • Brak swobody ruchu obrotowego. Wykrywanie afektów działa bardzo dobrze przy użyciu frontalnym, ale po obróceniu głowy o więcej niż 20 stopni „wystąpiły problemy”.
  • Wyraz twarzy nie zawsze odpowiada emocjom, które do niego pasują (np. można je upozować lub udawać, albo osoba może odczuwać emocje, ale zachowuje „pokerową twarz”).
  • FACS nie uwzględniał dynamiki, podczas gdy dynamika może pomóc w rozróżnieniu (np. uśmiechy prawdziwego szczęścia mają zwykle inną dynamikę niż uśmiechy „staraj się wyglądać na szczęśliwego”).
  • Kombinacje FACS nie odpowiadają w stosunku 1:1 emocjom, które pierwotnie proponowali psychologowie (zauważ, że ten brak mapowania 1:1 występuje również w rozpoznawaniu mowy z homofonami i homonimami oraz wieloma innymi źródłami niejednoznaczności i może być złagodzone poprzez wprowadzenie innych kanałów informacji).
  • Dokładność rozpoznawania poprawia się poprzez dodanie kontekstu; jednak dodanie kontekstu i innych modalności zwiększa koszt i złożoność obliczeń

Gest ciała

Gesty mogą być skutecznie wykorzystywane do wykrywania określonego stanu emocjonalnego użytkownika, zwłaszcza w połączeniu z rozpoznawaniem mowy i twarzy. W zależności od konkretnego działania, gesty mogą być prostymi, odruchowymi reakcjami, takimi jak podnoszenie ramion, gdy nie znasz odpowiedzi na pytanie, lub mogą być złożone i znaczące, jak podczas komunikowania się za pomocą języka migowego. Nie korzystając z żadnego przedmiotu lub otaczającego środowiska, możemy machać rękami, klaskać lub przyzywać. Z drugiej strony, używając przedmiotów, możemy na nie wskazywać, przesuwać, dotykać lub obsługiwać je. Komputer powinien być w stanie je rozpoznać, przeanalizować kontekst i odpowiedzieć w znaczący sposób, aby mógł być efektywnie wykorzystywany do interakcji człowiek-komputer.

Istnieje wiele proponowanych metod wykrywania gestów ciała. Część literatury rozróżnia 2 różne podejścia do rozpoznawania gestów: model 3D i wygląd. Najważniejsza metoda wykorzystuje informacje 3D o kluczowych elementach części ciała w celu uzyskania kilku ważnych parametrów, takich jak pozycja dłoni czy kąty w stawach. Z drugiej strony systemy oparte na wyglądzie wykorzystują obrazy lub filmy do bezpośredniej interpretacji. Gesty rąk są powszechnym przedmiotem zainteresowania metod wykrywania gestów ciała.

Monitorowanie fizjologiczne

Można to wykorzystać do wykrywania stanu afektywnego użytkownika poprzez monitorowanie i analizowanie jego objawów fizjologicznych. Objawy te wahają się od zmian częstości akcji serca i przewodnictwa skóry do niewielkich skurczów mięśni twarzy i zmian przepływu krwi na twarzy. Ten obszar nabiera rozpędu i teraz widzimy prawdziwe produkty, które wdrażają te techniki. Cztery główne objawy fizjologiczne, które są zwykle analizowane, to puls objętości krwi , reakcja skórna galwaniczna , elektromiografia twarzy i wzory kolorów twarzy.

Puls objętości krwi

Przegląd

Puls objętości krwi pacjenta (BVP) można zmierzyć za pomocą procesu zwanego fotopletyzmografią, który tworzy wykres wskazujący przepływ krwi przez kończyny. Szczyty fal wskazują na cykl pracy serca, w którym serce pompuje krew do kończyn. Jeśli podmiot odczuwa strach lub jest zaskoczony, jego serce zwykle „podskakuje” i bije szybko przez pewien czas, powodując wzrost amplitudy cyklu pracy serca. Widać to wyraźnie na fotopletyzmografie, gdy zmniejszyła się odległość między doliną a szczytem fali. Gdy podmiot się uspokaja, a wewnętrzny rdzeń ciała rozszerza się, umożliwiając przepływ większej ilości krwi z powrotem do kończyn, cykl powróci do normy.

Metodologia

Światło podczerwone jest oświetlane na skórze przez specjalny czujnik, a ilość odbitego światła jest mierzona. Ilość odbitego i przepuszczonego światła jest skorelowana z BVP, ponieważ światło jest pochłaniane przez hemoglobinę, która jest bogata w krwioobieg.

Niedogodności

Upewnienie się, że czujnik emitujący światło podczerwone i monitorujący światło odbite jest zawsze skierowany w tę samą końcówkę, może być kłopotliwe, zwłaszcza że obiekty często rozciągają się i korygują swoją pozycję podczas korzystania z komputera. Istnieją inne czynniki, które mogą wpływać na puls objętości krwi. Ponieważ jest to miara przepływu krwi przez kończyny, jeśli podmiotowi jest gorąco lub szczególnie zimno, wówczas jego ciało może pozwolić na przepływ większej lub mniejszej ilości krwi do kończyn, a wszystko to niezależnie od stanu emocjonalnego podmiotu.

Mięsień marszczący brwi i mięsień jarzmowy główny są dwoma głównymi mięśniami używanymi do pomiaru aktywności elektrycznej w elektromiografii twarzy

Elektromiografia twarzy

Elektromiografia twarzy to technika stosowana do pomiaru aktywności elektrycznej mięśni twarzy poprzez wzmacnianie maleńkich impulsów elektrycznych generowanych przez włókna mięśniowe podczas ich skurczu. Twarz wyraża wiele emocji, jednak istnieją dwie główne grupy mięśni twarzy, które zwykle bada się pod kątem wykrywania emocji: Mięsień marszczący brwi, znany również jako mięsień „marszczenia brwi”, ściąga brwi do dołu, a zatem jest najlepszym testem na negatywną, nieprzyjemną reakcję emocjonalną. Mięsień jarzmowy większy jest odpowiedzialny za ściąganie kącików ust do tyłu, kiedy się uśmiechasz, a zatem jest to mięsień używany do testowania pozytywnej reakcji emocjonalnej.

Tutaj możemy zobaczyć wykres odporności skóry mierzonej za pomocą GSR i czasu, w którym badany grał w grę wideo. Na wykresie jest kilka wyraźnych pików, co sugeruje, że GSR jest dobrą metodą rozróżniania między stanem wzbudzonym i niewzbudzonym. Na przykład na początku gry, gdzie zazwyczaj nie ma zbyt wielu ekscytujących rozgrywek, odnotowuje się wysoki poziom oporu, co sugeruje niski poziom przewodnictwa, a zatem mniejsze podniecenie. Jest to wyraźny kontrast z nagłym dołem, w którym gracz ginie, ponieważ zwykle jest bardzo zestresowany i spięty, gdy jego postać ginie w grze

Galwaniczna reakcja skóry

Galwaniczna reakcja skórna (GSR) to przestarzałe określenie bardziej ogólnego zjawiska znanego jako [Aktywność Elektrodermalna] lub EDA. EDA to ogólne zjawisko, w którym zmieniają się właściwości elektryczne skóry. Skóra jest unerwiona przez [współczulny układ nerwowy], więc pomiar jej oporu lub przewodnictwa umożliwia ilościowe określenie niewielkich zmian w gałęzi współczulnej autonomicznego układu nerwowego. Gdy gruczoły potowe są aktywowane, nawet zanim skóra poczuje się spocona, poziom EDA może zostać uchwycony (zwykle za pomocą przewodnictwa) i wykorzystany do wykrycia niewielkich zmian w pobudzeniu autonomicznym. Im bardziej podmiot jest podniecony, tym większe jest zwykle przewodnictwo skóry.

Przewodność skóry jest często mierzona za pomocą dwóch małych elektrod z chlorku srebra umieszczonych gdzieś na skórze i przyłożenia między nimi niewielkiego napięcia. Aby zmaksymalizować komfort i zmniejszyć podrażnienia, elektrody można umieścić na nadgarstku, nogach lub stopach, dzięki czemu ręce są całkowicie wolne do codziennej aktywności.

Kolor twarzy

Przegląd

Powierzchnia ludzkiej twarzy jest unerwiona dużą siecią naczyń krwionośnych. Zmiany przepływu krwi w tych naczyniach powodują widoczne zmiany koloru twarzy. Niezależnie od tego, czy emocje na twarzy aktywują mięśnie twarzy, czy nie, występują zmiany w przepływie krwi, ciśnieniu krwi, poziomie glukozy i innych zmianach. Ponadto sygnał koloru twarzy jest niezależny od sygnału dostarczanego przez ruchy mięśni twarzy.

Metodologia

Podejścia oparte są na zmianach koloru twarzy. Triangulacja Delaunaya służy do tworzenia trójkątnych obszarów lokalnych. Niektóre z tych trójkątów, które określają wnętrze jamy ustnej i oczu (twardówki i tęczówki), są usuwane. Użyj pikseli lewego trójkątnego obszaru, aby utworzyć wektory cech. Pokazuje, że konwersja koloru pikseli standardowej przestrzeni kolorów RGB na przestrzeń kolorów, taką jak przestrzeń kolorów oRGB lub kanały LMS, działa lepiej w przypadku twarzy. Tak więc zmapuj powyższy wektor na lepszą przestrzeń kolorów i rozłóż na kanały czerwono-zielony i żółto-niebieski. Następnie użyj metod głębokiego uczenia się, aby znaleźć równoważne emocje.

Estetyka wizualna

Estetyka w świecie sztuki i fotografii odwołuje się do zasad natury i doceniania piękna. Ocena piękna i innych walorów estetycznych jest zadaniem wysoce subiektywnym. Informatycy z Penn State traktują wyzwanie polegające na automatycznym wnioskowaniu o estetycznej jakości zdjęć przy użyciu ich treści wizualnych jako problem z uczeniem maszynowym, a jako źródło danych oceniana jest strona internetowa do udostępniania zdjęć. Wydobywają pewne cechy wizualne w oparciu o intuicję, że potrafią odróżnić obrazy przyjemne od estetycznych.

Potencjalne aplikacje

Edukacja

Przywiązanie wpływa na stan uczenia się uczniów. Wykorzystując technologię przetwarzania afektywnego, komputery mogą oceniać uczucia i stan uczenia się uczniów, rozpoznając ich mimikę. W edukacji nauczyciel może wykorzystać wynik analizy do zrozumienia zdolności ucznia do uczenia się i akceptacji, a następnie formułować rozsądne plany nauczania. Jednocześnie mogą zwracać uwagę na wewnętrzne odczucia uczniów, co jest pomocne dla zdrowia psychicznego uczniów. Zwłaszcza w nauczaniu na odległość, ze względu na oddzielenie czasu i przestrzeni, nie ma emocjonalnej motywacji między nauczycielami i uczniami do dwustronnej komunikacji. Bez atmosfery, jaką daje tradycyjna nauka w klasie, uczniowie łatwo się nudzą i wpływają na efekt uczenia się. Zastosowanie komputerów afektywnych w systemie edukacji na odległość może skutecznie poprawić tę sytuację.

Opieka zdrowotna

Roboty społeczne , a także rosnąca liczba robotów wykorzystywanych w opiece zdrowotnej, czerpią korzyści ze świadomości emocjonalnej, ponieważ potrafią lepiej oceniać stany emocjonalne użytkowników i pacjentów oraz odpowiednio zmieniać ich działania/programowanie. Jest to szczególnie ważne w tych krajach, w których populacja się starzeje i/lub brakuje młodszych pracowników, którzy mogliby zaspokoić ich potrzeby.

Przetwarzanie afektywne jest również stosowane do rozwoju technologii komunikacyjnych do użytku przez osoby z autyzmem. Coraz częściej zwraca się także uwagę na afektywny komponent tekstu, zwłaszcza jego rola w tzw. emocjonalnym lub emocjonalnym Internecie .

Gry wideo

Afektywne gry wideo mogą uzyskać dostęp do stanów emocjonalnych swoich graczy za pomocą urządzeń do biofeedbacku . Szczególnie prosta forma biofeedbacku jest dostępna za pomocą gamepadów, które mierzą nacisk, z jakim naciskany jest przycisk: wykazano, że jest to silnie skorelowane z poziomem pobudzenia graczy ; na drugim końcu skali znajdują się interfejsy mózg-komputer . Gry afektywne były wykorzystywane w badaniach medycznych do wspierania rozwoju emocjonalnego dzieci z autyzmem .

Inne aplikacje

Inne potencjalne zastosowania koncentrują się na monitoringu społecznościowym. Na przykład samochód może monitorować emocje wszystkich pasażerów i angażować się w dodatkowe środki bezpieczeństwa, takie jak ostrzeganie innych pojazdów, jeśli wykryje, że kierowca jest zły. Przetwarzanie afektywne ma potencjalne zastosowania w interakcji człowiek-komputer , takie jak lustrzane afektywne, pozwalające użytkownikowi zobaczyć, jak sobie radzi; agenci monitorujący emocje wysyłający ostrzeżenie przed wysłaniem gniewnego e-maila; a nawet odtwarzacze muzyczne wybierające utwory na podstawie nastroju.

Jednym z pomysłów, jakie przedstawił w wywiadzie rumuński badacz, dr Nicu Sebe, jest analiza twarzy osoby używającej określonego produktu (jako przykład podał lody). Dzięki takiej analizie przedsiębiorstwa będą mogły wnioskować, czy ich produkt zostanie dobrze przyjęty na danym rynku.

Można również wykorzystać rozpoznawanie stanu afektywnego w celu oceny wpływu reklamy telewizyjnej na podstawie nagrania wideo tej osoby w czasie rzeczywistym i późniejszego badania jej wyrazu twarzy. Uśredniając wyniki uzyskane na dużej grupie tematów, można stwierdzić, czy reklama (lub film) przynosi zamierzony efekt i jakie elementy najbardziej interesują widza.

Podejścia kognitywistyczne a podejścia interakcyjne

W dziedzinie interakcji człowiek-komputer , kognitywistyczna koncepcja emocji Rosalind Picard lub „model informacyjny” została skrytykowana przez „postkognitywistyczne” lub „interakcyjne” podejście pragmatyczne Kirsten Boehner i innych, które postrzegają emocje jako immanentnie. społeczny.

Picard koncentruje się na interakcji człowiek-komputer, a jej celem w dziedzinie afektywnego informatyki jest „umożliwienie komputerom rozpoznawania, wyrażania, a w niektórych przypadkach „posiadania” emocji”. W przeciwieństwie do tego podejście interakcyjne ma na celu pomóc „ludziom w zrozumieniu i doświadczaniu własnych emocji” oraz poprawie komunikacji interpersonalnej za pośrednictwem komputera. Niekoniecznie stara się mapować emocje w obiektywny model matematyczny do interpretacji maszynowej, ale raczej pozwala ludziom zrozumieć nawzajem swoje emocjonalne wyrażenia w otwarty sposób, który może być niejednoznaczny, subiektywny i wrażliwy na kontekst.

Krytycy Picarda opisują jej koncepcję emocji jako „obiektywną, wewnętrzną, prywatną i mechanistyczną”. Mówią, że redukuje emocje do dyskretnego sygnału psychologicznego występującego w ciele, który można zmierzyć i który jest wkładem do poznania, podcinając złożoność emocjonalnego doświadczenia.

Podejście interakcyjne zakłada, że ​​chociaż emocje mają aspekty biofizyczne, są „ugruntowane kulturowo, dynamicznie doświadczane i do pewnego stopnia skonstruowane w działaniu i interakcji”. Innymi słowy, traktuje „emocje jako produkt społeczny i kulturowy doświadczany poprzez nasze interakcje”.

Zobacz też

Cytaty

Źródła ogólne

  • Hudlicka, Ewa (2003). „Czuć lub nie czuć: rola afektu w interakcji człowiek-komputer”. International Journal of Human-Computer Studies . 59 (1–2): 1-32. CiteSeerX  10.1.1.180.6429 . doi : 10.1016/s1071-5819(03)00047-8 .
  • Scherer, Klaus R; Banziger, Tanja; Roesch, Etienne B (2010). Plan afektywnego przetwarzania danych: podręcznik i podręcznik . Oksford: Oxford University Press.

Linki zewnętrzne