Automatyczna adnotacja obrazu - Automatic image annotation

Automatyczne adnotacje obrazu (znane również jako automatyczne oznaczanie obrazów lub indeksowanie językowe ) to proces, w którym system komputerowy automatycznie przypisuje metadane w postaci podpisów lub słów kluczowych do obrazu cyfrowego . To zastosowanie technik widzenia komputerowego jest wykorzystywane w systemach wyszukiwania obrazów do organizowania i lokalizowania interesujących obrazów z bazy danych .

Metodę tę można traktować jako rodzaj wieloklasowej klasyfikacji obrazów z bardzo dużą liczbą klas - tak dużą jak wielkość słownictwa. Zazwyczaj analiza obrazu w postaci wyodrębnionych wektorów cech i słów adnotacji szkoleniowych jest wykorzystywana przez techniki uczenia maszynowego do próby automatycznego zastosowania adnotacji do nowych obrazów. Pierwsze metody nauczyły korelacji między cechami obrazu a adnotacjami szkoleniowymi, a następnie opracowano techniki wykorzystujące tłumaczenie maszynowe, aby spróbować przetłumaczyć słownictwo tekstowe za pomocą „słownictwa wizualnego” lub skupionych obszarów zwanych plamkami . Prace związane z tymi wysiłkami obejmowały podejścia klasyfikacyjne, modele istotności i tak dalej.

Zaletą automatycznego adnotacji obrazu w porównaniu z pobieraniem obrazu opartym na treści (CBIR) jest to, że zapytania mogą być bardziej naturalnie określane przez użytkownika. CBIR generalnie (obecnie) wymaga od użytkowników wyszukiwania według pojęć związanych z obrazami, takich jak kolor i tekstura , lub znajdowania przykładowych zapytań. Pewne cechy obrazu w przykładowych obrazach mogą przesłonić koncepcję, na której naprawdę koncentruje się użytkownik. Tradycyjne metody wyszukiwania obrazów, takie jak te stosowane przez biblioteki, opierają się na obrazach opatrzonych ręcznie adnotacjami, co jest kosztowne i czasochłonne, zwłaszcza biorąc pod uwagę duże i stale powiększające się bazy danych obrazów.

Zobacz też

Bibliografia

  • Datta, Ritendra; Dhiraj Joshi; Jia Li; James Z. Wang (2008). „Odzyskiwanie obrazów: idee, wpływy i trendy nowego wieku” . Ankiety ACM Computing . 40 (2): 1–60. doi : 10,1145 / 1348246,1348248 . S2CID   7060187 .
  • Nicolas Hervé; Nozha Boujemaa (2007). „Adnotacja obrazu: jakie podejście do realistycznych baz danych?” (PDF) . Międzynarodowa konferencja ACM na temat odtwarzania obrazów i wideo . Zarchiwizowane od oryginalnego (PDF) w dniu 2011-05-20.
  • M Inoue (2004). „O potrzebie pobierania obrazów na podstawie adnotacji” (PDF) . Warsztaty na temat wyszukiwania informacji w kontekście . s. 44–46. Zarchiwizowane od oryginalnego (PDF) w dniu 2014-08-08.

Dalsza lektura

  • Model współwystępowania słów
Y Mori; H Takahashi & R Oka (1999). „Transformacja obrazu na słowo oparta na dzieleniu i wektorowej kwantyzacji obrazów ze słowami”. Materiały z International Workshop on Multimedia Intelligent Storage and Retrieval Management . CiteSeerX   10.1.1.31.1704 .
  • Adnotacja jako tłumaczenie maszynowe
P Duygulu; K Barnard; N de Fretias i D Forsyth (2002). „Rozpoznawanie obiektów jako tłumaczenie maszynowe: uczenie się leksykonu dla słownictwa o stałym obrazie” . Materiały z Europejskiej Konferencji na temat widzenia komputerowego . s. 97–112. Zarchiwizowane od oryginału w dniu 2005-03-05.
  • Modele statystyczne
J Li i JZ Wang (2006). „Skomputeryzowana adnotacja zdjęć w czasie rzeczywistym” . Proc. ACM Multimedia . s. 911–920.
JZ Wang i J Li (2002). „Lingwistyczne indeksowanie obrazów oparte na uczeniu się za pomocą 2-D MHMM” . Proc. ACM Multimedia . s. 436–445.
  • Automatyczne indeksowanie językowe zdjęć
J Li i JZ Wang (2008). „Skomputeryzowana adnotacja zdjęć w czasie rzeczywistym” . Transakcje IEEE dotyczące analizy wzorców i inteligencji maszynowej .
J Li i JZ Wang (2003). „Automatyczne indeksowanie językowe obrazów metodą modelowania statystycznego” . Transakcje IEEE dotyczące analizy wzorców i inteligencji maszynowej . pp. 1075–1088.
  • Hierarchiczny model klastra aspektów
K Barnard; DA Forsyth (2001). „Nauka semantyki słów i obrazów” . Materiały z międzynarodowej konferencji nt . Wizji komputerowej . s. 408–415. Zarchiwizowane od oryginału w dniu 2007-09-28.
  • Utajony model alokacji Dirichleta
D Blei; A Ng & M Jordan (2003). „Utajona alokacja Dirichleta” (PDF) . Journal of Machine Learning Research . s. 3: 993–1022. Zarchiwizowane od oryginalnego (PDF) w dniu 2005-05-21.
G Carneiro; AB Chan; P Moreno i N Vasconcelos (2006). „Nadzorowane uczenie się klas semantycznych do adnotacji i wyszukiwania obrazów” (PDF) . Transakcje IEEE dotyczące analizy wzorców i inteligencji maszynowej . pp. 394–410.
  • Podobieństwo tekstur
RW Picard i TP Minka (1995). „Tekstura wizji dla adnotacji” . Systemy multimedialne .
  • Obsługuj maszyny wektorowe
C Cusano; G Ciocca i R Scettini (2004). „Adnotacja obrazu za pomocą SVM”. Postępowanie z obrazowaniem internetowym IV . Internet Imaging V . 5304 . p. 330. Bibcode : 2003SPIE.5304..330C . doi : 10,1117 / 12,526746 .
  • Zespół drzew decyzyjnych i losowych okien podrzędnych
R Maree; P Geurts; J Piater i L Wehenkel (2005). „Losowe okna podrzędne dla solidnej klasyfikacji obrazów” . Materiały z Międzynarodowej Konferencji IEEE na temat widzenia komputerowego i rozpoznawania wzorców . s. 1: 34–30.
  • Maksymalna entropia
J Jeon; R Manmatha (2004). „Korzystanie z maksymalnej entropii do automatycznego adnotacji obrazu” (PDF) . Międzynarodowa konferencja dotycząca pobierania obrazów i wideo (CIVR 2004) . s. 24–32.
  • Modele trafności
J Jeon; V Lavrenko i R Manmatha (2003). „Automatyczne dodawanie adnotacji do obrazów i pobieranie ich za pomocą modeli dopasowania do różnych mediów” (PDF) . Materiały z Konferencji ACM SIGIR nt. Badań i rozwoju w zakresie wyszukiwania informacji . s. 119–126.
  • Modele istotności wykorzystujące ciągłe funkcje gęstości prawdopodobieństwa
V Lavrenko; R Manmatha i J Jeon (2003). „Model do nauki semantyki obrazów” (PDF) . Materiały z 16. konferencji nt. Postępów w neuronowych systemach przetwarzania informacji NIPS .
  • Spójny model języka
R Jin; JY Chai; L Si (2004). „Skuteczna automatyczna adnotacja obrazu dzięki spójnemu modelowi językowemu i aktywnej nauce” (PDF) . Postępowanie MM'04 .
  • Sieci wnioskowania
D Metzler & R Manmatha (2004). „Podejście oparte na sieci wnioskowania do pobierania obrazów” (PDF) . Materiały z Międzynarodowej Konferencji na temat odtwarzania obrazu i wideo . pp. 42–50.
  • Rozkład wielu Bernoulliego
S Feng; R Manmatha i V Lavrenko (2004). „Wiele modeli trafności Bernoulliego dla adnotacji obrazu i wideo” (PDF) . Konferencja IEEE nt. Widzenia komputerowego i rozpoznawania wzorców . s. 1002–1009.
  • Wiele alternatyw projektowych
JY Pan; HJ Yang; P Duygulu; C Faloutsos (2004). „Automatyczne podpisywanie obrazów” (PDF) . Materiały z Międzynarodowej Konferencji Multimediów i Expo IEEE 2004 (ICME'04) . Zarchiwizowane od oryginalnego (PDF) w dniu 2004-12-09.
  • Podpisy do zdjęć
Quan Hoang Lam; Quang Duy Le; Kiet Van Nguyen; Ngan Luu-Thuy Nguyen (2020). „UIT-ViIC: zbiór danych do pierwszej oceny wietnamskich podpisów graficznych” . Materiały z Międzynarodowej Konferencji Kolektywnej Inteligencji Obliczeniowej 2020 (ICCCI 2020) . arXiv : 2002.00175 . doi : 10.1007 / 978-3-030-63007-2_57 .
  • Opis naturalnej sceny
J Fan; Y Gao; H Luo; G Xu (2004). „Automatyczne adnotacje obrazu przy użyciu istotnych obiektów uwzględniających koncepcję do reprezentacji zawartości obrazu” . Materiały z 27. dorocznej międzynarodowej konferencji na temat badań i rozwoju w wyszukiwaniu informacji . s. 361–368.
  • Odpowiednie globalne filtry niskiego poziomu
Oliva i A Torralba (2001). „Modelowanie kształtu sceny: holistyczne przedstawienie obwiedni przestrzennej” (PDF) . International Journal of Computer Vision . s. 42: 145–175.
  • Globalne cechy obrazu i nieparametryczne szacowanie gęstości
A Yavlinsky, E Schofield & S Rüger (2005). „Zautomatyzowane adnotacje obrazu z wykorzystaniem funkcji globalnych i niezawodnego nieparametrycznego szacowania gęstości” (PDF) . Międzynarodowa konferencja dotycząca pobierania obrazów i wideo (CIVR, Singapur, lipiec 2005) . Zarchiwizowane od oryginalnego (PDF) w dniu 2005-12-20.
  • Semantyka wideo
N Vasconcelos & A Lippman (2001). „Statystyczne modele struktury wideo do analizy i charakteryzacji treści” (PDF) . Transakcje IEEE dotyczące przetwarzania obrazu . s. 1–17.
Ilaria Bartolini; Marco Patella i Corrado Romani (2010). „Shiatsu: oparte na semantyce, hierarchiczne automatyczne oznaczanie filmów według segmentacji przy użyciu cięć” . Trzecie Międzynarodowe Warsztaty Multimedialne ACM nt. Zautomatyzowanego ekstrakcji informacji w produkcji mediów (AIEMPro10) .
  • Udoskonalanie adnotacji obrazu
Yohan Jin; Latifur Khan ; Lei Wang i Mamoun Awad (2005). „Adnotacje graficzne poprzez połączenie wielu dowodów i wordNet” . 13. doroczna międzynarodowa konferencja ACM na temat multimediów (MM 05) . pp. 706–715.
Changhu Wang; Feng Jing; Lei Zhang i Hong-Jiang Zhang (2006). „Udoskonalenie adnotacji obrazu przy użyciu błądzenia losowego z ponownym uruchomieniem” . 14. doroczna międzynarodowa konferencja ACM na temat multimediów (MM 06) .
Changhu Wang; Feng Jing; Lei Zhang i Hong-Jiang Zhang (2007). „doprecyzowanie adnotacji obrazu na podstawie treści”. Konferencja IEEE nt. Widzenia komputerowego i rozpoznawania wzorców (CVPR 07) . doi : 10.1109 / CVPR.2007.383221 .
Ilaria Bartolini i Paolo Ciaccia (2007). „Wyobraźnia: wykorzystanie analizy połączeń do dokładnych adnotacji obrazu”. Springer Adaptive Multimedia Retrieval . doi : 10.1007 / 978-3-540-79860-6_3 .
Ilaria Bartolini i Paolo Ciaccia (2010). „Wielowymiarowe adnotacje i wyszukiwanie oparte na słowach kluczowych” . Drugie międzynarodowe warsztaty ACM dotyczące wyszukiwania słów kluczowych w danych strukturalnych (KEYS 2010) .
  • Automatyczne adnotacje obrazu według zestawu deskryptorów wizualnych
Emre Akbas i Fatos Y. Vural (2007). „Automatyczne adnotacje obrazu przez zespół deskryptorów wizualnych”. Intl. Conf. on Computer Vision (CVPR) 2007, Workshop on Semantic Learning Applications in Multimedia . doi : 10.1109 / CVPR.2007.383484 .
  • Nowa podstawa dla adnotacji obrazu
Ameesh Makadia i Vladimir Pavlovic i Sanjiv Kumar (2008). „Nowa podstawa dla adnotacji obrazu” (PDF) . Europejska Konferencja na temat widzenia komputerowego (ECCV) .

Jednoczesna klasyfikacja obrazu i adnotacja

Chong Wang i David Blei i Li Fei-Fei (2009). „Jednoczesna klasyfikacja obrazu i adnotacja” (PDF) . Conf. w sprawie widzenia komputerowego i rozpoznawania wzorców (CVPR) .
  • TagProp: Uczenie się rozróżniających metryk w modelach najbliższego sąsiedztwa dla automatycznej adnotacji obrazu
Matthieu Guillaumin i Thomas Mensink oraz Jakob Verbeek i Cordelia Schmid (2009). „TagProp: rozróżniające metody uczenia się w modelach najbliższego sąsiedztwa dla automatycznego adnotacji obrazu” (PDF) . Intl. Conf. w sprawie widzenia komputerowego (ICCV) .
  • Adnotacja obrazu z wykorzystaniem uczenia się metrycznego w sąsiedztwach semantycznych
Yashaswi Verma i CV Jawahar (2012). „Adnotacja obrazu z wykorzystaniem uczenia się metrycznego w sąsiedztwach semantycznych” (PDF) . Europejska Konferencja na temat widzenia komputerowego (ECCV) . Zarchiwizowane od oryginalnego (PDF) w dniu 2013-05-14 . Źródło 2014-02-26 .
  • Automatyczne adnotacje obrazu przy użyciu reprezentacji głębokiego uczenia
Venkatesh N. Murthy & Subhransu Maji i R. Manmatha (2015). „Automatyczne adnotacje obrazu przy użyciu reprezentacji uczenia głębokiego” (PDF) . Międzynarodowa Konferencja Multimedialna (ICMR) .
  • Adnotacja obrazu medycznego z wykorzystaniem sieci bayesowskich i aktywnego uczenia się
NB Marvasti & E. Yörük i B. Acar (2018). „Wspomagane komputerowo adnotacje dotyczące obrazu medycznego: wstępne wyniki z uszkodzeniami wątroby w tomografii komputerowej” . IEEE Journal of Biomedical and Health Informatics .