Zarys rozpoznawania obiektów - Outline of object recognition

Poniższy zarys stanowi przegląd i przewodnik tematyczny dotyczący rozpoznawania obiektów:

Rozpoznawanie obiektów – technologia z zakresu widzenia komputerowego do wyszukiwania i identyfikacji obiektów w sekwencji obrazu lub wideo. Ludzie rozpoznają wiele obiektów na obrazach przy niewielkim wysiłku, pomimo faktu, że obraz obiektów może się nieco różnić w różnych punktach widzenia, w wielu różnych rozmiarach i skalach, a nawet po przesunięciu lub obróceniu. Obiekty można nawet rozpoznać, gdy są częściowo zasłonięte. To zadanie wciąż stanowi wyzwanie dla komputerowych systemów wizyjnych. Wiele podejść do tego zadania zostało wdrożonych na przestrzeni kilkudziesięciu lat.

Podejścia oparte na modelach obiektów podobnych do CAD

Rozpoznawanie według części

Metody oparte na wyglądzie

  • Użyj przykładowych obrazów (zwanych szablonami lub przykładami) obiektów, aby przeprowadzić rozpoznawanie
  • Obiekty wyglądają inaczej w różnych warunkach:
    • Zmiany w oświetleniu lub kolorze
    • Zmiany kierunku patrzenia
    • Zmiany w rozmiarze/kształtu
  • Pojedynczy egzemplarz jest mało prawdopodobny, aby odnieść sukces. Nie jest jednak możliwe przedstawienie wszystkich wyglądów obiektu.

Dopasowanie krawędzi

  • Wykorzystuje techniki wykrywania krawędzi, takie jak wykrywanie krawędzi Canny , aby znaleźć krawędzie.
  • Zmiany w oświetleniu i kolorze zwykle nie mają większego wpływu na krawędzie obrazu
  • Strategia:
    1. Wykryj krawędzie w szablonie i obrazie
    2. Porównaj obrazy krawędzi, aby znaleźć szablon
    3. Należy wziąć pod uwagę zakres możliwych pozycji szablonów
  • Wymiary:
    • Dobrze – policz liczbę zachodzących na siebie krawędzi. Nieodporny na zmiany kształtu
    • Lepiej – policz liczbę pikseli krawędzi szablonu z pewną odległością krawędzi w wyszukiwanym obrazie
    • Best – określa rozkład prawdopodobieństwa odległości do najbliższej krawędzi w wyszukiwanym obrazie (jeśli szablon znajduje się w prawidłowej pozycji). Oszacuj prawdopodobieństwo wygenerowania obrazu przez każdą pozycję szablonu

Wyszukiwanie typu „dziel i zwyciężaj”

  • Strategia:
    • Rozważ wszystkie pozycje jako zbiór (komórkę w przestrzeni pozycji)
    • Określ dolną granicę wyniku w najlepszej pozycji w komórce
    • Jeśli związanie jest zbyt duże, przytnij komórkę
    • Jeśli granica nie jest zbyt duża, podziel komórkę na podkomórki i wypróbuj każdą podkomórkę rekursywnie
    • Proces zatrzymuje się, gdy komórka jest „wystarczająco mała”
  • W przeciwieństwie do wyszukiwania w wielu rozdzielczościach, ta technika gwarantuje znalezienie wszystkich dopasowań spełniających kryterium (przy założeniu, że dolna granica jest dokładna)
  • Znalezienie skrępowania:
    • Aby znaleźć dolną granicę najlepszego wyniku, spójrz na wynik dla pozycji szablonu reprezentowanej przez środek komórki
    • Odejmij maksymalną zmianę od pozycji „środkowej” dla dowolnej innej pozycji w komórce (występuje w rogach komórki)
  • Złożoność wynika z wyznaczania granic odległości

Dopasowanie w skali szarości

  • Krawędzie są (w większości) odporne na zmiany oświetlenia, jednak odrzucają wiele informacji
  • Należy obliczyć odległość piksela jako funkcję zarówno pozycji piksela, jak i intensywności piksela
  • Może być również nakładany na kolor

Dopasowanie gradientowe

  • Innym sposobem, aby być odpornym na zmiany oświetlenia bez wyrzucania tak dużej ilości informacji, jest porównanie gradientów obrazu image
  • Dopasowywanie odbywa się jak dopasowywanie obrazów w skali szarości
  • Prosta alternatywa: Użyj (znormalizowanej) korelacji

Histogramy odpowiedzi w polu receptywnym

  • Unika wyraźnych powiązań punktowych
  • Relacje między różnymi punktami obrazu niejawnie zakodowane w odpowiedziach pola odbiorczego
  • Swain i Ballard (1991), Schiele i Crowley (2000), Linde i Lindeberg (2004, 2012)

Duże bazy modeli

  • Jedno podejście do wydajnego przeszukiwania bazy danych w celu znalezienia określonego obrazu w celu wykorzystania wektorów własnych szablonów (tzw. eigenfaces )
  • Bazy modeli to zbiór modeli geometrycznych obiektów, które należy rozpoznać

Metody oparte na cechach

  • wyszukiwanie służy do znalezienia wykonalnych dopasowań między cechami obiektów a cechami obrazu .
  • głównym ograniczeniem jest to, że pojedyncza pozycja obiektu musi uwzględniać wszystkie możliwe dopasowania.
  • metody, które wyodrębniają cechy z obiektów do rozpoznania i obrazów do przeszukania.
    • łaty powierzchni
    • rogi
    • krawędzie liniowe

Drzewa interpretacyjne

  • Metodą wyszukiwania wykonalnych dopasowań jest przeszukiwanie drzewa.
  • Każdy węzeł w drzewie reprezentuje zestaw dopasowań.
    • Węzeł główny reprezentuje pusty zestaw
    • Każdy inny węzeł jest sumą dopasowań w węźle nadrzędnym i jednym dodatkowym dopasowaniem.
    • Symbol wieloznaczny jest używany w przypadku funkcji bez dopasowania
  • Węzły są „przycinane”, gdy zestaw dopasowań jest niewykonalny.
    • Przycięty węzeł nie ma dzieci
  • Historycznie znaczące i nadal używane, ale rzadziej

Postaw hipotezę i przetestuj

  • Główny pomysł:
    • Hipotezę o korespondencji pomiędzy zbiorem cech obrazu oraz zbiór cech obiektowych
    • Następnie użyj tego, aby wygenerować hipotezę dotyczącą projekcji z ramki współrzędnych obiektu na ramkę obrazu
    • Użyj tej hipotezy projekcji, aby wygenerować renderowanie obiektu. Ten krok jest zwykle nazywany projekcją wsteczną
    • Porównaj renderowanie z obrazem i jeśli oba są wystarczająco podobne, zaakceptuj hipotezę
  • Uzyskanie hipotezy:
    • Istnieje wiele różnych sposobów generowania hipotez.
    • Gdy znane są parametry wewnętrzne kamery, hipoteza jest równoważna z hipotetyczną pozycją i orientacją – pozą – dla obiektu.
    • Wykorzystaj ograniczenia geometryczne
    • Skonstruuj korespondencję dla małych zestawów cech obiektu z każdym prawidłowo dobranym podzbiorem punktów obrazu. (To są hipotezy)
  • Trzy podstawowe podejścia:
    • Uzyskiwanie hipotez przez spójność pozycji
    • Uzyskiwanie hipotez przez grupowanie pozycji
    • Uzyskiwanie hipotez za pomocą niezmienników
  • Wyszukiwanie wydatków, które również jest zbędne, ale można je ulepszyć za pomocą randomizacji i/lub grupowania
    • Randomizacja
      • Badanie małych zestawów cech obrazu, aż prawdopodobieństwo braku obiektu stanie się małe
      • Dla każdego zestawu cech obrazu należy wziąć pod uwagę wszystkie możliwe pasujące zestawy cech modelu.
      • Formuła:
        ( 1 – W c ) k = Z
        • W = część punktów obrazu, które są „dobre” (w ~ m/n)
        • c = liczba niezbędnych korespondencji
        • k = liczba prób
        • Z = prawdopodobieństwo każdej próby z użyciem jednej (lub więcej) błędnych korespondencji
    • Grupowanie
      • Jeśli możemy określić grupy punktów, które mogą pochodzić z tego samego obiektu, możemy zmniejszyć liczbę hipotez, które należy zbadać

Spójność ułożenia

  • Nazywany również Wyrównaniem, ponieważ obiekt jest wyrównywany do obrazu
  • Zależności między cechami obrazu a cechami modelu nie są niezależne – Ograniczenia geometryczne Geometric
  • Niewielka liczba korespondencji daje pozycję obiektu – pozostałe muszą być z tym zgodne
  • Główny pomysł:
    • Jeśli postawimy hipotezę o dopasowaniu odpowiednio dużej grupy cech obrazu do wystarczająco dużej grupy cech obiektu, to z tej hipotezy możemy odzyskać brakujące parametry kamery (i tym samym wyrenderować resztę obiektu)
  • Strategia:
    • Generuj hipotezy przy użyciu niewielkiej liczby korespondencji (np. trójki punktów do rozpoznawania 3D)
    • Wyświetl inne cechy modelu na obrazie ( projekt wsteczny ) i zweryfikuj dodatkowe odpowiedniki
  • Użyj jak najmniejszej liczby korespondencji niezbędnej do uzyskania dyskretnych pozycji obiektów object

Grupowanie pozycji

  • Główny pomysł:
    • Każdy przedmiot prowadzi do wielu poprawnych zestawów korespondencji, z których każdy ma (w przybliżeniu) tę samą pozę
    • Głosuj na pozę. Użyj tablicy akumulatorów, która reprezentuje przestrzeń pozy dla każdego obiektu
    • Jest to zasadniczo transformacja Hough
  • Strategia:
    • Dla każdego obiektu skonfiguruj tablicę akumulatorową, która reprezentuje przestrzeń pozy — każdy element w tablicy akumulatorowej odpowiada „wiaderku” w przestrzeni pozy.
    • Następnie weź każdą grupę ramek obrazu i załóż hipotezę o zgodności między nią a każdą grupą ramek na każdym obiekcie
    • Dla każdej z tych powiązań określ parametry pozy i dokonaj wpisu w tablicy akumulatorów dla bieżącego obiektu o wartości pozy.
    • Jeśli w tablicy akumulatorowej dowolnego obiektu znajduje się duża liczba głosów, można to zinterpretować jako dowód na obecność tego obiektu w tej pozie.
    • Dowody można sprawdzić za pomocą metody weryfikacji
  • Zauważ, że ta metoda wykorzystuje zestawy korespondencji, a nie indywidualne korespondencje correspond
    • Implementacja jest łatwiejsza, ponieważ każdy zestaw daje niewielką liczbę możliwych pozycji obiektów.
  • Poprawa
    • Odporność na hałas tej metody można poprawić, nie licząc głosów na obiekty w pozycjach, w których głos jest oczywiście niewiarygodny
    § Na przykład w przypadkach, gdy obiekt znajdowałby się w tej pozycji, grupa ramek obiektu byłaby niewidoczna.
    • Te ulepszenia są wystarczające, aby uzyskać działające systemy

Niezmienność

  • Istnieją właściwości geometryczne, które są niezmienne w stosunku do transformacji kamery
  • Najłatwiejszy do opracowania dla obrazów obiektów planarnych, ale można go również zastosować w innych przypadkach

Mieszanie geometryczne

  • Algorytm wykorzystujący niezmienniki geometryczne do głosowania na hipotezy dotyczące obiektów
  • Podobnie jak w przypadku grupowania póz, jednak zamiast głosowania nad pozą, teraz głosujemy nad geometrią
  • Technika pierwotnie opracowana do dopasowywania cech geometrycznych (nieskalibrowane widoki afiniczne modeli płaskich) z bazą danych takich cech
  • Szeroko stosowany do dopasowywania wzorców, CAD/CAM i obrazowania medycznego.
  • Trudno wybrać rozmiar wiader
  • Trudno mieć pewność, co oznacza „dość”. Dlatego może istnieć pewne niebezpieczeństwo, że stół się zatka.

Niezmienna skala przekształcenia cech (SIFT)

  • Punkty kluczowe obiektów są najpierw wyodrębniane z zestawu obrazów referencyjnych i przechowywane w bazie danych
  • Obiekt jest rozpoznawany na nowym obrazie przez indywidualne porównanie każdej cechy z nowego obrazu z tą bazą danych i znalezienie kandydujących pasujących cech na podstawie odległości euklidesowej ich wektorów cech.
  • Lowe (2004)

Przyspieszone niezawodne funkcje (SURF)

  • Solidny detektor i deskryptor obrazu
  • Wersja standardowa jest kilka razy szybsza niż SIFT, a jej autorzy twierdzą, że jest bardziej odporna na różne przekształcenia obrazu niż SIFT
  • W oparciu o sumy aproksymowanych odpowiedzi falkowych Haara 2D i efektywnie wykorzystano obrazy integralne.
  • Bay i in. (2008)

Torba reprezentacji słów

Algorytm genetyczny

Algorytmy genetyczne mogą działać bez wcześniejszej wiedzy o danym zbiorze danych i mogą opracowywać procedury rozpoznawania bez interwencji człowieka. Niedawny projekt osiągnął 100-procentową dokładność w przypadku wzorcowych zestawów danych obrazów motocykli, twarzy, samolotów i samochodów z Caltech oraz 99,4 procent dokładności w przypadku zestawów danych obrazów gatunków ryb.

Inne podejścia

Aplikacje

Metody rozpoznawania obiektów mają następujące zastosowania:

Ankiety

  • Daniilides i Eklundh, Edelman.
  • Roth, Peter M. i zima, Martin (2008). "BADANIE METODY ROZPOZNAWANIA OBIEKTÓW W oparciu o wygląd" (PDF) . Raport techniczny . ICG-TR-01/08.

Zobacz też

Listy

Uwagi

Bibliografia

Linki zewnętrzne