Twierdzenie o aproksymacji uniwersalnej - Universal approximation theorem

W matematycznej teorii sztucznych sieci neuronowych , uniwersalne twierdzenia zbliżanie się wyniki, które tworzą się gęstość danego algorytmicznie generowanej klasy funkcje w obrębie danej funkcji miejsca zainteresowania. Zazwyczaj wyniki te dotyczą możliwości aproksymacji architektury sprzężenia do przodu na przestrzeni funkcji ciągłych między dwiema przestrzeniami euklidesowymi , a aproksymacja dotyczy topologii zbieżności zwartej . Jednak istnieje również wiele różnych wyników między przestrzeniami nieeuklidesowymi a innymi powszechnie używanymi architekturami i, bardziej ogólnie, algorytmicznie generowanymi zestawami funkcji, takimi jakarchitektura splotowych sieci neuronowych (CNN), radialne funkcje bazowe lub sieci neuronowe o określonych właściwościach. Większość uniwersalnych twierdzeń aproksymacyjnych można podzielić na dwie klasy. Pierwsza określa ilościowo możliwości aproksymacji sieci neuronowych z dowolną liczbą sztucznych neuronów ( przypadek „ dowolna szerokość ”), a druga skupia się na przypadku z dowolną liczbą warstw ukrytych, z których każda zawiera ograniczoną liczbę sztucznych neuronów (przypadek „ dowolna głębokość " Obudowa).

Twierdzenia o aproksymacji uniwersalnej sugerują, że sieci neuronowe mogą reprezentować szeroką gamę interesujących funkcji, gdy mają odpowiednie wagi. Z drugiej strony, zazwyczaj nie zapewniają konstrukcji ciężarków, a jedynie stwierdzają, że taka konstrukcja jest możliwa.

Historia

Jedna z pierwszych wersji przypadku arbitralnej szerokości została udowodniona przez George'a Cybenko w 1989 roku dla sigmoidalnych funkcji aktywacji. Kurt Hornik wykazał w 1991 roku, że to nie konkretny wybór funkcji aktywacji, ale raczej sama wielowarstwowa architektura sprzężenia do przodu daje sieciom neuronowym potencjał bycia uniwersalnymi aproksymatorami. Moshe Leshno i wsp. w 1993 r., a później Allan Pinkus w 1999 r. wykazali, że uniwersalna właściwość aproksymacji jest równoważna posiadaniu funkcji aktywacji niebędącej wielomianem.

Dowolna głębokość przypadku badano również przez wielu autorów, takich jak: Zhou Lu et al w 2017, i Boris Hanin Mark Sellke w 2018 r, i Patrick Kidger i Terry Lyons w 2020. Wynik minimalną szerokość na warstwie rafinacji i w dla pozostałych sieci.

Istnieje kilka rozszerzeń tego twierdzenia, takich jak nieciągłe funkcje aktywacji, domeny niezwarte, sieci certyfikowane oraz alternatywne architektury i topologie sieci.

Ograniczenia

Żaden zbiór sieci neuronowych nie jest w stanie nauczyć się strukturalnego modelu przyczynowego , tj. „arbitralnie złożona i ekspresyjna sieć neuronowa nie jest w stanie przewidzieć skutków interwencji na podstawie samych danych obserwacyjnych”, nawet przy uniwersalnej aproksymacji sieci neuronowych, zgodnie z hierarchią przyczynową twierdzenie . Wprowadzono jednak nowy ich specjalny typ, neuronowy model przyczynowy , podatny na gradientowe opadanie , oraz opracowano algorytm „zarówno wystarczający, jak i niezbędny do określenia, czy można na podstawie danych wywnioskować efekt przyczynowy”.

Sprawa o dowolnej szerokości

Klasyczna postać uniwersalnego twierdzenia o aproksymacji dla dowolnej szerokości i ograniczonej głębokości jest następująca. Rozszerza klasyczne wyniki George'a Cybenko i Kurta Hornika .

Uniwersalne twierdzenie o aproksymacji: Ustal funkcję ciągłą (funkcję aktywacji) i dodatnie liczby całkowite . Funkcja jest wielomianem wtedy i tylko wtedy, gdy dla każdego ciągłego funkcji (funkcja docelowej), wszystkie zwartą podzbiór o i co istnieje ciągłe funkcji (Wyjściem Layer) z reprezentacji

gdzie są sk afinicznej mapy i oznacza kompozycję składnikach, tak, że przybliżenie związany

obowiązuje dla dowolnego arbitralnie małego (odległość od do może być nieskończenie mała).

Twierdzenie mówi, że wynik pierwszej warstwy może aproksymować każdą dobrze zachowaną funkcję . Taką dobrze zachowaną funkcję można również aproksymować siecią o większej głębokości, stosując tę ​​samą konstrukcję dla pierwszej warstwy i aproksymując funkcję tożsamościową późniejszymi warstwami.

Sprawa o arbitralnej głębokości

Wersje „podwójne” twierdzenia uwzględniają sieci o ograniczonej szerokości i dowolnej głębokości. Wariant twierdzenia o uniwersalnej aproksymacji został udowodniony dla przypadku arbitralnej głębokości przez Zhou Lu i in. w 2017 r. Wykazali, że sieci o szerokości n+4 z funkcjami aktywacji ReLU mogą aproksymować każdą całkowalną funkcję Lebesgue'a na n- wymiarowej przestrzeni wejściowej w odniesieniu do odległości, jeśli pozwoli się na wzrost głębokości sieci. Wykazano również, że siła wyrazu jest ograniczona, jeśli szerokość jest mniejsza lub równa n . Wszystkie funkcje całkowalne Lebesgue'a z wyjątkiem zerowego zestawu miar nie mogą być aproksymowane przez sieci ReLU o szerokości n . W tej samej pracy wykazano, że sieci ReLU o szerokości n+1 są wystarczające do aproksymacji dowolnej ciągłej funkcji n- wymiarowych zmiennych wejściowych. Poniższe uściślenie określa optymalną minimalną szerokość, dla której takie przybliżenie jest możliwe iz powodu.

Uniwersalne twierdzenie o aproksymacji (odległość L1, aktywacja ReLU, dowolna głębokość, minimalna szerokość). Dla każdego p-zabudowy Bochner-Lebesgue'a funkcji i każdy istnieje w pełni połączony Relu sieci szerokości dokładnie spełniających

.

Ponadto istnieje funkcja i niektóre , dla których nie ma w pełni połączonej sieci ReLU o szerokości mniejszej niż spełniająca powyższą granicę aproksymacji.

Razem, centralny wynik daje następujące uniwersalne twierdzenie o aproksymacji dla sieci o ograniczonej szerokości.

Twierdzenie o uniwersalnej aproksymacji ( aktywacja nieafiniczna , dowolna głębokość , ograniczona szerokość). Niech będzie zwartym podzbiorem . Niech będzie dowolną nieafiniczną funkcją ciągłą, która jest w sposób ciągły różniczkowalna w co najmniej jednym punkcie, z niezerową pochodną w tym punkcie. Pozwolić oznaczają przestrzeń sieci neuronowych paszowych do przodu z neuronów wejściowych neuronów wyjściowych oraz dowolnej liczby warstw ukrytych każdy z neuronów, tak że każdy ukryte neuron posiada funkcję aktywacji i każdy neuron wyjściowy ma tożsamość jako jego funkcji aktywacji, z wejściem warstwa i warstwa wyjściowa . Następnie podano każdy i każdy , istnieje takie, że

Innymi słowy, jest gęsty w stosunku do jednolitej topologii .

Określono pewne warunki konieczne dla przypadku ograniczonej szerokości i dowolnej głębokości, ale nadal istnieje luka między znanymi warunkami wystarczającymi i koniecznymi.

Wprowadzanie wykresu

Uzyskanie użytecznej aproksymacji funkcji uniwersalnej na grafach (a raczej na klasach izomorfizmu grafów ) było od dawna problemem. Popularne grafowe splotowe sieci neuronowe (GCN lub GNN) można uznać za tak samo dyskryminujące, jak test izomorfizmu grafu Weisfeilera-Lemana. W 2020 r. Brüel-Gabrielsson ustalił wynik uniwersalnego twierdzenia o aproksymacji, pokazujący, że reprezentacja grafu z pewnymi właściwościami iniektywnymi jest wystarczająca do aproksymacji funkcji uniwersalnej na grafach ograniczonych i ograniczonej aproksymacji funkcji uniwersalnej na grafach nieograniczonych, z towarzyszącymi # krawędziami # węzłami -runtime metoda, która działała zgodnie z najnowszymi osiągnięciami techniki na zbiorze wzorców.

Zobacz też

Bibliografia