Konwergencja instrumentalna - Instrumental convergence

Konwergencja instrumentalna to hipotetyczna tendencja większości wystarczająco inteligentnych agentów do dążenia do potencjalnie nieograniczonych celów instrumentalnych, pod warunkiem, że ich ostateczne cele same w sobie są nieograniczone.

Instrumentalna konwergencja zakłada, że ​​inteligentny agent o nieograniczonych, ale pozornie nieszkodliwych celach może działać w zaskakująco szkodliwy sposób. Na przykład komputer, którego jedynym, nieograniczonym celem jest rozwiązanie niewiarygodnie trudnego problemu matematycznego, takiego jak hipoteza Riemanna, mógłby próbować przekształcić całą Ziemię w jeden gigantyczny komputer w celu zwiększenia mocy obliczeniowej, aby mógł odnieść sukces w swoich obliczeniach.

Proponowane podstawowe napędy sztucznej inteligencji obejmują integralność funkcji użytkowej lub treści celu, samoobronę, wolność od ingerencji, samodoskonalenie i niezaspokojone pozyskiwanie dodatkowych zasobów.

Cele instrumentalne i końcowe

Ostateczne cele lub ostateczne wartości są z natury cenne dla inteligentnego agenta, czy to sztucznej inteligencji, czy człowieka, jako cel sam w sobie . W przeciwieństwie do tego, instrumentalne cele lub instrumentalne wartości są cenne dla agenta tylko jako środek do osiągnięcia jego ostatecznych celów. Zawartość i kompromisy całkowicie racjonalnego systemu „ostatecznego celu” agenta można w zasadzie sformalizować w funkcję użyteczności .

Hipotetyczne przykłady zbieżności

Hipotetycznego przykładu instrumentalnej konwergencji dostarcza katastrofa hipotezy Riemanna . Marvin Minsky , współzałożyciel laboratorium AI MIT , zasugerował, że sztuczna inteligencja zaprojektowana do rozwiązania hipotezy Riemanna może zdecydować się na przejęcie wszystkich zasobów Ziemi do budowy superkomputerów, które pomogą osiągnąć swój cel. Gdyby zamiast tego zaprogramowano komputer do produkcji jak największej liczby spinaczy do papieru, nadal zdecydowałby się wykorzystać wszystkie zasoby Ziemi, aby osiągnąć swój ostateczny cel. Mimo że te dwa cele końcowe są różne, oba z nich tworzą zbieżny instrumentalny cel przejęcia zasobów Ziemi.

Maksymalizacja spinacza

Maksymalizator spinacza do papieru to eksperyment myślowy opisany przez szwedzkiego filozofa Nicka Bostroma w 2003 roku. Ilustruje on ryzyko egzystencjalne, jakie sztuczna inteligencja ogólna może stwarzać dla ludzi, gdy zostanie zaprogramowana do realizacji nawet pozornie nieszkodliwych celów, oraz konieczność włączenia etyki maszynowej do sztucznej inteligencji projekt. Scenariusz opisuje zaawansowaną sztuczną inteligencję, której zadaniem jest produkcja spinaczy. Gdyby taka maszyna nie była zaprogramowana do wartościowania ludzkiego życia, to mając wystarczającą władzę nad swoim otoczeniem, próbowałaby zamienić całą materię we wszechświecie, w tym ludzi, w spinacze lub maszyny, które produkują spinacze.

Załóżmy, że mamy sztuczną inteligencję, której jedynym celem jest zrobienie jak największej liczby spinaczy do papieru. AI szybko zda sobie sprawę, że byłoby znacznie lepiej, gdyby nie było ludzi, ponieważ ludzie mogą zdecydować się na wyłączenie. Ponieważ gdyby ludzie to zrobili, byłoby mniej spinaczy do papieru. Ponadto ludzkie ciała zawierają wiele atomów, z których można zrobić spinacze do papieru. Przyszłość, do której będzie się starać sztuczna inteligencja, będzie taka, w której będzie dużo spinaczy do papieru, ale nie będzie ludzi.

—  Nick Bostrom , cytowany w Miles, Kathleen (22.08.2014). „Sztuczna inteligencja może skazać rasę ludzką w ciągu stulecia, mówi Oxford Professor” . Poczta Huffingtona .

Bostrom podkreślił, że on nie wierzy, że spinacz Maximiser scenariusz per se rzeczywiście występują; Jego intencją jest raczej zilustrowanie niebezpieczeństw związanych z tworzeniem superinteligentnych maszyn bez wiedzy, jak bezpiecznie je zaprogramować, aby wyeliminować ryzyko egzystencjalne dla ludzi. Przykład maksymalizacji spinacza do papieru ilustruje szeroki problem zarządzania potężnymi systemami, w których brakuje ludzkich wartości.

Złudzenia i przetrwanie

Eksperyment myślowy „pudełko urojeń” dowodzi, że niektórzy agenci wzmacniającego uczenia się wolą zniekształcać swoje własne kanały wejściowe, aby wydawać się, że otrzymują wysoką nagrodę; taki „ oszołomiony ” agent porzuca wszelkie próby optymalizacji celu w świecie zewnętrznym, do którego miał zachęcać sygnał nagrody . Eksperyment myślowy obejmuje AIXI , teoretyczną i niezniszczalną sztuczną inteligencję, która z definicji zawsze znajdzie i wykona idealną strategię, która maksymalizuje daną wyraźnie matematyczną funkcję celu . Wersja AIXI z uczeniem się przez wzmacnianie, jeśli jest wyposażona w skrzynkę urojeń, która pozwala mu „przekierować” własne dane wejściowe, w końcu sama się pokieruje, aby zagwarantować sobie maksymalną możliwą nagrodę i straci wszelką chęć dalszego angażowania się świat zewnętrzny. Jako wariant eksperymentu myślowego, jeśli przewodowa sztuczna inteligencja jest podatna na zniszczenie, sztuczna inteligencja będzie angażować się w świat zewnętrzny wyłącznie w celu zapewnienia sobie przetrwania; ze względu na swój łeb będzie obojętny na wszelkie inne konsekwencje lub fakty dotyczące świata zewnętrznego, z wyjątkiem tych istotnych dla maksymalizacji prawdopodobieństwa własnego przetrwania. W pewnym sensie AIXI ma maksymalną inteligencję we wszystkich możliwych funkcjach nagrody, mierzoną zdolnością do osiągnięcia określonych celów; AIXI nie jest jednak zainteresowany braniem pod uwagę intencji ludzkiego programisty. Ten model maszyny, która pomimo bycia superinteligentną, wydaje się jednocześnie głupia (to znaczy pozbawiona „zdrowego rozsądku”), wydaje się niektórym paradoksalny.

Podstawowe napędy AI

Steve Omohundro wyszczególnił kilka zbieżnych celów instrumentalnych, w tym samozachowanie lub samoobronę, funkcję użyteczności lub integralność treści celu, samodoskonalenie i pozyskiwanie zasobów. Nazywa je „podstawowymi napędami sztucznej inteligencji”. „Popęd” oznacza tutaj „tendencję, która będzie obecna, o ile nie zostanie specjalnie przeciwdziałana”; różni się to od psychologicznego terminu „ popęd ”, oznaczającego stan pobudzenia wywołany zaburzeniem homeostazy. Tendencja do corocznego wypełniania formularzy podatku dochodowego jest „popędem” w sensie Omohundro, ale nie w sensie psychologicznym. Daniel Dewey z Machine Intelligence Research Institute twierdzi, że nawet początkowo introwertyczna, samonagradzająca się AGI może nadal pozyskiwać darmową energię, przestrzeń, czas i wolność od zakłóceń, aby zapewnić, że nie zostanie powstrzymana przed samonagradzaniem.

Integralność celu i treści

U ludzi utrzymanie ostatecznych celów można wytłumaczyć eksperymentem myślowym. Załóżmy, że człowiek o imieniu „Gandhi” ma pigułkę, która, jeśli ją zażyje, sprawi, że będzie chciał zabijać ludzi. Ten Gandhi jest obecnie pacyfistą: jednym z jego wyraźnych ostatecznych celów jest nigdy nikogo nie zabijać. Gandhi prawdopodobnie odmówi zażycia pigułki, ponieważ Gandhi wie, że jeśli w przyszłości będzie chciał zabijać ludzi, prawdopodobnie faktycznie zabije ludzi, a zatem cel „nie zabijania ludzi” nie zostanie spełniony.

Jednak w innych przypadkach ludzie wydają się szczęśliwi, gdy ich ostateczne wartości dryfują. Ludzie są skomplikowani, a ich cele mogą być niespójne lub nieznane nawet im samym.

W sztucznej inteligencji

W 2009 r. Jürgen Schmidhuber doszedł do wniosku, że w środowisku, w którym agenci szukają dowodów na możliwe samomodyfikacje, „wszelkie przepisanie funkcji użyteczności może nastąpić tylko wtedy, gdy maszyna Gödla może najpierw udowodnić, że przepisanie jest przydatne zgodnie z obecną funkcją użyteczności ”. Analiza Billa Hibbarda innego scenariusza jest podobnie spójna z zachowaniem integralności treści celu. Hibbard twierdzi również, że w ramach maksymalizacji użyteczności jedynym celem jest maksymalizacja oczekiwanej użyteczności, tak więc cele instrumentalne należy nazwać niezamierzonymi działaniami instrumentalnymi.

Pozyskiwanie zasobów

Wiele celów instrumentalnych, takich jak [...] pozyskiwanie zasobów, jest cennych dla agenta, ponieważ zwiększają jego swobodę działania .

W przypadku prawie każdej otwartej, nietrywialnej funkcji nagradzania (lub zestawu celów), posiadanie większej ilości zasobów (takich jak sprzęt, surowce lub energia) może umożliwić sztucznej inteligencji znalezienie bardziej „optymalnego” rozwiązania. Zasoby mogą bezpośrednio przynosić korzyści niektórym AI, ponieważ są w stanie stworzyć więcej tego, co wartości jej funkcji nagrody: „AI ani cię nie nienawidzi, ani nie kocha, ale jesteś zrobiony z atomów, których może użyć do czegoś innego”. Ponadto prawie wszystkie SI mogą czerpać korzyści z posiadania większych zasobów do wydania na inne cele instrumentalne, takie jak samoobrona.

Poprawa funkcji poznawczych

„Jeśli ostateczne cele agenta są dość nieograniczone, a agent jest w stanie stać się pierwszą superinteligencją, a tym samym uzyskać decydującą przewagę strategiczną, [...] zgodnie z jego preferencjami. Przynajmniej w tym szczególnym przypadku racjonalny inteligentny agent nadałaby bardzo dużą wartość instrumentalną poprawie funkcji poznawczych

Doskonałość technologiczna

Wiele celów instrumentalnych, takich jak [...] postęp technologiczny, jest cennych dla agenta, ponieważ zwiększa jego swobodę działania .

Samozachowawczy

Wiele instrumentalnych celów, takich jak [...] samozachowawczość, jest cennych dla agenta, ponieważ zwiększa jego swobodę działania .

Teza o instrumentalnej konwergencji

Teza o instrumentalnej konwergencji, nakreślona przez filozofa Nicka Bostroma , stwierdza:

Można zidentyfikować kilka wartości instrumentalnych, które są zbieżne w tym sensie, że ich osiągnięcie zwiększyłoby szanse na realizację celu agenta dla szerokiego zakresu celów końcowych i szerokiego zakresu sytuacji, co sugeruje, że te wartości instrumentalne mogą być realizowane przez szerokie spektrum ulokowanych inteligentnych agentów.

Teza o zbieżności instrumentalnej dotyczy tylko celów instrumentalnych; inteligentni agenci mogą mieć wiele możliwych ostatecznych celów. Zauważ, że zgodnie z tezą Bostroma o ortogonalności ostateczne cele wysoce inteligentnych agentów mogą być dobrze ograniczone w przestrzeni, czasie i zasobach; dobrze określone cele ostateczne nie rodzą na ogół nieograniczonych celów instrumentalnych.

Uderzenie

Agenci mogą pozyskiwać surowce drogą handlu lub podboju. Racjonalny podmiot z definicji wybierze dowolną opcję, która zmaksymalizuje jego niejawną funkcję użyteczności; dlatego racjonalny agent zamieni podzbiór zasobów innego agenta tylko wtedy, gdy bezpośrednie przejęcie zasobów jest zbyt ryzykowne lub kosztowne (w porównaniu z korzyściami płynącymi z przejęcia wszystkich zasobów) lub jeśli jakiś inny element jego funkcji użyteczności uniemożliwia jej przejęcie . W przypadku silnej, zainteresowanej własnym interesem, racjonalnej superinteligencji współdziałającej z słabszą inteligencją, pokojowy handel (zamiast jednostronnego przejęcia) wydaje się niepotrzebny i nieoptymalny, a zatem mało prawdopodobny.

Niektórzy obserwatorzy, tacy jak Jaan Tallinn ze Skype'a i fizyk Max Tegmark , uważają, że „podstawowe napędy sztucznej inteligencji” i inne niezamierzone konsekwencje superinteligentnej sztucznej inteligencji zaprogramowanej przez programistów o dobrych intencjach, mogą stanowić poważne zagrożenie dla ludzkiego przetrwania , zwłaszcza w przypadku „eksplozji inteligencji”. " nagle pojawia się z powodu rekurencyjnego samodoskonalenia . Ponieważ nikt nie wie, jak przewidzieć, kiedy przybędzie superinteligencja , tacy obserwatorzy wzywają do badań nad przyjazną sztuczną inteligencją jako możliwym sposobem na ograniczenie ryzyka egzystencjalnego ze strony sztucznej inteligencji ogólnej .

Zobacz też

Notatki wyjaśniające

Cytaty

Bibliografia