Dylemat więźnia - Prisoner's dilemma

Standardowa macierz spłaty dylematu więźnia
b
A
B
milczy
B
zdradza
A
milczy
-1
-1
0
-3
A
zdradza
-3
0
-2
-2

W dylemat więźnia jest standardowym przykładem gry analizowane w teorii gier , która pokazuje, dlaczego dwie zupełnie racjonalne osoby mogą nie współpracować, nawet jeśli wydaje się, że jest to w ich najlepszym interesie, aby to zrobić. Została stworzona przez Merrilla Flooda i Melvina Dreshera podczas pracy w RAND w 1950 roku. Albert W. Tucker sformalizował grę nagrodami z więzienia i nazwał ją „dylematem więźnia”, przedstawiając ją w następujący sposób:

Dwóch członków organizacji przestępczej zostaje aresztowanych i uwięzionych. Każdy więzień przebywa w odosobnieniu bez możliwości porozumiewania się z drugim. Prokuratorzy nie mają wystarczających dowodów, aby skazać parę na podstawie głównego zarzutu, ale mają wystarczająco dużo, aby skazać oboje z mniejszym zarzutem. Jednocześnie prokuratorzy proponują każdemu więźniowi targ. Każdy więzień ma możliwość albo zdrady drugiego, zeznając, że ten popełnił przestępstwo, albo współpracy z drugim milczeniem. Możliwe wyniki to:

  • Jeśli A i B zdradzą się nawzajem, każdy z nich odsiaduje dwa lata więzienia
  • Jeśli A zdradzi B, ale B zachowa milczenie, A zostanie uwolniony, a B odsiedzi trzy lata więzienia
  • Jeśli A milczy, ale B zdradza A, A odsiedzi trzy lata więzienia, a B zostanie uwolniony
  • Jeśli A i B zachowają milczenie, oboje będą odsiedzieć tylko jeden rok więzienia (za mniejszą opłatą).

Sugeruje się, że więźniowie nie będą mieli możliwości nagradzania lub karania swojego partnera poza otrzymanymi wyrokami więzienia i że ich decyzja nie wpłynie na ich reputację w przyszłości. Ponieważ zdrada partnera daje większą nagrodę niż współpraca z nim, wszyscy czysto racjonalni, interesowni więźniowie zdradzą drugiego, co oznacza, że ​​jedynym możliwym rezultatem dla dwóch czysto racjonalnych więźniów jest zdrada się nawzajem, nawet jeśli wzajemna współpraca przyniosłaby większe korzyści. nagroda. W rzeczywistości ludzie wykazują systemową skłonność do zachowań kooperacyjnych w tej i podobnych grach, pomimo tego, co przewidują proste modele „racjonalnego” działania w interesie własnym. Ta skłonność do współpracy jest znana od pierwszego testu przeprowadzonego w RAND; zaangażowane sekretarki ufały sobie nawzajem i pracowały razem, aby osiągnąć jak najlepszy wspólny rezultat. Dylemat więźnia stał się przedmiotem szeroko zakrojonych badań eksperymentalnych.

Istnieje również rozszerzona, „iterowana” wersja gry. W tej wersji klasyczna gra toczy się wielokrotnie pomiędzy tymi samymi więźniami, którzy nieustannie mają możliwość ukarania drugiego za poprzednie decyzje. Jeśli gracze znają liczbę rozegranych partii, wówczas (poprzez indukcję wsteczną ) dwóch klasycznie racjonalnych graczy zdradzi się wielokrotnie, z tych samych powodów, co wariant jednostrzałowy. W grze o nieskończonej lub nieznanej długości nie ma ustalonej optymalnej strategii, a turnieje z dylematami więźnia mają na celu rywalizację i testowanie algorytmów w takich przypadkach.

Gra w dylematy więźnia może być wykorzystana jako model dla wielu sytuacji w świecie rzeczywistym, w których występuje kooperacja. W potocznym użyciu określenie „dylemat więźnia” można odnosić do sytuacji, które nie odpowiadają ściśle formalnym kryteriom gier klasycznych lub iteracyjnych: na przykład takich, w których dwa podmioty mogłyby odnieść istotne korzyści ze współpracy lub cierpieć z powodu jej niepowodzenia. , ale uważają, że koordynacja ich działań jest trudna lub kosztowna – niekoniecznie niemożliwa.

Strategia na dylemat więźnia

Dwóch więźniów jest rozdzielonych do osobnych pomieszczeń i nie może się ze sobą komunikować. Normalna gra jest pokazana poniżej:

Więzień B

Więzień A
Więzień B milczy
( współpracuje )
Więzień B zdradza
( wady )
Więzień A milczy
( współpracuje )
Każdy służy 1 rok Więzień A: 3 lata
Więzień B: odchodzi na wolność
Więzień A zdradza
( wady )
Więzień A: zostaje uwolniony
Więzień B: 3 lata
Każdy służy 2 lata

Zakłada się, że obaj więźniowie rozumieją naturę gry, nie są wobec siebie lojalni i nie będą mieli możliwości odwetu lub nagrody poza grą. Bez względu na to, co zdecyduje drugi, każdy więzień otrzymuje wyższą nagrodę, zdradzając drugiego („uciekając”). Rozumowanie polega na przeanalizowaniu najlepszych odpowiedzi obu graczy : B albo będzie współpracował, albo odejdzie. Jeśli B współpracuje, A powinien zdezerterować, bo lepiej wyjść na wolność niż odsiedzieć rok. Jeśli B odejdzie, A również powinien wycofać się, ponieważ odsiadka przez 2 lata jest lepsza niż odsiedzenie 3. Tak więc w każdym razie A powinien wycofać się, ponieważ odejście jest najlepszą reakcją A, niezależnie od strategii B. Równoległe rozumowanie pokaże, że B powinien uchylić się.

Ponieważ ucieczka zawsze daje lepszą wypłatę niż współpraca, niezależnie od wyboru drugiego gracza, jest to strategia ściśle dominująca zarówno dla A, jak i B. Wzajemna ucieczka jest jedyną silną równowagą Nasha w grze (tj. jedynym wynikiem, z którego każdy gracz może zrobić gorzej tylko przez jednostronną zmianę strategii). Dylemat polega zatem na tym, że wzajemna współpraca daje lepsze rezultaty niż wzajemne odstępstwa, ale nie jest to wynik racjonalny, ponieważ wybór współpracy, z punktu widzenia własnego interesu, jest irracjonalny. Zatem dylemat więźnia jest grą, w której równowaga Nasha nie jest skuteczna w sensie Pareto.

Forma uogólniona

Strukturę tradycyjnego dylematu więźnia można uogólnić na podstawie oryginalnego kontekstu więźnia. Załóżmy, że obaj gracze są reprezentowani przez kolory czerwony i niebieski i że każdy z nich wybiera albo „współpracę” (milczenie) albo „defekt” (zdrada).

Jeśli obaj gracze współpracują, obaj otrzymują nagrodę R za współpracę. Jeśli obaj gracze zdezerterują, obaj otrzymują karę P . Jeśli niebieski odpadnie, podczas gdy Czerwony współpracuje, wtedy Niebieski otrzymuje wypłatę pokusy T , podczas gdy Czerwony otrzymuje wypłatę „frajera”, S . Podobnie, jeśli Niebieski współpracuje, a Czerwony defekt, to Niebieski otrzymuje wypłatę frajera S , podczas gdy Czerwony otrzymuje wypłatę pokusy T .

Można to wyrazić w postaci normalnej :

Kanoniczna macierz wypłat PD
czerwony
Niebieski
Współpracować Wada
Współpracować
r
r
T
S
Wada
S
T
P
P

i aby być grą w dylematy więźnia w ścisłym tego słowa znaczeniu, następujący warunek musi być spełniony dla wypłat:

Relacja wypłaty implikuje, że wzajemna współpraca jest lepsza od wzajemnej zdrady, podczas gdy relacje wypłat i implikują, że zdrada jest dominującą strategią dla obu agentów.

Przypadek szczególny: gra z darowiznami

„Gra z darowiznami” jest formą dylematu więźnia, w której współpraca oznacza zaoferowanie drugiemu graczowi korzyści b kosztem osobistym c przy b > c . Dezercja oznacza oferowanie niczego. Macierz wypłat jest zatem

czerwony
Niebieski
Współpracować Wada
Współpracować
bc
bc
b
c
Wada
c
b
0
0

Zwróć uwagę, że (tj. ), co kwalifikuje grę z darowiznami do gry iterowanej (patrz następna sekcja).

Gra z darowiznami może być stosowana na rynkach. Załóżmy, że X uprawia pomarańcze, Y uprawia jabłka. Krańcowa jabłka do pomarańczowego obrabiania X oznacza b , który jest większy niż marginalne wykorzystanie ( c ) pomarańczowego, ponieważ X ma nadwyżkę pomarańczy i bez jabłek. Podobnie, dla plantatora jabłek Y, użyteczność krańcowa pomarańczy wynosi b, podczas gdy użyteczność krańcowa jabłka wynosi c . Jeśli X i Y zakontraktują wymianę jabłka i pomarańczy, a każdy z nich dopełni swój koniec umowy, to każdy otrzyma wypłatę w wysokości b - c . Jeśli jeden „uszkodzi” i nie dostarczy zgodnie z obietnicą, zbieg otrzyma b , a kooperant straci c . Jeśli obaj defektują, to żaden z nich niczego nie zyskuje ani nie traci.

Powtarzany dylemat więźnia

Jeśli dwóch graczy gra dylemat więźnia więcej niż jeden raz z rzędu i pamiętają poprzednie działania przeciwnika i odpowiednio zmieniają swoją strategię, gra nazywa się iterowanym dylematem więźnia.

Oprócz ogólnej formy powyżej, wersja iteracyjna wymaga również tego , aby zapobiec naprzemiennej współpracy i ucieczkom, dającym większą nagrodę niż wzajemna współpraca.

Powtarzana gra w dylematy więźnia ma fundamentalne znaczenie dla niektórych teorii ludzkiej współpracy i zaufania. Zakładając, że gra może modelować transakcje między dwiema osobami wymagającymi zaufania, kooperacyjne zachowanie w populacjach może być modelowane przez wieloosobową, iterowaną wersję gry. W konsekwencji od lat fascynuje wielu badaczy. W 1975 roku Grofman i Pool oszacowali liczbę poświęconych jej artykułów naukowych na ponad 2000. Powtarzany dylemat więźnia nazywany jest także „ grą pokojowo-wojenną ”.

Jeśli gra jest rozgrywana dokładnie N razy i obaj gracze o tym wiedzą, optymalnie jest przegrać we wszystkich rundach. Jedyną możliwą równowagą Nasha jest zawsze defekt. Dowód jest indukcyjny : równie dobrze można uchylić się w ostatniej turze, ponieważ przeciwnik nie będzie miał szansy na późniejszy odwet. Dlatego obaj zdezerterują w ostatniej turze. W związku z tym gracz może równie dobrze zdystansować się w przedostatniej turze, ponieważ przeciwnik odejdzie w ostatniej, bez względu na to, co zrobi, i tak dalej. To samo dotyczy sytuacji, gdy długość gry jest nieznana, ale ma znany górny limit.

W przeciwieństwie do standardowego dylematu więźnia, w iterowanym dylemacie więźnia strategia ucieczki jest sprzeczna z intuicją i nie jest w stanie przewidzieć zachowania ludzkich graczy. Jednak w ramach standardowej teorii ekonomicznej jest to jedyna prawidłowa odpowiedź. Superrational strategii w dylemacie więźnia powtórzyć ze stałym N jest współpraca na superrational przeciwnika, a na granicy dużego N , wyniki doświadczalne dotyczące strategii zgadzają się z wersją superrational, a nie gra-teoretyczny racjonalne jednym.

Aby pojawiła się współpraca między racjonalnymi graczami stosującymi teorię gier, całkowita liczba rund N musi być dla graczy nieznana. W tym przypadku „zawsze defekt” może już nie być stricte dominującą strategią, a jedynie równowagą Nasha. Wśród wyników przedstawionych przez Roberta Aumanna w artykule z 1959 r. racjonalni gracze, którzy często wchodzą w interakcje w nieskończenie długich grach, mogą podtrzymać wynik współpracy.

Według eksperymentalnego badania przeprowadzonego w 2019 r. w American Economic Review, które przetestowało strategie rzeczywistych osób, które stosowali w powtarzających się sytuacjach dylematów więźniów, z doskonałym monitorowaniem, większość wybranych strategii zawsze była defektem, ciosem za wet i ponurym wyzwalaczem . Którą strategię wybrali badani, zależało od parametrów gry.

Strategia dla iterowanego dylematu więźnia

Zainteresowanie iterowanym dylematem więźnia (IPD) rozbudził w swojej książce The Evolution of Cooperation (1984) Robert Axelrod . Relacjonuje w nim zorganizowany przez siebie turniej z dylematu N- krokowego więźnia (z ustalonym N ), w którym uczestnicy muszą raz po raz wybierać wspólną strategię i mieć w pamięci swoje poprzednie spotkania. Axelrod zaprosił kolegów akademickich z całego świata do opracowania komputerowych strategii rywalizacji w turnieju IPD. Programy, które zostały wprowadzone, różniły się znacznie pod względem złożoności algorytmicznej, początkowej wrogości, zdolności do wybaczania i tak dalej.

Axelrod odkrył, że kiedy te starcia powtarzały się przez długi czas z wieloma graczami, każdy z innymi strategiami, strategie chciwe zwykle radzą sobie bardzo słabo na dłuższą metę, podczas gdy strategie bardziej altruistyczne radziły sobie lepiej, co oceniano wyłącznie na podstawie własnego interesu. Użył tego, aby pokazać możliwy mechanizm ewolucji zachowań altruistycznych od mechanizmów, które początkowo są czysto egoistyczne, poprzez dobór naturalny .

Zwycięską strategią deterministyczną było tit za tat, które opracował i włączył do turnieju Anatol Rapoport . Był to najprostszy ze wszystkich wprowadzonych programów, zawierający tylko cztery linijki BASIC i wygrał konkurs. Strategia polega po prostu na współpracy przy pierwszej iteracji gry; następnie gracz robi to, co jego przeciwnik zrobił w poprzednim ruchu. W zależności od sytuacji, nieco lepszą strategią może być „wet za wet z wybaczeniem”. Gdy przeciwnik zdezerteruje, w następnym ruchu gracz czasami i tak współpracuje, z małym prawdopodobieństwem (około 1–5%). Pozwala to na okazjonalne wyzdrowienie po wpadnięciu w pułapkę cyklu dezercji. Dokładne prawdopodobieństwo zależy od składu przeciwników.

Analizując strategie, które uzyskały najlepsze wyniki, Axelrod określił kilka warunków koniecznych, aby strategia odniosła sukces.

Miły
Najważniejszym warunkiem jest to, że strategia musi być „ładna”, to znaczy, że nie zepsuje się, zanim zrobi to przeciwnik (jest to czasami określane jako algorytm „optymistyczny”). Prawie wszystkie strategie z najlepszymi wynikami były dobre; dlatego czysto samolubna strategia nie „oszukuje” swojego przeciwnika, najpierw z powodów czysto egoistycznych.
Odwet
Jednak, przekonywał Axelrod, skuteczna strategia nie może być ślepym optymistą. Czasami musi się zemścić. Przykładem strategii bez odwetu jest Zawsze Współpracuj. To bardzo zły wybór, ponieważ „paskudne” strategie będą bezwzględnie wykorzystywać takich graczy.
Wyrozumiały
Skuteczne strategie muszą również wybaczać. Chociaż gracze będą się odpłacać, po raz kolejny wrócą do współpracy, jeśli przeciwnik nie będzie kontynuował zdrady. To zatrzymuje długie serie zemsty i kontr zemsty, maksymalizując punkty.
Nie zazdrosny
Ostatnią cechą jest brak zazdrości, czyli nie dążenie do zdobycia więcej punktów niż przeciwnik.

Optymalną strategią (maksymalizującą punkty) dla jednorazowej gry PD jest po prostu dezercja; jak wyjaśniono powyżej, jest to prawdą niezależnie od składu przeciwników. Jednak w iterowanej grze PD optymalna strategia zależy od strategii prawdopodobnych przeciwników i tego, jak zareagują na dezercje i współpracę. Rozważmy na przykład populację, w której wszyscy za każdym razem ulegają degeneracji, z wyjątkiem jednego osobnika stosującego strategię sikora za tat. Ta osoba jest w nieco gorszej sytuacji z powodu przegranej w pierwszej turze. W takiej populacji optymalną strategią dla tej osoby jest dezercja za każdym razem. W populacji, w której pewien procent zawsze dezerteruje, a reszta to sikorki dla graczy tatami, optymalna strategia dla danej osoby zależy od odsetka i długości gry.

W strategii Pavlov, win-stay, lose-switch , w obliczu braku współpracy gracz zmienia strategię w następnej turze. W pewnych okolicznościach Pawłow pokonuje wszystkie inne strategie, preferując traktowanie współgraczy stosujących podobną strategię.

Wyprowadzenie optymalnej strategii odbywa się zazwyczaj na dwa sposoby:

  • Równowaga bayesowska Nasha : Jeśli można określić rozkład statystyczny przeciwnych strategii (np. 50% tit za tat, 50% zawsze współpracują), optymalna strategia przeciwdziałania może być wyprowadzona analitycznie.
  • Przeprowadzono symulacje Monte Carlo populacji, w których osoby z niskimi wynikami umierają, a te z wysokimi rozmnażają się ( algorytm genetyczny do znalezienia optymalnej strategii). Mieszanka algorytmów w populacji końcowej generalnie zależy od mieszanki w populacji początkowej. Wprowadzenie mutacji (losowa zmienność podczas reprodukcji) zmniejsza zależność od populacji wyjściowej; Eksperymenty empiryczne z takimi systemami mają tendencję do produkowania sikory dla grających na tat (patrz na przykład Chess 1988), ale nie istnieje żaden dowód analityczny, że będzie to miało miejsce zawsze.

Chociaż sikorka za siatkę jest uważana za najbardziej solidną podstawową strategię, zespół z Southampton University w Anglii przedstawił nową strategię na iterowanym konkursie dylemat więźnia z okazji 20-lecia, która okazała się bardziej skuteczna niż sikorka za siatkę. Strategia ta opierała się na zmowie między programami w celu uzyskania jak największej liczby punktów za pojedynczy program. Uczelnia zgłosiła do konkursu 60 programów, które miały na celu wzajemne uznanie poprzez serię od pięciu do dziesięciu ruchów na starcie. Po dokonaniu takiego rozpoznania, jeden program zawsze będzie współpracował, a drugi zawsze dezerteruje, zapewniając maksymalną liczbę punktów dla dezertera. Jeśli program zorientowałby się, że gra gracza spoza Southhampton, będzie ciągle defektował, próbując zminimalizować wynik konkurencyjnego programu. W rezultacie wyniki turnieju Prisoners' Dilemma Tournament z 2004 roku pokazują strategie Uniwersytetu Southampton na pierwszych trzech miejscach, pomimo mniejszej liczby wygranych i znacznie większej liczby porażek niż strategia GRIM. (W turnieju PD celem gry nie jest „wygrywanie” meczów – można to łatwo osiągnąć poprzez częste odstępstwa). Ponadto, nawet bez niejawnej zmowy między strategiami oprogramowania (wykorzystywanej przez zespół z Southampton), „ty za zupełny” nie zawsze jest absolutnym zwycięzcą danego turnieju; bardziej precyzyjnie byłoby powiedzieć, że jego długofalowe wyniki w serii turniejów przewyższają rywali. (W każdym przypadku daną strategię można nieco lepiej dopasować do konkurencji niż sikora za kota, ale sikora za kota jest bardziej wytrzymała). To samo dotyczy sikorki za wet z wariantem przebaczenia i innych optymalnych strategii: każdego dnia mogą nie „wygrać” z określoną mieszanką strategii kontrujących. Alternatywnym sposobem ujmowania tego jest wykorzystanie symulacji Darwinian ESS . W takiej symulacji sikora za kota prawie zawsze będzie dominować, chociaż paskudne strategie będą wchodzić i wychodzić z populacji, ponieważ populacja sikora za kota jest penetrowana przez nieodwetowe, ładne strategie, które z kolei są łatwym łupem dla paskudnych. strategie. Richard Dawkins pokazał, że tutaj żadna statyczna mieszanka strategii nie tworzy stabilnej równowagi, a system zawsze będzie oscylował między granicami. Ta strategia zakończyła się zajęciem trzech pierwszych pozycji w konkursie, a także kilku pozycji w dół.

Strategia Southampton wykorzystuje fakt, że w tym konkretnym konkursie dopuszczono wiele zgłoszeń, a wyniki zespołu były mierzone na podstawie wyników gracza, który zdobył najwięcej punktów (co oznacza, że ​​korzystanie z samopoświęcających się graczy było formą minmaxingu ). . W zawodach, w których kontroluje się tylko jednego gracza, z pewnością lepszą strategią jest sikora za ziom. Ze względu na tę nową zasadę, ta rywalizacja ma również niewielkie znaczenie teoretyczne przy analizie strategii pojedynczego agenta w porównaniu z przełomowym turniejem Axelroda. Stanowiło to jednak podstawę do analizy sposobów osiągania strategii współpracy w ramach wieloagentowych, zwłaszcza w obecności szumu. W rzeczywistości, na długo przed rozegraniem tego turnieju według nowych zasad, Dawkins w swojej książce The Selfish Gene wskazał na możliwość wygranej takich strategii, jeśli dozwolone jest wielokrotne wejście, ale zauważył, że najprawdopodobniej Axelrod nie pozwoliłby na nie, gdyby były one dozwolone. został złożony. Opiera się również na omijaniu zasad dotyczących dylematu więźnia, ponieważ nie jest dozwolona komunikacja między dwoma graczami, co prawdopodobnie zrobiły programy z Southampton ze swoim otwierającym „dziesięć ruchów”, aby rozpoznać się nawzajem; to tylko wzmacnia, jak cenna może być komunikacja w zmianie równowagi w grze.

Stochastyczny, iterowany dylemat więźnia

W stochastycznej, iterowanej grze w dylematy więźnia, strategie określane są w kategoriach „prawdopodobieństw współpracy”. W spotkania pomiędzy graczem X oraz odtwarzacz Y , X „strategia jest określony przez zbiór prawdopodobieństw P współpracujących z Y . P jest funkcją wyników ich poprzednich spotkań lub ich podzbioru. Jeśli P jest funkcją tylko ich ostatnich n spotkań, nazywa się to strategią „pamięci-n”. Strategia pamięci-1 jest następnie określona przez cztery prawdopodobieństwa współpracy: , gdzie jest prawdopodobieństwem, że X będzie współpracował w obecnym spotkaniu, biorąc pod uwagę, że poprzednie spotkanie charakteryzowało się (ab). Na przykład, jeśli poprzednie spotkanie było tym, w którym X współpracował, a Y uciekł, to istnieje prawdopodobieństwo, że X będzie współpracował w obecnym spotkaniu. Jeśli każde z prawdopodobieństw wynosi 1 lub 0, strategię nazywamy deterministyczną. Przykładem strategii deterministycznej jest strategia tit za tat zapisana jako P = {1,0,1,0}, w której X odpowiada tak jak Y w poprzednim spotkaniu. Inną jest strategia wygraj-zostań, przegraj-przełącz zapisana jako P ={1,0,0,1}, w której X odpowiada jak w poprzednim spotkaniu, jeśli to była „wygrana” (tj. cc lub dc), ale się zmienia strategia, jeśli była to strata (tj. cd lub dd). Wykazano, że dla każdej strategii pamięci-n istnieje odpowiednia strategia pamięci-1, która daje te same wyniki statystyczne, tak że należy brać pod uwagę tylko strategie pamięci-1.

Jeśli zdefiniujemy P jako powyższy 4-elementowy wektor strategii X i jako 4-elementowy wektor strategii Y , dla X można zdefiniować macierz przejścia M, której ij- tym wpisem jest prawdopodobieństwo, że wynik konkretnego spotkania między X a Y będzie j , biorąc pod uwagę, że poprzednie spotkanie to i , gdzie i i j są jednym z czterech wskaźników wyniku: cc , cd , dc lub dd . Na przykład, z punktu widzenia X , prawdopodobieństwo, że wynikiem obecnego spotkania jest cd, biorąc pod uwagę, że poprzednim spotkaniem było cd, jest równe . (Wskaźniki dla Q są z punktu widzenia Y : wynik cd dla X jest wynikiem dc dla Y. ) Zgodnie z tymi definicjami, iterowany dylemat więźnia kwalifikuje się jako proces stochastyczny, a M jest macierzą stochastyczną , pozwalającą wszystkim zastosowanie teorii procesów stochastycznych.

Jednym z wyników teorii stochastycznej jest to, że istnieje stacjonarny wektor v dla macierzy M taki, że . Bez utraty ogólności można określić, że v jest znormalizowane tak, że suma jego czterech składników jest jednością. Ij p wjazdu daje prawdopodobieństwo, że wyniki spotkania pomiędzy X i Y będzie J podano, że spotkanie n kroków poprzednia jest i . W granicy, gdy n zbliża się do nieskończoności, M zbiegnie się do macierzy o stałych wartościach, dając długoterminowe prawdopodobieństwa spotkania produkującego j, które będzie niezależne od i . Innymi słowy, rzędy będą identyczne, dając długoterminowe prawdopodobieństwa wyniku równowagi iterowanego dylematu więźniów bez konieczności jednoznacznej oceny dużej liczby interakcji. Widać, że v jest stacjonarnym wektorem, aw szczególności , tak że każdy rząd będzie równy v . Zatem stacjonarny wektor określa prawdopodobieństwa wyniku równowagi dla X . Definiując i jako krótkoterminowe wektory wypłat dla wyników {cc,cd,dc,dd} (z punktu widzenia X ), wypłaty równowagowe dla X i Y można teraz określić jako i , pozwalając na dwie strategie P i Q do porównania pod kątem ich długoterminowych wypłat.

Strategie zero-determinantowe

Związek między determinantą zerową (ZD), współpracą i strategią dezercji w iterowanym dylemacie więźnia (IPD) zilustrowany na diagramie Venna . Strategie współpracujące zawsze współpracują z innymi strategiami współpracującymi, a strategie odstępujące zawsze odstępują od innych strategii odstępujących. Obie zawierają podzbiory strategii, które są odporne na silną selekcję, co oznacza, że ​​żadna inna strategia pamięci-1 nie jest wybierana do inwazji takich strategii, gdy są one rezydentami populacji. Tylko współpracujące strategie zawierają podzbiór, który jest zawsze solidny, co oznacza, że ​​żadna inna strategia memory-1 nie jest wybierana do inwazji i zastąpienia takich strategii, zarówno przy silnej, jak i słabej selekcji . Punktem przecięcia ZD i dobrych strategii współpracy jest zestaw hojnych strategii ZD. Strategie wymuszenia to skrzyżowanie ZD i niesolidnych strategii dezercji. Tit-for-tat leży na przecięciu strategii współpracy, dezercji i ZD.

W 2012 roku William H. Press i Freeman Dyson opublikowali nową klasę strategii dla stochastycznego iterowanego dylematu więźnia, zwaną strategiami „determinanty zerowej” (ZD). Długoterminowe wypłaty dla spotkań między X i Y można wyrazić jako wyznacznik macierzy będącej funkcją dwóch strategii i krótkoterminowych wektorów wypłat: i , które nie obejmują stacjonarnego wektora v . Ponieważ funkcja determinująca jest liniowa w f , wynika z tego (gdzie U = {1,1,1,1}). Wszelkie strategie, dla których z definicji jest strategią ZD, a długoterminowe wypłaty są zgodne z relacją .

Tit-za-tat to strategia ZD, która jest „uczciwa” w tym sensie, że nie daje przewagi nad innym graczem. Jednak przestrzeń ZD zawiera również strategie, które w przypadku dwóch graczy mogą pozwolić jednemu graczowi jednostronnie ustalić wynik drugiego gracza lub alternatywnie zmusić gracza ewolucyjnego do osiągnięcia wypłaty o jakiś procent niższej niż jego własna. Wymuszony gracz może uciec, ale w ten sposób zraniłby się, uzyskując niższą wypłatę. W ten sposób rozwiązania wymuszające zamieniają powtarzany dylemat więźnia w rodzaj gry w ultimatum . W szczególności X jest w stanie wybrać strategię, dla której , jednostronnie ustalając określoną wartość z określonego zakresu wartości, niezależnie od strategii Y , daje X możliwość „wyłudzenia” gracza Y (i vice versa). (Okazuje się, że jeśli X próbuje ustawić konkretną wartość, to zakres możliwości jest znacznie mniejszy, składający się jedynie z pełnej współpracy lub całkowitej dezercji.)

Rozszerzenie IPD jest ewolucyjnym stochastycznym IPD, w którym względna obfitość poszczególnych strategii może się zmienić, przy względnie rosnących bardziej skutecznych strategiach. Proces ten można osiągnąć poprzez naśladowanie przez mniej skutecznych graczy strategii bardziej udanych lub przez eliminację mniej skutecznych graczy z gry, przy jednoczesnym mnożeniu tych bardziej udanych. Wykazano, że nieuczciwe strategie ZD nie są ewolucyjnie stabilne . Kluczową intuicją jest to, że ewolucyjnie stabilna strategia musi nie tylko być w stanie zaatakować inną populację (co mogą zrobić wymuszone strategie ZD), ale musi również dobrze radzić sobie z innymi graczami tego samego typu (co radzą sobie słabo z wymuszonymi graczami ZD, ponieważ zmniejszają każdy nadwyżki innych).

Teoria i symulacje potwierdzają, że poza krytyczną wielkością populacji wymuszenia ZD przegrywają w ewolucyjnej konkurencji z bardziej opartymi na współpracy strategiami, w wyniku czego średnia wypłata w populacji wzrasta, gdy populacja jest większa. Ponadto istnieją przypadki, w których szantażyści mogą nawet katalizować współpracę, pomagając wyrwać się ze starcia między jednolitymi uciekinierami a agentami, którzy wygrywają i przegrywają .

Podczas gdy wymuszone strategie ZD nie są stabilne w dużych populacjach, inna klasa ZD, zwana „szczodrymi” strategiami, jest zarówno stabilna, jak i solidna. W rzeczywistości, gdy populacja nie jest zbyt mała, strategie te mogą zastąpić każdą inną strategię ZD, a nawet dobrze sobie radzić z szeroką gamą ogólnych strategii dotyczących powtarzającego się dylematu więźnia, w tym wygraj-zostań, przegraj-przełącz. Zostało to udowodnione specjalnie w przypadku gry o darowizny przez Alexandra Stewarta i Joshuę Plotkina w 2013 roku. Hojne strategie będą współpracować z innymi graczami kooperacyjnymi, a w obliczu dezercji hojny gracz traci więcej użyteczności niż jego rywal. Strategie hojne to skrzyżowanie strategii ZD i tak zwanych „dobrych”, które zostały zdefiniowane przez Akina (2013) jako te, za które gracz reaguje na przeszłą wzajemną współpracę z przyszłą współpracą i dzieli równo oczekiwane wypłaty, jeśli otrzyma co najmniej spółdzielnia oczekiwana wypłata. Wśród dobrych strategii podzbiór hojny (ZD) sprawdza się dobrze, gdy populacja nie jest zbyt mała. Jeśli populacja jest bardzo mała, dominują strategie dezercji.

Ciągle powtarzany dylemat więźnia

Większość prac nad iterowanym dylematem więźnia skupiała się na dyskretnym przypadku, w którym gracze albo współpracują, albo uciekają, ponieważ model ten jest stosunkowo prosty do przeanalizowania. Jednak niektórzy badacze przyjrzeli się modelom ciągłego, powtarzanego dylematu więźnia, w którym gracze są w stanie wnieść zmienny wkład do drugiego gracza. Le i Boyd odkryli, że w takich sytuacjach współpraca jest znacznie trudniejsza do rozwinięcia niż w przypadku dyskretnego, powtarzanego dylematu więźnia. Podstawowa intuicja dotycząca tego wyniku jest prosta: w ciągłym dylemacie więźnia, jeśli populacja zaczyna w równowadze niewspółpracującej, gracze, którzy są tylko nieznacznie bardziej współpracujący niż niewspółpracujący, czerpią niewielkie korzyści z kojarzenia się ze sobą. Dla kontrastu, w dylemacie dyskretnego więźnia, cyce dla współpracowników otrzymują dużą wypłatę z kojarzenia się ze sobą w równowadze niewspółpracującej, w porównaniu z niewspółpracownikami. Ponieważ natura prawdopodobnie oferuje więcej możliwości zmiennej współpracy niż ścisłą dychotomię współpracy lub ucieczki, ciągły dylemat więźnia może pomóc wyjaśnić, dlaczego przykłady z życia cycków do współpracy podobnej do tatuażu są w naturze niezwykle rzadkie (np. Hammerstein), mimo że sikora za tat wydaje się solidna w modelach teoretycznych.

Powstanie stabilnych strategii

Gracze nie wydają się koordynować wzajemnej współpracy, przez co często zostają uwięzieni w gorszej, ale stabilnej strategii dezercji. W ten sposób iterowane rundy ułatwiają ewolucję stabilnych strategii. Powtarzane rundy często tworzą nowatorskie strategie, które mają wpływ na złożone interakcje społeczne. Jedną z takich strategii jest wygrana-zostanie-przegraj-przesunięcie. Ta strategia przewyższa prostą strategię Tit-For-Tat – to znaczy, jeśli możesz oszukiwać na sucho, powtórz to zachowanie, ale jeśli zostaniesz złapany, zmień.

Jedynym problemem tej strategii „tycka za tatuś” jest to, że są one podatne na błąd sygnału. Problem pojawia się, gdy jedna osoba oszukuje w odwecie, a druga interpretuje to jako oszustwo. W wyniku tego druga osoba teraz oszukuje, a następnie zaczyna oszukiwać w reakcji łańcuchowej.

Przykłady z życia

Ustawienie więźnia może wydawać się wymyślone, ale w rzeczywistości istnieje wiele przykładów interakcji międzyludzkich, a także interakcji w naturze, które mają tę samą macierz wypłat. Dylemat więźnia jest zatem przedmiotem zainteresowania nauk społecznych, takich jak ekonomia , polityka i socjologia , a także nauk biologicznych, takich jak etologia i biologia ewolucyjna . Wiele naturalnych procesów zostało wyabstrahowanych do modeli, w których żywe istoty angażują się w niekończące się gry dylematu więźnia. To szerokie zastosowanie PD sprawia, że ​​gra ma duże znaczenie.

Badania środowiskowe

W badaniach środowiskowych PD jest widoczne w kryzysach, takich jak globalna zmiana klimatu . Twierdzi się, że wszystkie kraje odniosą korzyści ze stabilnego klimatu, ale każdy kraj często niechętnie ogranicza emisję CO
2
emisje. Natychmiastowa korzyść dla jednego kraju z utrzymania obecnego zachowania jest błędnie postrzegana jako większa niż rzekoma ostateczna korzyść dla tego kraju, gdyby zachowanie wszystkich krajów uległo zmianie, co wyjaśnia impas dotyczący zmian klimatycznych w 2007 roku.

Ważną różnicą między polityką zmian klimatycznych a dylematem więźnia jest niepewność; zakres i tempo, w jakim zanieczyszczenia mogą zmienić klimat, nie są znane. Dylemat, przed którym stoi rząd, różni się zatem od dylematu więźnia tym, że nie są znane korzyści ze współpracy. Ta różnica sugeruje, że państwa będą współpracować znacznie słabiej niż w przypadku rzeczywistego, powtarzanego dylematu więźnia, tak więc prawdopodobieństwo uniknięcia ewentualnej katastrofy klimatycznej jest znacznie mniejsze niż to sugerowane przez teoretyczną analizę sytuacji z wykorzystaniem rzeczywistego, powtarzanego dylematu więźnia.

Osang i Nandy (2003) dostarczają teoretycznego wyjaśnienia z dowodami na sterowaną regulacjami sytuację win-win, zgodnie z hipotezą Michaela Portera , w której rządowa regulacja konkurencyjnych firm jest znacząca.

Zwierząt

Za przykład dylematu więźnia może być rozumiane wspólne zachowanie wielu zwierząt. Często zwierzęta angażują się w długotrwałe związki partnerskie, które można bardziej szczegółowo modelować jako powtarzający się dylemat więźnia. Na przykład, gupiki wspólnie inspekcjonują drapieżniki w grupach i uważa się, że karzą niewspółpracujących inspektorów.

Wampiry to zwierzęta towarzyskie, które angażują się we wzajemną wymianę pokarmową. Zastosowanie wypłat z dylematu więźnia może pomóc wyjaśnić to zachowanie:

  • Współpracuj/współpracuj: „Nagroda: dostaję krew w moje pechowe noce, co ratuje mnie przed głodem. Muszę oddać krew w moje szczęśliwe noce, co nie kosztuje mnie zbyt wiele”.
  • Wada/współpraca: „Pokusa: ratujesz mi życie w moją biedną noc. Ale wtedy czerpię dodatkową korzyść z tego, że nie muszę płacić niewielkich kosztów karmienia cię w dobranoc”.
  • Współpraca/Defekt: „Zapłata frajerów: w dobrą noc pokrywam koszty uratowania twojego życia. Ale w moją złą noc nie karmisz mnie i narażam się na realne ryzyko śmierci z głodu”.
  • Wada/Defekt: „Kara: nie muszę płacić niewielkich kosztów karmienia cię w moje dobre noce. Ale narażam się na realne ryzyko głodu w moje kiepskie noce”.

Psychologia

W uzależnień badania / ekonomii behawioralnej , George Ainslie Podkreśla, że uzależnienie może być odlany jako międzyokresowej problemu PD pomiędzy obecnymi i przyszłymi samych uzależnionego. W tym przypadku ucieczka oznacza nawrót i łatwo zauważyć, że nieuciekanie zarówno dziś, jak i w przyszłości jest zdecydowanie najlepszym rozwiązaniem. Przypadek, w którym ktoś powstrzymuje się dzisiaj, ale nawraca w przyszłości, jest najgorszym rezultatem – w pewnym sensie dyscyplina i poświęcenie związane z powstrzymywaniem się dzisiaj zostały „zmarnowane”, ponieważ przyszły nawrót oznacza, że ​​uzależniony jest z powrotem tam, gdzie zaczął i będzie trzeba zacząć od nowa (co jest dość demoralizujące i utrudnia rozpoczęcie od nowa). Nawrót dzisiaj i jutro jest nieco „lepszym” wynikiem, ponieważ chociaż uzależniony jest nadal uzależniony, nie włożył wysiłku, aby przestać. Ostatni przypadek, w którym ktoś angażuje się w uzależniające zachowanie dzisiaj, jednocześnie powstrzymując się „jutro”, będzie znany każdemu, kto zmagał się z uzależnieniem. Problem polega na tym, że (podobnie jak w innych PD) istnieje oczywista korzyść z dezercji „dzisiaj”, ale jutro spotkamy się z tym samym PD i ta sama oczywista korzyść będzie obecna wtedy, prowadząc ostatecznie do nieskończonego ciągu dezercji.

John Gottman w swoich badaniach opisanych w „The Science of Trust” definiuje dobre relacje jako takie, w których partnerzy wiedzą, że nie mogą wejść do komórki (D,D) lub przynajmniej nie utknąć tam dynamicznie w pętli. W neuronauce poznawczej szybka sygnalizacja mózgowa związana z przetwarzaniem różnych rund może wskazywać na wybory w następnej rundzie. Wyniki wzajemnej współpracy pociągają za sobą zmiany aktywności mózgu przewidujące, jak szybko dana osoba będzie współpracować w naturze przy następnej okazji; aktywność ta może być powiązana z podstawowymi procesami homeostatycznymi i motywacyjnymi, prawdopodobnie zwiększając prawdopodobieństwo skrócenia do komórki (C, C) gry.

Ekonomia

Dylemat więźnia został nazwany E. coli psychologii społecznej i był szeroko stosowany do badania różnych tematów, takich jak oligopolistyczna konkurencja i zbiorowe działania na rzecz wspólnego dobra.

Reklama jest czasami przytaczana jako prawdziwy przykład dylematu więźnia. Kiedy reklama papierosów była legalna w Stanach Zjednoczonych, konkurujący producenci papierosów musieli decydować, ile pieniędzy wydać na reklamę. Skuteczność reklamy Firmy A częściowo determinowała reklama prowadzona przez Firmę B. Podobnie na zysk z reklamy Firmy B wpływa reklama prowadzona przez Firmę A. Jeżeli zarówno Firma A, jak i Firma B zdecydowały się na reklamę w danym okres, wtedy reklama każdej firmy neguje drugą, wpływy pozostają stałe, a wydatki rosną z powodu kosztów reklamy. Obie firmy skorzystałyby na ograniczeniu reklamy. Jeśli jednak Firma B zdecyduje się nie reklamować, Firma A może odnieść znaczne korzyści z reklamy. Niemniej jednak optymalna ilość reklam jednej firmy zależy od tego, ile reklamy podejmuje druga. Ponieważ najlepsza strategia zależy od tego, co wybierze druga firma, nie ma strategii dominującej, co czyni ją nieco inną od dylematu więźnia. Wynik jest jednak podobny, ponieważ obie firmy byłyby w lepszej sytuacji, gdyby reklamowały mniej niż w równowadze. Czasami w sytuacjach biznesowych pojawiają się zachowania oparte na współpracy. Na przykład producenci papierosów poparli tworzenie przepisów zakazujących reklamy papierosów, rozumiejąc, że obniżyłoby to koszty i zwiększyło zyski w całej branży. Ta analiza może być trafna w wielu innych sytuacjach biznesowych związanych z reklamą.

Bez egzekwowalnych umów członkowie kartelu są również uwikłani w dylemat więźnia (wielu graczy). „Współpraca” zazwyczaj oznacza utrzymywanie cen na wcześniej uzgodnionym minimalnym poziomie. „Oszukanie” oznacza sprzedaż poniżej tego minimalnego poziomu, natychmiastowe przejmowanie biznesu (i zysków) od innych członków kartelu. Organy antymonopolowe chcą, aby potencjalni członkowie kartelu wzajemnie odstępowali, zapewniając konsumentom najniższe możliwe ceny .

Sport

Doping w sporcie został przytoczony jako przykład dylematu więźnia.

Dwóch rywalizujących sportowców ma możliwość użycia nielegalnego i/lub niebezpiecznego narkotyku, aby poprawić swoje wyniki. Jeśli żaden sportowiec nie bierze leku, żaden z nich nie zyskuje przewagi. Jeśli tylko jeden to zrobi, wówczas ten sportowiec zyskuje znaczną przewagę nad swoim konkurentem, pomniejszoną o prawne i/lub medyczne niebezpieczeństwa związane z zażyciem narkotyku. Jeśli jednak obaj sportowcy biorą lek, korzyści znikają i pozostają tylko niebezpieczeństwa, co stawia ich obu w gorszej sytuacji, niż gdyby żaden z nich nie stosował dopingu.

Polityka międzynarodowa

W międzynarodowej teorii politycznej Dylemat Więźnia jest często używany do wykazania spójności realizmu strategicznego, który zakłada, że ​​w stosunkach międzynarodowych wszystkie państwa (niezależnie od ich polityki wewnętrznej czy wyznawanej ideologii) będą działać w swoim racjonalnym interesie własnym przy międzynarodowej anarchii . Klasycznym przykładem jest wyścig zbrojeń, taki jak zimna wojna i podobne konflikty. Podczas zimnej wojny przeciwstawne sojusze NATO i Układu Warszawskiego miały wybór między uzbrojeniem a rozbrojeniem. Z punktu widzenia każdej ze stron rozbrojenie, podczas gdy ich przeciwnik nadal się uzbraja, prowadziłoby do militarnej niższości i możliwej zagłady. I odwrotnie, uzbrojenie, podczas gdy ich przeciwnik jest rozbrojony, prowadziłoby do wyższości. Jeśli obie strony zdecydowały się na uzbrojenie, żadna z nich nie mogła sobie pozwolić na zaatakowanie drugiej, ale obie poniosły wysokie koszty rozwoju i utrzymania arsenału nuklearnego. Gdyby obie strony zdecydowały się na rozbrojenie, wojna zostałaby uniknięta i nie byłoby żadnych kosztów.

Chociaż „najlepszym” ogólnym rezultatem jest rozbrojenie obu stron, racjonalnym postępowaniem dla obu stron jest uzbrojenie i tak właśnie się stało. Obie strony przeznaczyły ogromne środki na badania wojskowe i zbrojenie w wojnie na wyniszczenie przez następne trzydzieści lat, dopóki Związek Radziecki nie mógł wytrzymać kosztów ekonomicznych. Ta sama logika może być zastosowana w każdym podobnym scenariuszu, czy to gospodarczej, czy technologicznej konkurencji między suwerennymi państwami.

Dylematy gry wieloosobowej

Wiele rzeczywistych dylematów dotyczy wielu graczy. Choć metaforyczna, tragedia Hardina na błoniach wspólnych może być postrzegana jako przykład wieloosobowego uogólnienia PD: każdy wieśniak dokonuje wyboru dla osobistych korzyści lub ograniczeń. Zbiorową nagrodą za jednogłośną (a nawet częstą) dezercję są bardzo niskie wypłaty (reprezentujące zniszczenie „wspólnoty”). Powszechnym dylematem, z którym większość ludzi może się odnieść, jest zmywanie naczyń we wspólnym domu. Nie zmywając naczyń, jednostka może zyskać, oszczędzając swój czas, ale jeśli takie zachowanie przyjmie każdy mieszkaniec, zbiorowy koszt nie będzie dla nikogo czystym talerzem.

To, co wspólne, nie zawsze jest eksploatowane: William Poundstone w książce o dylematach więźnia opisuje sytuację w Nowej Zelandii, gdzie pudełka z gazetami są pozostawione otwarte. Możliwe jest, że ludzie wezmą gazetę bez płacenia ( uciekając ), ale bardzo niewielu to robi, czując, że jeśli nie zapłacą, to inni nie zrobią tego, niszcząc system. Późniejsze badania Elinor Ostrom , laureatki Nagrody Nobla z 2009 roku w dziedzinie nauk ekonomicznych , postawiły hipotezę, że tragedia wspólnego pastwiska jest zbyt uproszczona, a negatywne skutki mają wpływ czynniki zewnętrzne. Bez komplikowania nacisków, grupy komunikują się i zarządzają między sobą wspólnymi dobrami dla obopólnych korzyści, wymuszając normy społeczne w celu zachowania zasobów i osiągnięcia maksymalnego dobra dla grupy, co jest przykładem osiągnięcia najlepszego wyniku przypadku PD.

Powiązane gry

Zamknięta wymiana worków

Dylemat więźnia jako wymiana aktówki

Douglas Hofstadter zasugerował kiedyś, że ludzie często uważają problemy, takie jak problem z wyładowaniami psychicznymi, za łatwiejszy do zrozumienia, gdy jest zilustrowany w formie prostej gry lub kompromisu. Jednym z kilku przykładów, których użył, była „wymiana zamkniętego worka”:

Dwie osoby spotykają się i wymieniają zamknięte torby, przy czym jedna z nich zawiera pieniądze, a druga zakup. Każdy gracz może zdecydować się na uhonorowanie umowy, wkładając do swojej torby to, na co się zgodził, albo może zdradzić się, przekazując pustą torbę.

Przyjaciel czy wróg?

Przyjaciel czy wróg? to teleturniej emitowany w latach 2002-2003 w sieci Game Show Network w USA. Jest to przykład gry w dylematy więźnia testowanej na prawdziwych ludziach, ale w sztucznej oprawie. W teleturnieju rywalizują trzy pary ludzi. Kiedy para zostanie wyeliminowana, grają w grę podobną do dylematu więźnia, aby ustalić, w jaki sposób wygrane zostaną podzielone. Jeśli oboje współpracują (Przyjaciel), dzielą się wygranymi 50–50. Jeśli jeden współpracuje, a drugi defekt (Foe), dezerter otrzymuje wszystkie wygrane, a kooperant nic. Jeśli obaj defekt, obaj odejdą z niczym. Zwróć uwagę, że macierz nagród różni się nieco od standardowej podanej powyżej, ponieważ nagrody za przypadki „zarówno defektów”, jak i przypadków „współpracy, podczas gdy przeciwnik defektów” są identyczne. To sprawia, że ​​przypadek „obie defektów” jest słabą równowagą, w porównaniu z równowagą ścisłą w ​​standardowym dylemacie więźnia. Jeśli zawodnik wie, że jego przeciwnik zagłosuje na „Wroga”, jego własny wybór nie wpływa na jego wygraną. W pewnym sensie Friend or Foe ma model nagrody między dylematem więźnia a grą w kurczaka .

Macierz nagród to

Para 2
Para 1
„Przyjaciel”
(współpraca)
„Wróg”
(wada)
„Przyjaciel”
(współpraca)
1
1
2
0
„Wróg”
(wada)
0
2
0
0

Ta matryca wypłat została również wykorzystana w brytyjskich programach telewizyjnych Trust Me , Shafted , The Bank Job i Golden Balls oraz w amerykańskich teleturniejach Take It All , a także w zwycięskiej parze w programach Reality Show Bachelor Pad i Love Wyspa . Dane dotyczące gier z serii Golden Balls zostały przeanalizowane przez zespół ekonomistów, którzy odkryli, że współpraca była „zaskakująco wysoka” w przypadku kwot, które wydawałyby się istotne w prawdziwym świecie, ale były stosunkowo niskie w kontekście gry.

Iterowana zaspa śnieżna

Naukowcy z Uniwersytetu w Lozannie i Uniwersytetu w Edynburgu zasugerowali, że „Iterated Snowdrift Game” może lepiej odzwierciedlać rzeczywiste sytuacje społeczne. Chociaż ten model jest w rzeczywistości grą w kurczaka , zostanie on opisany tutaj. W tym modelu ryzyko bycia wykorzystanym przez dezercję jest mniejsze, a jednostki zawsze zyskują na podejmowaniu decyzji opartych na współpracy. Gra o zaspie śnieżnej wyobraża dwóch kierowców, którzy utknęli po przeciwnych stronach zaspy śnieżnej , z których każdy ma możliwość odśnieżania w celu oczyszczenia ścieżki lub pozostania w samochodzie. Największą wypłatą dla gracza jest pozostawienie przeciwnika w celu samodzielnego oczyszczenia całego śniegu, ale przeciwnik nadal jest nominalnie nagradzany za swoją pracę.

Może to lepiej odzwierciedlać rzeczywiste scenariusze, naukowcy podają przykład dwóch naukowców współpracujących nad raportem, z których obaj skorzystaliby, gdyby drugi pracował ciężej. „Ale kiedy twój współpracownik nie wykonuje żadnej pracy, prawdopodobnie lepiej, abyś sam wykonał całą pracę. I tak skończysz z ukończonym projektem”.

Przykładowe wypłaty za zaspy (A, B)
 A
Współpracuje Wady
Współpracuje 200, 200 100, 300
Wady 300, 100 0, 0
Przykładowe wypłaty PD (A, B)
 A
Współpracuje Wady
Współpracuje 200, 200 -100, 300
Wady 300, -100 0, 0

Gry koordynacyjne

W grach koordynacyjnych gracze muszą koordynować swoje strategie, aby osiągnąć dobry wynik. Przykładem są dwa samochody, które nagle spotykają się podczas zamieci; każdy musi wybrać, czy skręcić w lewo, czy w prawo. Jeśli oba skręcą w lewo lub oba w prawo, samochody się nie zderzą. Lokalna konwencja o ruchu lewo- i prawostronnym pomaga koordynować ich działania.

Symetryczne gry koordynacyjne obejmują polowanie na jelenia i Bacha lub Strawińskiego .

Asymetryczne dylematy więźnia

Bardziej ogólny zestaw gier jest asymetryczny. Podobnie jak w przypadku dylematu więźnia, najlepszym rezultatem jest współpraca i istnieją motywy ucieczki. Jednak w przeciwieństwie do dylematu symetrycznego więźnia, jeden gracz ma więcej do stracenia i/lub więcej do zyskania niż drugi. Niektóre takie gry zostały opisane jako dylemat więźnia, w którym jeden więzień ma alibi , stąd określenie „gra o alibi”.

W eksperymentach gracze otrzymujący nierówne wypłaty w powtarzających się grach mogą dążyć do maksymalizacji zysków, ale tylko pod warunkiem, że obaj gracze otrzymają równe wypłaty; może to prowadzić do stabilnej strategii równowagi, w której pokrzywdzony gracz defektuje każde X gier, podczas gdy drugi zawsze współpracuje. Takie zachowanie może zależeć od norm społecznych eksperymentu dotyczących sprawiedliwości.

Oprogramowanie

Kilka pakietów oprogramowania zostało stworzonych do uruchamiania symulacji i turniejów więźniarek, z których niektóre mają dostępny kod źródłowy.

W fikcji

Hannu Rajaniemi umieścił pierwszą scenę swojej trylogii Złodziej kwantowy w „więzieniu dylematów”. Główny motyw serii został opisany jako „nieadekwatność binarnego wszechświata”, a ostatecznym antagonistą jest postać zwana All-Defector. Rajaniemi jest szczególnie interesujący jako artysta zajmujący się tym tematem, ponieważ jest matematykiem wykształconym w Cambridge i doktorem fizyki matematycznej  – wymienność materii i informacji jest główną cechą książek, które rozgrywają się w „postsingularity”. " przyszły. Pierwsza książka z tej serii została wydana w 2010 roku, a dwie sequele, The Fractal Prince i The Causal Angel , zostały opublikowane odpowiednio w 2012 i 2014 roku.

Gra wzorowana na (powtarzanym) dylemacie więźnia jest centralnym punktem gry wideo Zero Escape: Ostatnia nagroda cnoty z 2012 roku i niewielką częścią jej kontynuacji z 2016 roku Zero Escape: Zero Time Dilemma .

W Tajemne Bractwo Pana Benedykta i dylemat więźnia przez Trenton Lee Stewart , główni bohaterowie zaczynają grając wersję gry i ucieczkę z „więzienia” w ogóle. Później stają się prawdziwymi więźniami i ponownie uciekają.

W Strefie Przygody : Równowaga podczas subarku Gra cierpienia , postacie graczy są dwukrotnie stawiane przed dylematem więźnia podczas ich pobytu w domenie dwóch liczów, raz współpracujących, a raz uciekających.

W ósmej powieści autora Jamesa SA Corey Tiamat's Wrath , Winston Duarte wyjaśnia dylemat więźnia swojej 14-letniej córce Teresie, aby wyszkolić ją w myśleniu strategicznym.

Przykładem dylematu więźnia jest film Mroczny Rycerz z 2008 roku, w którym Joker ustawia dwa promy, jeden z więźniami, a drugi z cywilami. Ostatecznie obie strony postanawiają nie detonować bomby.

Zobacz też

Bibliografia

Dalsza lektura

Zewnętrzne linki