Którą zasadę lepiej jest stosować, działając we własnym interesie?

A → Wybieram działanie, które w następnym kroku przyniesie mi największy zysk, uwzględniając, że inni też się tak zachowują.

B → Mogę poprawić swoją sytuację tylko wtedy, kiedy nie pogorszę sytuacji kogoś innego.

Poszukamy odpowiedzi na to pytanie z pomocą teorii gier, analizując dylemat więźnia.

Wydawać by się mogło, że opcja A zawsze będzie najlepsza z punktu widzenia jednostki. Niektórzy posuwają się nawet do stwierdzenia, że jest to także lepsza strategia dla rozwoju społecznego, bo interes społeczny jest sumą interesów jednostek. Teoria gier dowodzi jednak czegoś innego.

Wyobraźmy sobie, że policja trafiła na trop dwóch przyjaciół: Kuby i Tomka, którzy razem okradli bank. Znaleziono większość łupu, poza częścią pieniędzy, które zdążyli umieścić na tajnym koncie kryptowalutowym. Jednak dalej nie ma wystarczających dowodów na postawienie zarzutów. Dlatego prokurator rozdziela aresztowanych, tak aby nie mogli się porozumieć i stawia im następujące ultimatum:

1 → Jeśli jeden z nich będzie milczał, a drugi go wyda, to ten pierwszy pójdzie siedzieć na 5 lat, a drugi zostanie uniewinniony.

2 → Jeśli obaj wzajemnie się wydadzą, pójdą siedzieć na 3 lata każdy.

3 → Jeśli obaj będą milczeć, zostaną przez rok osadzeni w więzieniu na podstawie innych zarzutów.

Chris Jensen, Greg Riestenberg, Evolutionary Games Infographic Project, CC BY-SA 3.0 — Chris Jensen, Greg Riestenberg, *Evolutionary Games Infographic Project*, CC BY-SA 3.0

Stosując strategię A, czyli porównanie różnicy pomiędzy indywidualnym zyskiem lub stratą, niezależnie od tego co zrobi Tomek, Kubie zawsze bardziej opłaca się wydać wspólnika. Jeśli Tomek go wyda, to będzie siedział tylko 1 rok, a nie 5 lat. Jeśli Tomek będzie milczał, to Kuba zamiast rocznej odsiadki w areszcie, wyjdzie na wolność. Tomek, znając strategię Kuby, myślał będzie tak samo i także go wyda, dbając o własny interes. Ostatecznie osiągnięto punkt równowagi tej strategii, który określa się mianem równowagi Nasha. W konsekwencji obu czekają 3 lata odsiadki i zerwana przyjaźń. Mimo, że panowie dbali o własny interes, wyszli na tym gorzej niż, gdyby współpracowali i zgodnie milczeli, bo wyszliby na wolność po roku. Obrazuje to poniższa tzw. matryca wypłat:

Tak zwany dylemat więźnia uzmysławia nam, że istnieje pewien interes grupowy, który jest sprzężony z naszym własnym interesem w sposób mniej oczywisty. Warto też wziąć pod uwagę fakt, że w rzeczywistości sytuacja podobna do dylematu więźnia powtarza się wielokrotnie i na podstawie zachowań innych graczy wyrabiamy sobie opinię o tym, na ile można im zaufać i jakie strategie stosować.

Zastanówmy się teraz nad strategią B. Jest to odnalezienie usprawnienia w sensie Pareto, czyli takiego, które nie odbywa się niczyim kosztem. Skoro jest to usprawnienie czegoś, to do zastosowania tej zasady potrzeba wyznaczonego punktu startowego. Ze względu na to, że dwaj panowie współpracowali ze sobą wcześniej, podczas skoku na bank, zacznijmy od wyniku jakie daje obopólna współpraca: - 1, - 1. Zmiana na rezultat współpraca/zdrada powoduje, że dla jednego z nich pogarsza się wynik do - 5, z kolei rezultat zdrada/zdrada pogarsza obu wynik do - 3. Za inny punkt wyjścia można potraktować też wynik w postaci rozważenia wyniku równowagi Nasha, a dopiero później zastosowanie usprawnienia Pareto. Wynik równowagi Nasha w tym dylemacie to -3, -3, więc zgodnie z zasadą usprawnienia Pareto nie jest możliwa zmiana na wynik współpraca/zdrada, bo to pogarsza sytuację jednej osoby do - 5. Istnieje jednak jedno usprawnienie Pareto: -1, -1, które jest lepszym wynikiem dla wszystkich i nie pogarsza niczyjej sytuacji. W ten sposób, stosując strategię, która na pierwszy rzut oka wydaje się mniej samolubna, przyjaciele uzyskają lepszy rezultat, po roku odsiadki ich relacja pozostanie nienaruszona i będą mogli podzielić się zachowanymi pieniędzmi. Dlatego tak ważne jest szukanie rozwiązań promujących współpracę i dobrze ulokowane zaufanie, bo to od nich zależy to, ile mamy wartości do podziału jako całe społeczeństwo.

Kolejnym dylematem przed jakim mogą stanąć Kuba i Tomek będzie podział łupów. Powiedzmy, że ich pieniądze zostały ulokowane na specjalnym koncie kryptowalutowym, które obecnie zawiera 200 Nashcoinów. Niedawno kurs tej kryptowaluty poszedł wyraźnie w górę, co przekłada się na pokaźną sumę pieniędzy. Haczyk polega na tym, że wypłata Nashcoinów możliwa jest tylko wtedy, kiedy dwaj użytkownicy użyją jednego z dwóch cyfrowych kluczy. Klucz współpracy otworzy możliwość podziału o tyle, o ile druga osoba też użyje klucza współpracy. Jeśli jednak w takiej sytuacji druga osoba użyje klucza zdrady, to sama otrzyma pełną sumę pieniędzy, pozostawiając partnera z niczym. Użycie dwóch kluczy zdrady jednocześnie spowoduje, że prawie wszystkie Nashcoiny zostaną przelane innym niż Kuba i Tomek, losowym użytkownikom, a naszym graczom pozostanie po jednym Nashcoinie.

Sytuacja jest analogiczna do poprzedniej. Indywidualny interes podpowiada Kubie, że jeśli Tomek wybierze klucz współpracy to zdrada jest bardziej opłacalna bo 200 > 100, jeśli Tomek wybierze klucz zdrady, to także zdrada jest bardziej opłacalna, bo 1 > 0. To samo wnioskowanie jest symetryczne dla Tomka. Jako modelowi racjonalni agenci panowie zostaliby z 1 Nashcoinem na głowę. Pomimo że poszczególne kroki wydają się być sensowne, to sam fakt istnienia usprawnienia Pareto (z 1, 1 na 100, 100), które daje w oczywisty sposób lepszy wynik dla obu graczy, wskazuje na to, że przedstawione ujęcie racjonalności nie wystarcza. Douglas Hofstadter zaproponował klasę graczy, których nazywał superracjonalnymi. Tacy gracze po rozpoznaniu się jako superracjonalni będą współpracować w dylemacie więźnia.

Kluczowym aspektem jest to „rozpoznanie”, gdyż naiwne zaufanie do każdej napotkanej osoby nie wydaje się jednak ani praktycznym, ani superracjonalnym rozwiązaniem. Może to prowadzić do prostej eksploatacji jednego gracza przez drugiego. Jeśli za punkt wyjścia przyjmiemy wynik współpraca/zdrada, to usprawnienie Pareto nie jest możliwe, gdyż pogarszamy sytuację osoby, która wyszłaby na wolność, osadzając ją na rok za kratkami, a w przypadku Nashcoinów zmniejszamy czyjś zysk z 200 do 100. Aby się przed tym ustrzec, warto przyjrzeć się samemu procesowi budowy zaufania.

Budowa zaufania może być lepiej zrozumiana dzięki symulacjom komputerowym, w których wielu graczy o różnych strategiach odbywa między sobą interakcje w wielokrotnie powtarzanym dylemacie więźnia. Jedna z bardziej popularnych strategii nazywa się „wet za wet”, czyli odpowiadanie tym samym zachowaniem jakie druga osoba wykonała w poprzedniej grze. Dzięki temu nie daje się naiwnie wykorzystywać, ale też nie stosuje najbardziej egoistycznej strategii zdrady. Problem może pojawić się w sytuacji, kiedy nasz współgracz zastosuje taką samą strategię i z jakiegoś powodu jedna z osób, chociażby przez przypadek, zastosuje strategię zdrady. Prowadzi to do wzajemnego wyniszczenia.

Znaleziono jednak lepszą strategię. Kiedy rozpoczniemy od współpracy, a następnie stosować będziemy strategię wet za wet i dodatkowo czasami będziemy wybaczać zdradę, odpłacając się współpracą, jesteśmy w stanie zyskać zdecydowanie więcej. Potwierdzają to komputerowe symulacje, w których strategia wet za wet z wybaczaniem wielokrotnie zdobywała najwięcej punktów. Program taki współpracował z graczami godnymi zaufania, ale nie dawał się wykorzystywać strategiom zdrady i nie wikłał się też w długotrwałe vendetty.

Dylemat więźnia jest uproszczeniem całej klasy zjawisk, z którą możemy się spotkać na co dzień w życiu prywatnym i zawodowym. Matryca wypłat może reprezentować bardzo złożone wartości zarówno dotyczące straty jak i zysku. Możemy też tworzyć sytuacje, w których jest zdecydowanie więcej niż dwóch graczy i analizować, w jaki sposób komplikuje to koordynację. Jeśli się chwilę zastanowimy, to sytuacje takie jak kupowanie prezentu, segregowanie śmieci, konkurowanie o klienta, a nawet globalne przygotowanie państw do pandemii, mogą mieć pewne charakterystyki dylematu więźnia. Myślenie o stanach wyidealizowanych, gdzie abstrakcyjni gracze posługują się pewnymi prostymi regułami, jest przydatne ze względu na to, jak skrupulatnie możemy analizować ich często nieintuicyjne konsekwencje. Na uwagę zasługują nie tylko strategie graczy, ale to jak same zasady gry skłaniają do pewnych zachowań.

W kolejnym artykule o teorii gier poruszę temat tego, jak można konstruować sytuacje decyzyjne tak, aby zachęcać graczy do podejmowania najlepszych decyzji zarówno z perspektywy grupowej jak i indywidualnej. Tymczasem na koniec pozostawiam pytanie do samodzielnej refleksji:

Wyobraź sobie, że spotykasz dokładną kopię siebie. Czy współpracował/a byś ze sobą w dylemacie więźnia czy nie?

Graf poniżej pokazuje najważniejsze tezy zawarte w artykule. Jest to interaktywny widget, co oznacza, że każdy może się włączyć do dyskusji. Wystarczy kliknąć w tezę, z którą się zgadzamy lub nie zgadzamy, a następnie wybrać opcję dodania swojego argumentu.

Źródła

• Robert Axelrod, William D. Hamilton, The evolution of cooperation, Science 211.4489 (1981): 1390-1396

Materiały dodatkowe

• Nicky Case, The Evolution of Trust, 2017 – interaktywna eksploracja zagadnienia zaufania w teorii gier

Patrząc wyłącznie na swój interes, działasz na swoją niekorzyść

Źródła

Materiały dodatkowe

Czy rozum jest uniwersalny?

Dlaczego podejmowanie dobrych decyzji jest takie trudne?