Jak gry kwantowe mogą pomóc usprawnić proces decyzyjny?

Obszar kompozycji 4.jpg
 
 

W tym artykule przedstawię, jak można rozwiązywać sytuacje, które mają charakterystyki dylematu więźnia, tak aby zachęcić graczy do podejmowania najbardziej korzystnych decyzji dla wszystkich zaangażowanych, inspirując się mechaniką kwantową i krojeniem pizzy.




Wiele sytuacji ma charakter podobny do dylematu więźnia. Mam na myśli wszystkie działania podejmowane we własnym interesie przez wiele osób, które w konsekwencji powodują niekorzystne konsekwencje dla społeczeństwa i jednostek. Te sytuacje są na tyle powszechne w życiu społecznym, w biznesie i w polityce, a ich konsekwencje są na tyle nieprzyjazne ludzkości, że Scott Alexander w artykule Medytacje o Molochu [1] spopularyzował określanie ich jako działania kartagińskiego boga żądającego ofiar z ludzkiej krwi – Molocha. Uważam, że to trafna metafora. Z jednej strony oddaje skojarzenia z wielkością konsekwencji dla naszego życia, a jednocześnie wskazuje na swoisty, nieludzki dodatek do systemu, który powstaje samoistnie, jakby żerując na decyzjach ludzi.

Wyobraźmy sobie dwoje przedsiębiorców, Alicję i Roberta, którzy prowadzą konkurencyjne kwiaciarnie w jednym mieście; miesięcznie obsługują one ok. 50 klientów. Alicja, chcąc przyciągnąć więcej klientów, postanowiła wykupić kilka billboardów reklamowych informujących o promocji. Kampania reklamowa okazała się sukcesem i wkrótce kwiaciarnia Alicji zaczęła obsługiwać 80 klientów miesięcznie; co prawda, ze względu na promocyjne ceny, przynosili oni tyle zysku, co wcześniej przyniosłoby 70 klientów miesięcznie, ale i tak stanowiło to wzrost zysku o 20 pełnowartościowych sprzedaży. Podczas gdy Alicja zastanawiała się nad powiększeniem asortymentu, Robert zaobserwował odpływ ok. 30 swoich klientów do popularniejszej kwiaciarni i sam postanowił zainwestować w reklamę. Stwierdził przy tym, że samo dorównanie obniżkom cenowym kwiaciarni Alicji i widoczności jej reklam nie wystarczy, ponieważ przydałoby się odrobić straty wynikające z inwestycji i tymczasowego odpływu klientów. Kampania reklamowa Roberta okazała się sukcesem, coraz więcej osób przychodziło do jego kwiaciarni. To z kolei zmotywowało Alicję do zwiększenia nakładów na własną kampanię i zastosowania jeszcze więcej promocji. Po kilku miesiącach takiego wyścigu promocji osiągnięto pewną stabilność na rynku. Ze względu na oddziaływanie reklamy kwiaciarnie obsługiwały teraz po ok. 60 klientów miesięcznie. Jednak po odliczeniu kosztów marketingu i zastosowanych promocji cenowych przekładało się to na zysk, który na początku historii generowało ok. 25 klientów miesięcznie.

tab1a.png


Plakaty ze sztucznymi kwiatami powoli zaczynają zalewać miasto, wzbudzając irytację mieszkańców, a w szczególności Alicję i Roberta, którzy muszą ciąć koszty, gdzie tylko mogą. Wartość, którą dostarczało 25 klientów, pożarł Moloch.

Wydaje się, że sytuacja jest bez wyjścia – wycofanie się z wyniszczającej kwiaciarnie strategii jest niemożliwe, gdyż zrezygnowanie z niej tworzy ryzyko kolejnego odpływu klientów i jeszcze większe straty. W szczególności, że zazwyczaj w takie sytuacje zaangażowane jest więcej podmiotów, co dodatkowo utrudnia koordynację, w której można zaufać wszystkim graczom.

Aby móc systemowo rozwiązać tego rodzaju problemy, należy zastanowić się, co jest przyczyną tego mechanizmu. Czy granie zgodnie z własnym interesem jest tutaj kluczowym problemem? Ostatecznie zachowania te doprowadziły do rezultatu niebędącego w interesie jednostek. Zatem, zgodnie z własnym interesem, Alicja i Robert, a także inni interesariusze problemu, mogliby wpłynąć na działanie systemu tak, aby osiągnąć lepszy wynik. Problemem jest krótkowzroczność odosobnionych perspektyw. Każdy gracz myśli o swoim ruchu względem ruchu drugiej strony. Gracze mogą nawet widzieć perspektywę systemową, np. porównanie sytuacji przed wojną promocyjną do obecnej, ale blokuje ich ryzyko przyjęcia niekooperacyjnych strategii przez drugą stronę. Co by się zatem stało, gdyby zabrać graczom możliwość łatwego powiązania wykonywanych działań z własną sytuacją?

Kwantowa teoria gier stara się odpowiadać na podobne pytania. Kwantowe gry mogą reprezentować stany początkowe rozgrywki oraz strategie w postaci superpozycji i stanów splątanych. Symulacje strategii dla grających w dylemat więźnia, które posługują się qubitami, czyli jednostką informacji kwantowej, osiągają lepsze wyniki niż te opisywane przez klasyczną teorię decyzji[2]. Być może, wraz z upowszechnieniem się obliczeń kwantowych, więcej systemów decyzyjnych będzie korzystać z tego rodzaju mechanizmów. Zanim to nastąpi, można skorzystać z pewnych intuicji, które podpowiada kwantowa teoria gier, bez wchodzenia w szczegóły skomplikowanych obliczeń kwantowych. Ostatecznie wiedza o tym, co stało się z kotem Schrödingera, może być ciężka do przełożenia na praktykę decyzji. Dlatego moim celem nie jest wyjaśnianie działania mechaniki kwantowej, ale raczej zainspirowanie się pewnymi efektami do zastosowania ich w codziennych systemach decyzyjnych.

Zastanówmy się najpierw nad stanami splątanymi, czyli takimi, gdzie zmiana jednej decyzji powoduje zmianę konsekwencji innej. W wieloosobowych grach kwantowych przekłada się to na możliwość tworzenia kontraktów, które powstrzymują graczy przed osiąganiem zysku ze strategii zdrady, a w konsekwencji prowadzą do większej współpracy[3]. Wskazuje to na praktyczność zawierania kontraktów między interesariuszami. Warto jednak przypomnieć, że Alicja i Robert nie mogliby umówić się na sprzedaż kwiatów po określonej cenie, gdyż jest to niezgodne z prawem ochrony konkurencji i konsumentów. Inaczej niż w grach kwantowych, do gwarancji respektowania kontraktów potrzebna jest trzecia strona, w tym wypadku są nią sądy cywilne. Jednak sądy nie będą egzekwować kontraktów niezgodnych z prawem. W tym wypadku należałoby przeanalizować wraz z interesariuszami strategię, w której nie tracą ani mieszkańcy będący klientami kwiaciarni, ani przedsiębiorcy. W opisanym scenariuszu potencjalnym rozwiązaniem byłoby umówienie się na górny limit kosztów przeznaczonych na reklamę. Kwiaciarnie wciąż mogłyby konkurować ceną na rynkowych zasadach, ale ich zysk ze sprzedaży nie byłby pomniejszany o koszty marketingu. Warto zwrócić uwagę na to, że konkurencja cenowa w polskim prawie ochrony konkurencji posiada też dolny limit, zakazujący sprzedaży towarów i usług poniżej ich kosztów wytworzenia w celu eliminowania innych przedsiębiorców. Dodatkową wartością dla mieszkańców byłaby ochrona krajobrazu poprzez niezaśmiecanie go nadmierną liczbą reklam. Formułowanie podobnych umów wychodzi najlepiej, kiedy weźmie się pod uwagę wiele perspektyw reprezentowanych przez różnych interesariuszy. W takim procesie wyłaniają się normy postępowania, które opisują różne scenariusze (hipotezy) oraz konsekwencje umowne określonego zachowania określonych aktorów w danym scenariuszu (dyspozycje). Elementem dyspozycji są także sankcje, czyli negatywne konsekwencje, które powstrzymywać będą osoby przed osiąganiem zysku ze strategii zdrady.

Innym elementem gier kwantowych jest superpozycja stanów. W dużym uproszczeniu chodzi o niemożliwość uzyskania pewności względem niektórych informacji w grze, dopóki nie zostanie podjęta czynność aktualizująca wynik. Zastanówmy się zatem, jak fundamentalna niemożliwość pozyskania przez nas pewnych informacji może być elementem działającym na naszą korzyść w systemie decyzyjnym. Jako dodatkową intuicję do myślenia o tym mechanizmie przywołam inny fenomen z fizyki kwantowej – zasadę nieoznaczoności Heisenberga. Znów nieco upraszczając, stanowi ona o tym, że, mierząc pewien stan, sam akt pomiaru sprawia, że nie jesteśmy w stanie dokładnie określić jednej z dwóch cech systemu.

Wyobraźmy sobie nasz kwiaciarniany dylemat, w którym Alicja i Robert mogą poznać możliwe strategie działań i ich konsekwencje, ale nie mogą dowiedzieć się jednocześnie, komu zostanie przypisana dana akcja. Innymi słowy gracze mogą decydować o ruchu, ale nie mogą decydować, czy wykonają ten ruch za siebie, czy za inną osobę. Każda wypłata zostaje więc zredukowana do wypadkowej rzutu monetą. Wracając do naszej matrycy wypłat z przeszłości. Dla strategii obopólnej współpracy i obopólnej zdrady nic się nie zmienia, ponieważ wyniki dla obu graczy były takie same. Jednak dla strategii, w której jedna z osób współpracuje, a druga nie, mamy 50% szansy na wypłatę 70 oraz 50% szansy na wypłatę 20. Suma ważona tych wyników daje średnią wypłatę tego rezultatu w wysokości 45.

tab2.png

Ktoś mógłby słusznie zauważyć, że w danym scenariuszu od zysku ze strategii zdrada–współpraca zostały odliczone koszty promocji, ale mogą być sytuacje, w których zwycięzca zgarnia cały zysk kosztem drugiej osoby. Podobną sytuację opisywałem w poprzednim artykule przy scenariuszu z podziałem łupów. Dlatego warto sobie uświadomić, że powyższa matryca to nie koniec kalkulacji, ponieważ musimy uwzględnić możliwe działania drugiej strony. Wybieramy strategię współpracy dla losowego gracza, a druga strona ma cały czas dwie opcje: doprowadzić do sytuacji współpraca–współpraca lub współpraca–zdrada. Nie trzeba tu żadnych założeń o racjonalności drugiej strony, tylko wystarczy popatrzeć na wyniki.


→ Dla strategii współpracy są dwie wypłaty 50 oraz 45, co daje średnią 47,5.

→ Dla strategii zdrady mamy wypłaty 45 lub 25, co daje średnią 35.

→ Niezależnie od strategii drugiej strony powinniśmy wybrać strategię współpracy, bo 47,5 > 35.

Dla chętnych, w ramach ćwiczenia, podobną kalkulację można przeprowadzić dla scenariusza podziału łupów lub klasycznego scenariusza dylematu więźnia. Co ciekawe, zwiększenie liczby uczestników gry z nieoznaczonymi aktorami nie zmienia przewagi strategii współpracy nad strategią zdrady. Inaczej niż w klasycznej wersji gry, gdzie im więcej osób, tym trudniej jest o współpracę.

Tego rodzaju rozwiązania posiadają dodatkową zaletę – pozwalają wyłonić bardziej sprawiedliwe systemy. Taką funkcję pełni np. zasłona niewiedzy – koncepcja spopularyzowana przez Johna Rawlsa[4]. Zakłada się w niej możliwość porównania różnych systemów, w ramach których mielibyśmy funkcjonować, np. różnych ustrojów państwowych, ale bez wiedzy o tym, w jakiej pozycji znajdziemy się w tym systemie, np. czy będziemy na szczycie hierarchii, czy na najniższym szczeblu. Podejmując decyzję za taką zasłoną niewiedzy, mamy możliwość wybrać najbardziej sprawiedliwy system, który nie stawia nikogo w złej pozycji. To z tego powodu bogini Temida, będąca symbolem sprawiedliwego prawa, reprezentowana jest z maską zakrywającą oczy, co symbolizuje bezstronność. Przeciwieństwem bezstronności jest z kolei bycie sędzią we własnej sprawie.

Nie oznacza to jednak, że w prostych, codziennych sytuacjach powinniśmy wyłączać się od głosu, gdy sytuacja nas dotyczy. Są inne sposoby na zachowanie kryterium sprawiedliwej decyzji. Przykładem takiej sytuacji jest znana reguła podziału pizzy – ja kroję, lecz jako ostatni wybieram kawałek. Widać tutaj wyraźnie, że w momencie podziału osoba krojąca nie wie, który przypadnie jej kawałek, dlatego w jej własnym interesie jest stworzenie rezultatu, w której każda opcja ją satysfakcjonuje, na czym także zyskują wszystkie pozostałe osoby.

Tworząc aplikację Swarmcheck, także korzystaliśmy z omawianych tu zasad, aby doprowadzić do anonimizacji i obiektywizacji argumentacji. Na przykład przy wyłanianiu rozwiązań przez grupę dbamy o to, żeby nie było wiadomo, kto przedstawił dany argument, ale sprawdzamy, czy jego sformułowanie jest zrozumiałe dla wszystkich osób ze zróżnicowanej grupy interesariuszy. Dzięki temu ocena wypowiedzi nie zależy od tego, czy wypowiada ją ktoś o wysokim autorytecie, czy nie, ale na podstawie tego, czy posiada rację w danym zagadnieniu. Zapis wypowiedzi przekształcamy do postaci samodzielnie zrozumiałych tez, tak aby nie dotyczyły one opinii konkretnej osoby, ale możliwie obiektywnych stwierdzeń o świecie lub o normach. Dzięki temu im więcej dyskusji zostało przeprowadzonych na dany temat, tym więcej ocenionych sposobów rozumowania możemy użyć ponownie, korzystając w ten sposób z kumulatywnej mądrości zbiorowej.

W praktyce istnieje wiele sposobów na wyłanianie norm do systemu decyzyjnego z aktorami o nieoznaczonym charakterze, choć wymaga to przemyślenia dla każdej kategorii sytuacji indywidualnie. Alicja i Robert mogą umówić się na różne procedury promocji, od prostych jak informowanie o wszystkich kwiaciarniach na jednej reklamie, do bardziej złożonych jak założenie stowarzyszenia kwiaciarni lub pośrednictwo strony trzeciej, które pomagać będą rozwiązywać wspólne problemy i zapewnią proces rozsądnego publikowania reklam. Trochę inne rozwiązania można zaproponować w przypadku problemów wewnątrz organizacji, gdzie wydziały konkurują o zasoby, a jeszcze inne dla tworzenia polityki publicznej, która ma za zadanie zachęcać mieszkańców do współpracy. Najlepsze rezultaty znów powinno przynieść zaangażowanie przedstawicieli różnych grup interesariuszy, którzy pod okiem specjalistów od wspomagania decyzji dostarczą jak największą ilość perspektyw dla zaprojektowania danego systemu.

Dla liderów rynkowych i dla prawodawców podejmowanie tego rodzaju usprawnień jest zarówno szansą na uzyskanie lepszych rezultatów, jak i obowiązkiem z racji pełnionych ról. Lecz inicjatywę do rozpoczęcia rozmów na temat lepszych systemów decyzyjnych może wykazać każdy i każda z nas. Moloch jest częścią naszej rzeczywistości i bezustannie pożera zasoby, które moglibyśmy spożytkować na rozwiązywanie ważnych problemów współczesnego świata lub, tak naprawdę, na cokolwiek przyjemniejszego niż przegrywanie w dylemacie więźnia.

 

Źródła

[1] Alexander, Scott. Meditations on Moloch. Slate Star Codex 2014 https://slatestarcodex.com/2014/07/30/meditations-on-moloch/ 

[2] Szopa, Marek. Dlaczego w dylemat więźnia warto grać kwantowo?. Studia Ekonomiczne 178 (2014): 174–189

[3] Eisert, Jens, Wilkens, Martin, and Lewenstein, Maciej. Quantum games and quantum strategies. Physical Review Letters 83.15 (1999): 3077.

[4] Rawls, John. Justice as fairness: A restatement. Cambridge, Massachusetts: Belknap Press, 2001

142707125_3671837259519204_1222731748486006531_n (2).jpg

Marcin Woźniak – Prezes Zarządu Swarmcheck. Zajmuje się modelowaniem systemów decyzyjnych i zwiększaniem racjonalności grupowej. Troszczy się o przyszłość sztucznej inteligencji, demokrację i bycie miłym dla ludzi, zwierząt i robotów.

Previous
Previous

Wyjaśnić wyjaśnianie

Next
Next

Dlaczego łatwiej przewidzieć zmianę klimatu niż konkretną prognozę pogody?