Zagadnienia

15. Podstawy teorii gier

Na koniec omówimy jeszcze podstawowe pojęcia związane z teorią gier i w ich języku spróbujemy wyjaśnić pewne zachowania osobników, które na pozór wydają się paradoksalne, ale mają głębokie uzasadnienie z punktu widzenia przetrwania gatunku. Zauważmy, że różne gatunki wykształciły różne typy zachowań. Zdarza się, że osobniki danego gatunku prawie nigdy w trakcie rywalizacji — czy o partnera, czy o pożywienie — nie walczą ,,na poważnie”, a tylko straszą się wzajemnie w trakcie tzw. walk rytualnych. W przypadku innych — dochodzi do bardzo poważnych potyczek. Analogiczne zachowania mogą być dyskutowane na gruncie socjologicznym w stosunku np. do pracowników danego przedsiębiorstwa czy innych społeczności. Pojawia się zatem pytanie, kiedy osobnikom bardziej opłaca się stosować strategię walki, a kiedy uniku i od czego taki wybór zależy. Odpowiedzi możemy poszukiwać na gruncie teorii gier w oparciu o strategie ewolucyjnie stabilne.

15.1. Podstawy teorii gier

Teoria gier w nierozerwalny sposób łączy się z dwoma nazwiskami — Johna Maynarda Smitha [15] i Johna Nasha. Pierwszy z nich wprowadził pojęcie strategii ewolucyjnie stabilnej, natomiast drugi sprecyzował matematyczne podstawy tej teorii i zaproponował pojęcie równowagi Nasha.

W teorii gier zakładamy, że co najmniej dwóch osobników ,,gra” w pewną grę. Mają do wyboru pewne zachowania, które nazywamy strategiami. W zależności od tego jakie strategie wybiorą poszczególni gracze, dostają odpowiednie wypłaty. Zatem budując model w oparciu o teorię gier musimy zaproponować zbiór graczy, zbiór strategii oraz macierz wypłat związanych z poszczególnymi strategiami.

15.1.1. Gra w postaci normalnej

Załóżmy, że każdy z graczy ma do wyboru jedną z M strategii R1,RM, które nazwiemy strategiami czystymi. Jeśli założymy, że gracz może wybierać te strategie z pewnymi prawdopodobieństwami p1,,pM, to taki profil strategii p1,,pM, pi0, i=1Mpi=1, nazywamy strategią mieszaną. Strategie mieszane identyfikujemy z punktami sympleksu

SM=pRM:pi0,1,i=1Mpi=1.

Wierzchołki sympleksu SM są oczywiście strategiami czystymi.

Niech w grze bierze udział dwóch graczy i niech uij oznacza wypłatę gracza I jeśli gra on strategią Ri przeciwko graczowi II grającemu strategią Rj. Macierz U=uiji,j=1M nazywamy macierzą wypłat.

Definicja 15.1

Gra w postaci normalnej dla dwóch graczy zadana jest za pomocą zbioru strategii czystych R1,,RM, sympleksu strategii mieszanych SM oraz macierzy wypłat U.

Załóżmy teraz, że gracz I gra strategią mieszaną p=p1,,pM przeciwko graczowi II grającemu strategią mieszaną q=q1,,qM. Ile wyniesie średnia wypłata gracza I? Gdyby gracz I grał czystą strategią Ri przeciwko q, to z prawdopodobieństwami qj dostawałby wypłatę uij, j=1,,M, czyli średnio UqTi=j=1Muijqj. Wobec tego grając p przeciw q dostaje z prawdopodobieństwami pi wypłatę UqTi, zatem średnio pUqT=i,j=1Mpiuijqj.

Definicja 15.2

Funkcją odpowiedzi na strategię q nazwiemy funkcję średnich wypłat Fqp=pUqT.

Niech βq oznacza zbiór najlepszych odpowiedzi na strategię q, czyli zbiór tych p, dla których Fqp osiąga wartość maksymalną.

Definicja 15.3

Równowagą Nasha nazwiemy taką strategię q, która jest najlepszą odpowiedzią na siebie samą, czyli qβq. Ścisła równowaga Nasha jest jedyną taką strategią, czyli q=βq.

Widzimy więc, że dla równowagi Nasha zachodzi pUqTqUqT dla dowolnej strategii p, natomiast dla ścisłej równowagi Nasha mamy pUqT<qUqT dla dowolnej strategii pq.

Możemy dość łatwo wykazać, że ścisła równowaga Nasha jest strategią czystą.

Twierdzenie 15.1

Niech q będzie równowagą Nasha. Jeśli q jest ścisłą równowagą Nasha, to istnieje i, dla którego q=Ri.

Załóżmy, że dla wszystkich j1,,M mamy qRj. Oczywiście dla dowolnej strategii p zachodzi nierówność Fqp<Fqq, a w szczególności

FqRj<Fqq,j=1,,M. (15.1)

Pomnóżmy stronami nierówność (15.1) przez qj i zsumujmy po wszystkich j=1,,M. Dostaniemy j=1MqjFqRj<j=1MqjFqq. Zauważmy, że q=j=1MqjRj, zatem z liniowości Fq otrzymujemy Fqq<Fqq, czyli q nie może być strategią czystą.

Zauważmy, że gdy q jest ścisłą równowagą Nasha, to jeśli w populacji wszyscy stosują tę strategię, to osobnik, który będzie próbował zastosować inną — przegra, gdyż jego wypłata zawsze będzie mniejsza. Taka dynamika gry wiąże się też z koncepcją strategii ewolucyjnie stabilnej, czyli strategii odpornej na niewielkie zaburzenia.

Definicja 15.4

Strategię q nazwiemy ewolucyjnie stabilną (ESS, czyli evolutionary stable strategie), jeśli dla wszystkich pSM, pq zachodzi nierówność

pUεp+1-εqT<qUεp+1-εqT

dla wszystkich dostatecznie małych ε<ε~p.

Stałą ε~ nazywamy barierą inwazji. Oczywiście ścisła równowaga Nasha jest strategią ewolucyjnie stabilną. Z drugiej strony

Twierdzenie 15.2

Strategia qSM jest ESS wtw spełnione są następujące warunki

    [A]
  1. równowagi: pUqTqUqT dla wszystkich pSM;

  2. stabilności: jeśli dla pewnego pq zachodzi pUqT=qUqT, to pUpT<qUpT.

Dowód tego twierdzenia pozostawiamy jako ćwiczenie.

15.2. Przykłady gier

Omówimy teraz dwa podstawowe przykłady gier i zinterpretujemy ich wyniki.

15.2.1. Gra jastrząb – gołąb

Gra jastrząb – gołąb polega na tym, że gracz ma do wyboru strategię agresji, którą stosując zawsze walczy z przeciwnikiem, albo strategię wycofywania się, w której zawsze ustępuje przeciwnikowi. W trakcie walki osobnik może być poważnie zraniony, więc może wiele stracić, ale z drugiej strony może dużo zyskać, jeśli wygra. Z kolei osobnik ustępujący nie traci w trakcie spotkania z przeciwnikiem. Miarą wygranej w tej grze jest dostosowanie (ang. fitness), często wyrażane jako liczba potomstwa. Niech osobnik, który wygrywa, dostaje g, natomiast osobnik zraniony traci c. Wtedy jeśli spotyka się jastrząb z jastrzębiem, to z prawdopodobieństwem 1/2 może zyskać g i stracić c, więc średnia wygrana to g-c/2. Wygrana jastrzębia przeciw gołębiowi to oczywiście g. Gołąb w starciu z jastrzębiem wycofuje się, więc jego wygrana to 0, a w starciu z gołębiem może wygrać z prawdopodobieństwem 1/2, więc wygrana to g/2. Gra jest symetryczna, zatem wystarczy podać jedynie macierz wypłat gracza I przeciwko II. Często mówi się o graczu ,,kolumnowym” i ,,wierszowym”. Jeśli przez R1 oznaczymy strategię jastrzębia, a przez R2 — gołębia, to macierz wypłat ma postać

g-c2g0g/2.

W grze tej dodatkowo zakładamy, że rany otrzymywane w walce są na tyle dotkliwe, że g-c<0.

Sprawdzimy, że gra ta nie ma ścisłej równowagi Nasha. Wiemy, że taka równowaga musiałaby odpowiadać albo czystej strategii jastrzębia, albo czystej strategii gołębia. Policzmy dla obu strategii funkcje najlepszej odpowiedzi.

  • Biorąc R1=1,0 dostajemy

    FR1p=pUR1T=p1,1-p1g-c2g0g21,0T=p1g-c2

    i maksymalizując to wyrażenie dostajemy p1=0 (tu widzimy, do czego potrzebne jest założenie g-c<0), czyli R1βR1.

  • Biorąc R2=0,1 dostajemy

    FR1p=pUR2T=p1,1-p1g-c2g0g20,1T=p1+1g2

    i maksymalizując to wyrażenie dostajemy p1=1, czyli R2βR2.

Widzimy więc, że w grze tej nie ma ścisłej równowagi Nasha. Staje się to oczywiste, jeśli wyobrazimy sobie populację składającą się albo z samych jastrzębi, albo z samych gołębi. Jeśli są same jastrzębie, to pojawiający się gołąb ma lepiej, gdyż w starciu z jastrzębiem nic nie traci, zatem gołębie zaczynają się rozprzestrzeniać. Z kolei jeśli są same gołębie, to pojawiający się jastrząb zawsze wygrywa, więc zaczną rozprzestrzeniać się jastrzębie. Wydaje się więc, że powinna być jakaś odpowiednia proporcja między gołębiami i jastrzębiami.

Rozpatrzmy strategię mieszaną x,1-x, w której z prawdopodobieństwem x osobnik gra strategię jastrzębia i z prawdopodobieństwem 1-x gra gołębia. Wtedy średni wzrost dostosowania jastrzębia wyniesie

xg-c2+1-xg=g-xg+c2,

natomiast gołębia

1-xg2.

Dopóki któreś z tych dostosowań jest większe, odpowiadająca mu strategia będzie się rozprzestrzeniać. Równowaga ustali się, jeśli oba będą jednakowe, czyli

g-xg+c2=1-xg2x=gc.

Zatem proporcja jastrzębi będzie tym mniejsza, im więcej można stracić w walce w stosunku do zysku. Ta analiza wyjaśnia też popularność walk rytualnych wśród zwierząt, które mogą się poważnie zranić w trakcie prawdziwej walki — zamiast faktycznie walczyć zwierzęta te wolą w walce rytualnej zaprezentować przed przeciwnikiem swoją siłę licząc na to, że przeciwnik się zniechęci i odejdzie bez prawdziwej walki. W taki sposób postępują np. jelenie na rykowisku.

15.2.2. Dylemat więźnia

Dylemat więźnia jest typową grą socjologiczną. Zakłada się w niej, że dwóch więźniów zostało osadzonych w więzieniu w osobnych celach i każdemu z nich prokurator obiecał zmniejszenie wyroku za wydanie współwinnego. Jeśli jednak żaden z nich się nie przyzna, to niewiele będzie im można udowodnić, więc obaj dostaną najwyżej niewielki wyrok. Z kolei jeśli jeden z nich zdradzi, a drugi nie, to ten, który wydał współwinnego dostanie wyrok w zawieszeniu. Jeśli obaj zdradzą się wzajemnie, obaj dostaną nieco mniejsze wyroki. Niech macierz wypłat w tej grze przy założeniu, że R1 oznacza zdradę kolegi, a R2 — odrzucenie propozycji prokuratora, ma postać

a0bc,

gdzie a to wyrok dla więźnia I przy założeniu, że obaj zdradzają się wzajemnie, b — wyrok dla tego więźnia, gdy on odrzuca propozycję prokuratora, a wiezień II go zdradza, więc b>a, natomiast c to wyrok w sytuacji, gdy obaj odrzucają współpracę z prokuratorem, więc a>c.

Zauważmy, że obu więźniom najbardziej opłaca się odrzucić współpracę z prokuratorem, gdyż dzięki temu zapewniają sobie mniejszy wyrok, ale z obawy przed zdradą kolegi wolą sami też zdradzić, bo jeśli kolega zdradzi, a dany więzień nie, to on dostanie cięższy wyrok, niż jeśliby też zdradził. Zatem R1 jest tu czystą równowagą Nasha. Faktycznie grając R1 przeciw R1 mamy wypłatę

1,0a0bc,1,0T=a,

natomiast grając przeciw dowolnej strategii x,1-x

1,0a0bc,x,1-xT=ax

i oczywiście a>ax dla x1. Wobec tego R1 jest ścisłą równowagą Nasha i jednocześnie strategią ewolucyjnie stabilną. Zauważmy jednak, że strategii tej brakuje jednej z podstawowych cech — nie jest optymalna, w tym sensie, że jeśli obaj wybiorą R2, dostaną mniejsze wyroki.

Tego typu zagadnienia możemy rozważać badając np. optymalność w sensie Pareto.

Definicja 15.5

Powiemy, że wynik gry jest nieoptymalny w sensie Pareto, jeżeli istnieje inny wynik, dający albo obu graczom wyższe wypłaty, albo jednemu z nich taką samą, a drugiemu wyższą. W przeciwnym przypadku wynik jest optymalny.

Pareto postulował następujące kryterium: tylko wynik optymalny w sensie Pareto może być akceptowany jako rozwiązanie gry. Kryterium Pareto stanowi podstawową zasadą racjonalności zbiorowej. W dylemacie więźnia wchodzi ona w konflikt z zasadą racjonalności indywidualnej reprezentowanej przez równowagę Nasha.

Treść automatycznie generowana z plików źródłowych LaTeXa za pomocą oprogramowania wykorzystującego LaTeXML.

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu Społecznego.

Projekt współfinansowany przez Ministerstwo Nauki i Szkolnictwa Wyższego i przez Uniwersytet Warszawski.