Zagadnienia

6. Gry Bayesa

6.1. Uwagi wstępne

W dotychczas rozpatrywanym modelu gry strategicznej gracze którzy podejmowali decyzje mieli pełną informację dotyczącą gry, w szczególności znali macierze wypłat wszystkich graczy. W wielu rzeczywistych sytuacjach w ekonomii, w polityce, w konfliktach militarnych, w relacjach społecznych gracze mają zróznicowaną informację o pewnych aspektach gry, istotnych dla podjęcia decyzji o wyborze akcji. Gry w których przynajmniej jeden gracz posiada taka informację, tzn. nieznana conajmniej jednemu innemu graczowi, będziemy nazywać grami Bayesa (Bayesian games), albo grami z niepełną informacją. Używa się też terminu: gry z asymetryczną informacją.

W dotychczasowych rozważaniach dla GS gracze znali w szczególności akcje i wypłaty swoje i przeciwników. W rzeczywistych konfliktach często tak nie jest, walczący nie znaja siły przeciwników, firmy nie znaja kosztów produkcji konkurentów, uczestnicy aukcji nie znają waluacji obiektu aukcji przez innych uczestników aukcji. W grach opisujących takie sytuacje dochodzi więc element ryzyka związany z niepełną informacją.

W grach Bayesa definicja równowagi Nasha musi zostać zmieniona tak aby uwzględnić zróżnicowaną informację graczy o grze. Odpowiednie uogólnienie pojęcia równowagi będziemy nazywali równowagą Nasha–Bayesa, lub po prostu równowagą Bayesa. W takiej równowadze akcje graczy będa optymalne (będą najlepszymi odpowiedziami) przy ich określonych przekonaniach (beliefs) dotyczących innych graczy.

W formalnym modelu gry strategicznej uwzględniającym niepełną informację dojda dodatkowe obiekty–stany świata, i subiektywne, zależne od gracza prawdopodobieństwa wystąpienia różnych stanów świata. Odpowiednim modyfikacjom ulegną wypłaty, które będą wartościami oczekiwanymi odpowiednich zmiennych losowych, i w konsekwencji pojęcia najlepszej odpowiedzi.

Uwaga 6.1

Innym rodzajem niepełnej informacji o grze może być brak informacji gracza co inni gracze wiedzą o tym co wie dany gracz na temat gry. W grach ekstensywnych, będących tematem kolejnych rozdziałów, rozważa się jeszcze inny rodzaj niepewności w grze: brak pewności jaka akcję grał ostatnio przeciwnik (przeciwnicy). Gry tego typu nazwiemy grami z niedoskonałą informacją (imperfect information).

W poniższych przykładach (por. [19]) rozważymy gry dwuosobowe w których przynajmniej jeden gracz nie będzie miał pewności na temat wypłat swojego przeciwnika czy też partnera gry.

Przykład 6.2 (Duopol Cournota z asymetryczną informacją)

Niech C1q1=cq1 jest funkcja kosztów 1-ej firmy. Funkcja kosztów 2-ej jest równa C2q2=cLq2 z prawdopodobieństwem p, C2q2=cHq2 z prawdopodobieństwem 1-p. Informacja graczy o grze jest asymetryczna w nastepującym sensie: 2 zna C2 and C1, 1 zna C1 i wie że koszt koszt wyprodukowania jednostki towaru przez firmę 2 wynosi cL z prawdopodobieństwem p, cH z prawdopodobieństwem 1-p. Przykładowo, firma 2 może dopiero wchodzić na rynek lub wprowadzać nową technologię produkcji rozważanego towaru. Zakładamy ”common knowledge”: 1 wie co 2 wie o grze, 2 wie że 1 wie co 2 wie o grze itd.

Przykład 6.3

Walka Płci (przy niepełnej informacji)

Rozważmy symetryczną GS: N=1,2,A1=A2=B,S. 1-y gracz to Mężczyzna, 2-i gracz to Kobieta. B oznacza Boks, S–Siatkówkę. 1 and 2 muszą zdecydować jednocześnie: wybrać B czy S.

Gracz 1 ma macierz wypłat

B S
B 2 0
S 0 1

Gracz 2 może być jednym z dwóch typów: l i h (od ang.: love, hate). Gdy jest typu l to jego macierz wypłat ma postać

B S
B 1 0
S 0 2

a gdy typu h, to

B S
B 0 2
S 1 0

W tym przykładzie gracz 1 ma tylko jeden typ. Zakładamy że przy realizacji gry każdy gracz wie jakiego jest typu.

Gracz 1 nie wie z jakim typem gracza 2 będzie grał. Zakładając prawdopodobieństwo każdego typu równe (w naszym przykładzie) 0.5 i wiedząc jaką akcję wybierze (z prawdopodobieństwem 1) gracz 2 gdy jest każdego z typów, gracz 1 może obliczyć wypłaty ze swoich strategii czystych jako wartości oczekiwane zmiennej losowej ”typ gracza 2”.

Niech para (A,B) oznacza: gracz 2 gra A gdy jest typu l, B gdy jest typu h. Otrzymujemy macierz wartości oczekiwanych wypłat gracza 1 przy danych założeniach o graczu 2:

(B,B) (B,S) (S,B) (S,S)
B 2 1 1 0
S 0 1/2 1/2 1

Zauważmy że macierz tę można traktować jako macierz wypłat pewnej gry trzyosobowej.

Za profil strategii czystych gry przyjmiemy trójkę

X,A,BX,A,B,X,A,BB,S.

Za profil rówowagowy (strategii czystych) przyjmiemy taki profil X,A,B dla którego:

1. Przy ustalonych akcjach (A,B) 2-ego gracza gdy jest typu odpowiednio l,h (i przy znanym graczowi 1 prawdopodobieństwie każdego typu gracza 2 (w maszym przykładzie 0.5) akcja X daje graczowi 1 maksymalna wypłatę

2. Przy ustalonej akcji X 1-ego: gdy 2-i jest typu l (typu h) to akcja A (akcja B) daje 2-emu maksymalna wypłatę.

Jak łatwo sprawdzić, w naszym przykładzie warunki te spełnia trójka B,B,S.

6.2. Definicje

Definicja 6.3

Przekonanie (belief) μi gracza i (o akcjach pozostałych graczy) jest to rozkład prawdopodobieństwa na A-i.

Gracz i jest racjonalny jeżeli wybiera strategię ai taką że

aiargmaxa~iEμia-iuia~i,a-i,

czyli taką która maksymalizuje wyrażenie

a~iuia~i,a-iμia-i.

Przykładowo C,0.6,D,0.4 jest przekonaniem gracza 1 w grze koordynacyjnej

C D
C 1 0
D 0 1

Gracz 1 jest racjonalny jeżeli wybiera C.

Definicja 6.4

Niech Ω będzie zbiorem skończonym. Elementy Ω bedziemy nazywać stanami świata. Przekonanie μi gracza i o stanach świata jest to rozkład prawdopodobieństwa na Ω.

Definicja 6.5

Gra Bayesowska

GB=N,Ω,Ai,Ti,τi,pi,uiiN,

składa się z następujących elementów:

N=1,n – skończony zbiór graczy.

Ω – skończony zbiór stanów świata.

Dla każdego gracza iN określamy

  • Ai – zbiór akcji gracza i.

  • Ti=ti1,,tiki – skończony zbiór ki typów gracza i (sygnałów które może otrzymać). W dalszym ciągu dla uproszczenia górny wskaźnik numerujący typ będziemy pomijać.

  • τi:ΩTi – funkcja sygnału gracza i. Przyporządkowuje ona stanom świata typ gracza i.

    Moc zbioru stanów które generują ryp ti opisuje stopień pewności gracza i o stanie świata. Na przykład jeżeli τiω1τiω2ω1,ω2Ω to gracz i wie, po otrzymaniu sygnału, jaki jest stan świata (jaki stan ”zaszedł”), a zatem zna typy wszystkich graczy.

    Jeżeli natomiast τiω1=τiω2ω1,ω2Ω to sygnął który otrzymuje gracz (a zatem jego typ) nie daje mu żadnej informacji o stanie świata.

    W pozostałych przypadkach informacja ma charakter częściowy. Niech np. świat ma trzy stany: Ω=ω1,ω2,ω3, τiω1τiω2=τiω3. Jeżeli świat jest w stanie ω1, to gracz i wie że świat jest w stanie ω1, jesli ω2 lub ω3 to gracz i nie wie w którym z tych stanów.

  • Dla każdego typu ti Pi=Pr(ω|ti) jest prawdopodobieństwem apriori (prior belief) jakie typ ti assigns stanowi ω.

    Funkcja sygnału τi wraz ze zbiorem prawdopodobieństw apriori opisują wiedzę i o stanie świata.

  • ui:A×Ω,A=×Ai,iN – funkcja wypłat gracza i.

Gra odbywa się w następstwie realizacji pewnego stanu świata ωΩ.

Gracz i otrzymuje sygnał (dla uproszczenia oznaczeń pomijamy numer sygnału) ti=τiω, czyli jest typu ti. Typ ti definiuje podzbiór stanów świata τi-1ti (które implikują typ ti). Dla każdego takiego stanu ωτi-1ti otrzymujemy Pr(ω|ti) - aprioryczne prawdobodobieństwa gracza i w stanie ti że stan świata jest ω. Mając te prawdopodobieństwa obliczamy wypłaty gracza i.

Przykład 6.4

W rozpatrywanej grze Walka Płci (przy niepełnej informacji):

N=1,2

Ω=razem,osobno

Ai=B,S,i=1,2

Funkcje sygnału: gracza 1: τ1razem=τ1osobno=t11,T1=t11 – gracz 1 może otrzymać tylko jeden sygnał, jest tylko jednego typu.

gracza 2: τ2razem=l=t21,τ2osobno=h=t22,T=l,h – gracz 2 może być typu l lub typu h.

Prawdopodobieństwa aprioryczne gracza 1:

Pr(razem|t11)=Pr(osobno|t11)=1/2.

Mówimy że gracz 1 przypisuje każdemu stanowi świata prawdopodobieństwo 1/2 po otrzymaniu sygnału t11.

Prawdopodobieństwa aprioryczne gracza 2:

P(razem|t21)=1=P(osobno|t22),P(osobno|(t21)=P(razem|t22)=0.

Gracz 2 przypisuje prawdopodobieństwo 1 stanowi razem po otrzymaniu synału t21 i stanowi osobno po otrzymaniu sygnału t22.

Wypłaty: dla a=a1,a2,aiB,S:

Liczby uia,razem są elementami macierzy wypłat gdy 2 jest typu l,

Liczby uia,osobno są elementami macierzy wypłat gdy 2 jest typu h.

Definicja 6.6

Równowaga Nasha Gry Bayesowskiej GB jest to RN następującej GS:

Gracze: pary i,ti, gdzie iN,tiTi

Zbiór akcji gracza i,ti jest to zbiór akcji Ai gracza i w GS

Wypłaty gracza i,ti definiujemy następująco:

Oznaczmy: ai(j,ti)=:ai(ω) –akcja typu ti gracza i,iN.

Wypłata gracza i,ti wybierającego akcję ai jest równa

uiti(ai,)=ωΩui(ai,a-i(ω)),ω)Pr(ω|ti).

ai,a-iω jest profilem GS w której gracz i typu ti gra ai, a pozostali grają ajω,j=1,,i-1,i+1,n, ajω jest wprowadzonym wyżej oznaczeniem akcji gracz j typu τjω gdy stan świata jest ω.

Zauważmy że uiti(ai,) zależy od akcji wszystkich typów wszystkich pozostałych graczy, a nie zależy od akcji żadnego z typów gracza i.

6.3. Przykłady

Przykład 6.5

W rozważanym wyżej Przykładzie 6.4 policzymy oczekiwaną wypłatę (jedynego) typu t11 gracza 1 z akcji a1=B, gdy a2ω1=B,a2ω2=S:

u1t1(B,)=u1((B,B),ω1)Pr(ω1|t11)+u1((B,S),ω2)Pr(ω2|t11)=21/2+01/2=1.
Przykład 6.6 (Battle of the Sexes (with incomplete information))

Niech obaj gracze mogą być jednego z dwóch typów: l,h, i że nie wiedzą jakiego typu jest przeciwnik: 1 przypisuje typowi 2-go prawdopodobieństwo 1/2, 2-i przypisuje 1-mu typ l z prawdopodobieństwem 2/3, h z prawdopodobieństwem 1/3. Gracze znają swoje typy.

Tę sytuację modelujemy jako następującą GB:

Ω=yy,yn,ny,nn

Ai=B,S,i=1,2

Funkcja sygnału gracza 1: τ1(yy)=τ1(yn)=:y1,τ1(ny)=τ1(nn)=:n1,T1={y1,n1}

Funkcja sygnału gracza 2: τ2(yy)=τ2(ny)=y2,τ2(yn)=τ2(nn)=:n2,T2={y2,n2}

Prawdopodobieństwa aprioryczne (beliefs) gracza 1:

Pr(yy|y1)=Pr(yn|y1)=1/2=Pr(ny|n1)=Pr(nn|n1)=1/2

Prawdopodobieństwa aprioryczne (beliefs) gracza 2:

Pr(yy|y2)=Pr(yn|n2)=2/3,Pr(ny|y2)=Pr(nn|n2)=1/3

Wypłaty: dla a=a1,a2,aiB,S: liczby uia,ω,ωyy,yn,ny,nn są elementami macierzy M1,M4.

M1:

B S
B 2,1 0,0
S 0,0 1,2

M2:

B S
B 2,0 0,2
S 0,1 1,0

M3:

B S
B 0,1 2,0
S 1,0 0,2

M4:

B S
B 0,0 2,2
S 1,1 0,1

Przykład 6.7 (Duopol Cournota z asymetryczną informacją)

W Przykładzie 6.2 gra Bayesa ma postać:

N=1,2, Ω=L,H, Ai=+,i=1,2.

Funkcje sygnału: τ1H=τ1L,τ2Lτ2H.

Prawdopodobieństwa aprioryczne: jedyny typ gracza 1 przypisuje prwadopodobieństwo p stanowi L, 1-p stanowi H. Każdy typ gracza 2 przypisuje prawdopodobieństwo 1 każdemu stanowi konsystentnemu ze swoim sygnałem Pr2(L.,t21)=1=Pr2(H,t22), natomiast prawdopodobieństwo 0 w przeciwnym przypadku.

Funkcje wypłaty: u1q1,q2=q1PQ-cq1,u2q1,q2=q2PQ-cIq2, gdzie Q=q1+q2,IΩ, a PQ jest rynkową ceną jednostki towaru którego całkowita produkcja wynosi Q.

Ćwiczenie 6.1

W duopolu Cournota z Przykładu 9.7 dla cL,cH dostatecznie bliskich by istniała RN z dodatnimi produkcjami znaleźć tę RN i porównać z RN gier w których 1 zna cL i cH.

Niech PQ=α-Q dla Qα, PQ=0 dla Q>α. Niech q1*,q*L,qH* – RN. Wtedy

q1*=B1(qL*,qH*)=maxq1[pP(q1+qL*)-c)q1+(1-p)(P(q1+qH*)-c)q1],

qL*=BLq1*=maxqLPq1*+qL-cLqL

qH*=BHq1*=maxqHPq1*+qH-cHqH.

Obliczając pierwsze pochodne otrzymujemy 3 równania algebraiczne na q1*,q*L,qH*. Ich rozwiązanie:

q1*=α-2c+pcL+1-pcH3
qL*=α-2cL+c/3-1-pcH-cL/6
qH*=α-2cH+c/3+pcH-cL/6

Przypomnijmy że dla duopolu Cournota z pełną informacją gdy koszt produkcji firmy i wynosi ci,i=1,2, to zakładając dodatniość odpowiednich wielkości produkcji, w RN wielkości te wynoszą

q1*=α-2ci+cj/3.

W szczególoności otrzymujemy więc

qH*>α-2cH+c/3,qL*<α-2cL+c/3.
Przykład 6.9 (Nadmiar informacji może obniżyć wypłatę)

I. Rozważmy wpierw 2-osobową GB z dwoma stanami: ω1,ω2, w której żaden z graczy nie zna stanu świata i każdy przypisuje prawdopodobieńtwo 1/2 każdemu z 2 stanów. Macierze wypłat odpowiadające obu stanom mają postać: M1:

L M R
T 1,2a 1,0 1,3a
B 2,2 0,0 0,3

M2:

L M R
T 1,2a 1,3a 1,0
B 2,2 0,3 0,0

gdzie a0,1/2.

Najlepsza odpowiedź gracza 2 na każdą akcję 1-go to L:

jeśli 1 wybierze T, to L da 2a, M i R dadzą po 3a/2 każda.

jeśli 1 wybierze B, to L da 2, M i R dadzą po 3/2 każda.

Co więcej, najlepsza odpowiedź 1 na L to B. Ponieważ jest to jedyna najlepsza odpowiedż, więc para (par) (B,B),(L,L)) jest jedyną RN (także w strategiach mieszanych). W Rn każdy gracz otrzymuje 2.

II. Rozważmy teraz nastepującą modyfikację tej gry. Gracz 2 zna stan świata: τ2(ω1)τ2(ω2. Mamy sytuację taką jak w pierwszej wersji gry Wojna Płci z niepełną informacja. Gracz 2 ma więc więcej informacji. Zakładamy że gracz 1 jest o tym poinformowany.

W tej grze T,R,M jest jedyną RN: każdy typ gracza 2 ma strategię ścisle dominującą, wprzy której jedyną najlepszą odpowiedzią gracza 1 jest T. W tej RN gracz 2 otrzymuje 3a w każdym ze stanów, a więc wypłatę niższą niż w przypadku I!

Treść automatycznie generowana z plików źródłowych LaTeXa za pomocą oprogramowania wykorzystującego LaTeXML.

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu Społecznego.

Projekt współfinansowany przez Ministerstwo Nauki i Szkolnictwa Wyższego i przez Uniwersytet Warszawski.