Sformułowanie ”uczenie się”, lub ”uczenie” (będziemy oba te terminu używać wymiennie) w modelach teoriogrowych ma szeroki sens. W ogólności oznacza zmianę, dopasowywanie strategii przez graczy. Celem tych zmian jest optymalizacja użyteczności granych strategii, przy uwzględnieniu reakcji przeciwników, i ewentualne osiągnięcie równowagi. Jest wiele sposobów definiowania, opisu, za pomocą teoriogrowych modeli formalnych, procesu uczenia się. W szczególności rozważa się zarówno modele w których uczenie się jest wynikiem powtarzalnych interakcji między skończoną grupa graczy (np. między dwoma graczami), jak i uczenie w populacjach z continuum graczy. Rozważa się zarówno interakcje opisywane przez gry ekstensywne, jak i powtarzalne gry strategiczne.
W [5], str. 3 autorzy określają w nastepujący sposob model uczenia:
A ”learning model” is any model that specifies the learning rules used by individual players and examines their interaction when the game (or games) is played repeatedly.
”Strategicznym” celem różnych modeli uczenia się jest modelowanie rzeczywistych procesów ekonomicznych i społecznych. Teoria gier odgrywa tu ważną rolę jako środek opisu interakcji między podmiotami. Z formalnego punktu widzenia efekt uczenia sie to pewien stan, na ogół stacjonarny, o własnościach stabilności, który jest osiągany w wyniku procesu uczenia. Na ogół chce się by formalnym wynikiem procesu uczenia się byłoosiagnięcie pewnego stanu równowagi, typu równowagi Nasha, opisywanego przez atraktor odpowiedniego układu dynamicznego.
Istnieje wiele bardzo różnych modeli formalnych uczenia. Różnorodność modeli uczenia się odzwierciedla różnorodność możliwych założeń dotyczących graczy, stopnia złożoności ich zdolności analizowania sytuacji i możliwych reakcji, zakresu i złożoności uzyskiwanych informacji o grze, o przebiegu gry itp. Poszczególne modele uczenia się zależą w szczególności od
1. funkcji użyteczności (wypłat) graczy
2. informacji posiadanej przez graczy
3. Pamięci (o poprzednich rundach) posiadanej przez graczy i od ich zdolności obliczeniowych (np. można założyć zdolność wykonywania operacji arytmetycznych).
4. Typu zbioru graczy: może to być np. zbiór dwóch graczy, skończony zbiór graczy grających w gry dwu- lub wieloosobowe, zbiór continuum graczy–mamy wtedy do czynienia z grami populacyjnymi.
Najprostsze modele sa opisywane angielskim terminem reinforced learning, króry będziemy tłumaczyć jako uczenie się przez wzmacnianie, i opisują graczy reagujących na bodźce które podwyższają lub obniżają prawdopodobieństwo grania danymi strategiami. Przykładowe modele omówimy w następnym podrozdziale. Prostota tych modeli jest pozorna, odpowiednie modele formalne, opisywane za pomocą procesów Markowa, są na ogół skomplikowane (w szczególności gdy nie są to łańcuchy Markowa) i trudne do ścisłej analizy matematycznej. Jest też szeroka gama bardziej wyrafinowanych formalnie modeli, w których gracze mają określoną wiedzę o przeciwnikach, o używanych przez nich strategiach i otrzymywanych przez nich wypłatach, i którzy mają możliwości prognostyczne przewidywania kolejnych etapów gry. Gracze mają pewne przewidywania, przekonania (predictions, beliefs) dotyczące wyboru akcji przez przeciwników w przyszłej rundzie (ogólniej—-w przyszłych rundach) i grają ”optymalne” akcje. Do takich modeli należą modele imitacji, modele lepszych i najlepszych odpowiedzi (myopic better or myopic best response) oraz modele gry fikcyjnej (fictitious play) i gry fikcyjnej z szumem (smooth fictitious play).
Historycznie Cournot i Bertrand stworzyli pierwsze modele formalne oparte o uczenie się graczy. Co więcej, wynikiem odpowiednich algorytmów uczenia się była równowaga Nasha.
Uczenie się przez wzmacnianie (reinforcement learning) jest jednym z najprostszych modeli uczenia. Można go rozpatrywać zarówno dla gier rozgrywanych wielokrotnie między dwoma graczami, jak i dla gier populacyjnych. W literaturze stosowana jest też nazwa stimulus–response models, używana np. w modelu Busha–Mostellara zaproponowanym w latach 50ych XX wieku.
Podstawową cechą takich modeli jest fakt że strategie które daja ”satysfakcjonujący” wynik (np. nie gorszy od oczekiwań, aspiracji) będa w przyszłej rundzie grane z większym prawdopodobieństwem. W modelu tym jedyną informacją jaka posiada gracz jest jego wypłata w danej rundzie. Opiszemy modele w którym stopień wzmocnienia tendencji (prawdopodobieństwa) grania daną strategią w nastepnej rundzie zależy od różnicy między wypłatą uzyskiwaną z tej strategii, a pewnym poziomem aspiracji. W ogolności poziom aspiracji może być endogeniczny, ulegający zmianie w trakcie kolejnych rund. W opisywanym modelu poziom aspiracji będzie stały, egzogeniczny.
Model jest w pewnym sensie ”prymitywny”–gracze nie znają strategicznej postaci gry, a jedynie otrzymywaną wypłatę. Gracze nie potrzebuja znać wypłat z poszczególnych strategii, a nawet nie muszą wiedzieć że biorą udział w grze.
Uczenie się przez wzmacnianie nazywa się też uczeniem adaptacyjnym (learning through adaptation). Inne przedstawione niżej typy uczenia się będziemy nazywać uczeniem wyrafinowanym (sophisticated learning) (inne tłumaczenia tego zwrotu: ”wymyślne”, czy też ”finezyjne” uczenie się, wydają się jeszcze gorsze).
Omówimy model zaproponowany przez Rotha i Ereva [28]. Rozważamy dwuosobową GS z dodatnimi wypłatami. Gracz
(15.1) |
Mając dany wektor wag
Niech
Definiujemy dynamikę zmian inklinacji graczy:
(15.2) |
Każda grana strategia otrzymuje wzmocnienie w wysokości uzyskanej z niej wypłaty. Jeżeli założymy że kazdy gracz ma staly poziom aspiracji równy zero, to równoważnie możemy powiedziec że wzmocnienie jest równe różnicy pomiędzy wypłata a poziomem aspiracji. W tym sensie model ten zakłada dodatnie wzmocnienie (positive stimulus). Istnieje cała gama modeli w których wzmocnienie może być ujemne oraz w których poziom aspiracji jest zmienną endogeniczną i może być inny dla każdego gracza, patrz np. [38, 23, 22].
Po przekształceniach algebraicznych otrzymujemy, zakładając jednostajną ograniczoność
(15.3) |
gdzie
Formalna prostota modelu jest wynikiem minimalnych założeń o wiedzy i ”kognitywnych” umiejętnościach graczy–znają oni jedynie swoje wypłaty (np. z poprzedniej rundy) i na podstawie tej wiedzy podejmują decyzję o wyborze przyszłej akcji.
Jest to drugi podstawowy model uczenia przez wzmacnianie. Jest 2 graczy, każdy ma do wyboru dwie (takie same) akcje, każda z nich wybiera z pewnym prawdopodobieństwem. Po wyborze akcji i otrzymaniu wypłat każdy z graczy uaktualnia prawdopodobieństwa. Jeżeli wypłata jest wyższa od pewnego poziomu aspiracji to prawdopodobieństwo użycia w następnym kroku akcji zagranej poprzednio rośnie, wpp. maleje.
Niech
Niech
(15.4) |
gdzie
Zauważmy że
Stymulus posłuży nam do zdefiniowania (dyskretnej) dynamiki układu, czyli u nas do uaktualniania prawdopodobieństwa grania np. pierwszej strategii przez obu graczy.
Niech
(15.5) |
jezeli
(15.6) |
jeżeli
Prawdopodobieństwo akcji nie zagranej jest uaktualniane tak by w sumie z prawdopodobieństwem akcji zagranej dawały 1. Im większy
iloczyn
Otrzymaliśmy pewien model stochastyczny, ze stanem układu opisywanym przez wektor losowy
Przedstawiony model obejmuje dowolne gry 2x2, niekoniecznie symetryczne.
O imitacji mówimy gdy gracz w następnej rundzie rozgrywanej gry symetrycznej gra pewną strategią innego gracza (adoptuje, imituje innego gracza). Wybór strategii jest na ogół uzależniony od wypłaty uzyskiwanej przez poszczególne strategie. Możliwość imitowania zależy od modelu. Może być opisana przez pewne stałe prawdopodobieństwo, może zależeć od tego czy wypłata jest czy nie powyżej pewnego progu itd.
Po otrzymaniu możliwości imitacji gracz wybiera gracza którego strategię może imitować. Wybór gracza może być losowy, a może zależeć od wypłat uzyskiwanych przez innych graczy w poprzednich rundach. Kandydaci do ”bycia imitowanym” mogą być brani z calego zbioru graczy lub też–w przypadku gier ze strukturą przestrzenną–z odpowiednio zdefiniowanego otoczenia gracza imitującego. Można też np. wprowadzić mozliwość eksperymentowania przez dopuszczenie wyboru losowego: gracz imituje strategię przeciwnika z pewnym prawdopodobieństwem.
W modelach lepszej (better response) i najlepszej odpowiedzi (best response) zakładamy że każdy gracz zna wypłatę jaką otrzymałby z każdego możliwego wybory strategii przez wszystkich graczy oraz zna akcje wszystkich graczy w poprzedniej rundzie. Przy wyborze swojej kolejnej akcji każdy gracz zakłada że akcje przeciwników nie ulegną zmianie. Można to nazywać statycznym postrzeganiem otoczenia. Modele te opisuje się też przymiotnikiem (myopic) co odzwierciedla fakt że gracze nie biorą pod uwagę wpływu aktualnego wyboru strategii na przyszłe wybory i wypłaty uczestników gry.
W modelu lepszej odpowiedzi gracz identyfikuje wszystkie strategie które dadzą mu wyższą niż aktualna wypłate i wybiera losowo jedną z nich. W modelu najlepszej odpowiedzi gracz wybiera strategię tak aby zmaksymalizować swoja wypłatę przy oczekiwanych przez niego strategiach którymi będą grali pozostali gracze.
Jest to najstarszy i jeden z najbardziej popularnych modeli uczenia. W porównaniu z poprzednim modelem (naj)lepszych odpowiedzi mamy dalej do czynienia ze statycznym postrzeganiem otoczenia, natomiast gracze wykazują wyższy stopień ”wyrafinowania”. Po pierwsze każdy gracz zna całą dotychczasową historię gry, tzn. wszystkie akcje grane przez wszystkich graczy. Po drugie każdy gracz zakłada że każdy z pozostałych graczy będzie grał w następnej rundzie pewną strategią mieszaną, którą definiuje następujaco. Prawdopodobieństwo każdej dostepnej strategii czystej każdego z pozostałych graczy jest równe częstości dotychczasowego jej używania przez tego gracza. W kolejnej rundzie ”uczący się” gracz wybiera najlepszą odpowiedź na tak zdefiniowany profil strategii mieszanych gry.
W przypadku dwuosobowych gier strategicznych procedura gry fikcyjnej zakłada że gracz zapamiętuje wszystkie grane przez przeciwnika strategie czyste (historię gry) i na jej podstawie tworzy rozkład prawdopodobieństwa grania przez przeciwnika poszczególnych strategii czystych–strategię mieszaną–w nastepnej rundzie, w której gra najlepszą odpowiedź na tę strategię mieszaną.
Można pokazać że w przypadku gry z więcej niż jednym przeciwnikiem, przy założeniu że gracz będzie przewidywał rozkład łączny, finalnym efektem procedury jest na ogół równowaga skorelowana.
Dla wielu typów gier procedura gry fikcyjnej jest zbieżna to równowagi Nasha. Istnieją jednak proste kontrprzykłady, związane z brakiem ciągłości odwzorowania najlepszej odpowiedzi, z których pierwszy był skonstruowany w pracy [32]. Metody ”uzbieżniania” procedury polegają na wprowadzeniu różnych typów niedużych zaburzeń do gry, lub rozważanie populacji graczy zamiast jednego, patrz [25].
Gracz rozgrywa z przeciwnikiem
Powyższe modele uczenia się można uogólnić na jeden model który nazwiemy modelem porównywania ([26]).
Załóżmy że gracz gra pewną strategią
Wyjściowym formalnym obiektem modelu jest rodzina przestrzeni probabilistycznych
Próbka
(15.7) |
gdzie
W przypadku uczenia się przez imitację przestrzeń próbek
Dla procedury lepszej/najlepszej odpowiedzi
Uczenie się racjonalne (rational learning). Jest to najbardziej ”wyrafinowany” z prezentowanych modeli. Zakładamy że gracze znają sytuację strategiczna oraz że mają subiektywny (zależny od gracza) zbiór przekonań (beliefs) o strategiach behawioralnych pozostalych graczy. Gracze reagują optymalnie na przekonania–strategie behawioralne–pozostałych graczy (w sensie najlepszej odpowiedzi: tak aby zmaksymalizować zdyskontowana sumę wszystkich swoich przyszłych wypłat).
Uczenie się behawioralne: Odpowiednie modele te są tworzone na podstawie wyników eksperymentalnych, które w szczególności pokazują że ludzie często nie zachowują sie ”racjonalnie”, powoduja się emocjami, popełniają błędy, mają ograniczony horyzont czasowy planowania strategicznego i pamięć o historii (zapominanie), ograniczoną wiarę w racjonalność, umiejętności pozostałych graczy itp.
Treść automatycznie generowana z plików źródłowych LaTeXa za pomocą oprogramowania wykorzystującego LaTeXML.
strona główna | webmaster | o portalu | pomoc
© Wydział Matematyki, Informatyki i Mechaniki UW, 2009-2010. Niniejsze materiały są udostępnione bezpłatnie na licencji Creative Commons Uznanie autorstwa-Użycie niekomercyjne-Bez utworów zależnych 3.0 Polska.
Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu Społecznego.
Projekt współfinansowany przez Ministerstwo Nauki i Szkolnictwa Wyższego i przez Uniwersytet Warszawski.