W tym rozdziale opisujemy dokładniej różne zagadnienia związane ze sterowaniem optymalnym.
Najpierw prezentujemy różne wersje zasady maksimum Pontragina i twierdzenia o warunkach dostatecznych dla sterowań spełniających zasadę maksimum, następnie wprowadzamy równanie Bellmana zawierające warunki dostateczne optymalności sterowania w postaci pętli zamkniętej.
Ze względu na to, że w zagadnieniach ekonomicznych związanych z poszukiwaniem sterowania optymalnego prawie zawsze występuje dyskontowanie, przedstawiamy modyfikacje obu metod obliczeniowych w przypadku dyskontowania.
Na końcu prezentujemy przykłady ekonomiczne zastosowania zagadnień optymalnego sterowania.
W problemach ekonomicznych często rozważamy zagadnienie Bolzy z ustalonym horyzontem czasowym 
 i swobodnym stanem końcowym – maksymalizujemy wypłatę lub minimalizujemy koszt dany funkcjonałem
 przy
 z warunkiem początkowym 
 i ograniczeniu na sterowanie 
 dla każdego 
.
Zdefiniujemy Hamiltonian jako 
.
Ponieważ wielkrotnie będzie pojawiać się określenie ,,zbiór punktów realizujących minimum/maximum funkcji na zbiorze”, wprowadzimy skrótowe oznaczenie. Dla pewnej funkcji 
 o wartościach rzeczywistych i zbioru 
 zawartego w jej dziedzinie symbol
 oznacza zbiór punktów dla których przyjmowane jest minimum funkcji 
 na zbiorze 
, natomiast symbol
 oznacza zbiór punktów dla których przyjmowane jest maksimum funkcji 
 na zbiorze 
.
Zasada maksimum Pontriagina ma w tym wypadku następującą postać:
Niech funkcje 
, 
 i 
 oraz ich pochodne po 
 będą ciągłe  na zbiorach określoności.
Jeśli 
 jest sterowaniem maksymalizującym (minimalizującym) 
 a 
 odpowiedzią na nie, to istnieje absolutnie ciągła funkcja 
, taka że w każdym punkcie 
, w którym istnieje lewostronna pochodna 
 i jest równa 
 zachodzi: 
 z warunkiem początkowym 
; 
z warunkiem końcowym
; 
 
(
).
Dowód zasady maksimum Pontriagina w tej wersji można znaleźć np. w Zabczyk [41].
 w notacji rozdziału 7 (??) wykładu – można tak zrobić, bo dla naszego zagadnienia 
. Dlatego też maksymalizacja zamienia się na minimalizację.
Sformułować problem znalezienia najkrótszej krzywej w przestrzeni 
 łączącej zadany punkt początkowy 
 i czas 
 z pionową prostą w 
 jako problem optymalnego sterowania i rozwiązać go za pomocą zasady maksimum, czyli znaleźć sterowanie i trajektorię spełniające warunki konieczne z zasady maksimum Pontriagina – twierdzenia 11.1.
Jeśli za 
 we wzorze na długość krzywej podstawimy 
, to otrzymamy zagadnienie optymalnego sterowania z 
, 
, 
 i nieograniczonym zbiorze parametrów sterująych 
.
Rozważyć liniowe zagadnienie maksymalizacji wypłaty z 
, 
, 
, 
, 
, 
.
Znaleźć sterowanie i trajektorię spełniające warunki konieczne z zasady maksimum Pontriagina – twierdzenia 11.1.
Rozważyć zagadnienie maksymalizacji wypłaty z 
, 
, 
, 
, 
, 
.
Znaleźć sterowanie i trajektorię spełniające warunki konieczne z zasady maksimum Pontriagina – twierdzenia 11.1.
Rozważyć zagadnienie minimalizacji kosztu z 
, 
, 
, 
, 
, 
.
Znaleźć sterowanie i trajektorię spełniające warunki konieczne z zasady maksimum Pontriagina – twierdzenia 11.1.
Maksymalizacja zysków z łowiska.
Model łowiska będącego podstawą egzystencji właściciela – naszym celem jest zmaksymalizować wypłatę.
Dane stan początkowy 
,
wypłata bieżąca 
, wypłata końcowa 
, zmianę stanu populacji ryb określa funkcja 
, a zbiór parametrów sterujących to 
.
a) Czy jest możliwe, że sterowanie optymalne 
 spełnia 
 prawie wszędzie na pewnym przedziale 
?
b) Co musi spełniać sterowanie optymalne, jeśli założymy, że 
 ma co najwyżej skończoną liczbie przełączeń pomiędzy wnętrzem a brzegiem 
?
Obliczyć oddzielnie równania dla 
 i 
 na odcinkach czasu, na których
a) optymalne sterowanie 
 i 
b) 
.
Jeśli 
, to sterowanie optymalne ma postać 
,
 i
.
Jeśli 
, to sterowanie optymalne ma postać 
 na odcinku 
 i 
 na odcinku 
 
dla 
. 
Optymalna trajektoria zmiennej stanu spełnia równanie 
 na odcinku 
 i 
 na odcinku 
, 
zaś zmiennej ko-stanu
 na odcinku 
 i 
 na odcinku 
.
Co jeśli w zadaniu 11.5 zbiór parametrów sterujących 
?
Maksymalizacja zysków z łowiska będącego podstawą egzystencji użytkownika z różnymi wypłatami końcowymi.
Analizujemy ponownie łowisko z zadania 11.5. Teraz zakładamy, że w chwili 
 właściciel może sprzedać łowisko i cena zależy od tego, jaki zasób ryb pozostał, albo że użytkownik będący dzierżawcą musi zapłacić karę za to, że jest ono w złym stanie.
Dane 
,
, 
, 
 i 
a) 
; 
b) 
.
znaleźć sterowanie i trajektorię spełniające warunki konieczne z zasady maksimum Pontriagina – twierdzenia 11.1.
W punkcie b) w rozwiązaniu równania na 
 dobrze byłoby stałą zacząć wyliczyć dopiero w ostatniej fazie, po wyliczeniu rozwiązania ogólnego dla 
, razem z liczeniem stałych dla 
.
W rozwiązaniu zadania 11.7b) pojawia się typowy w zagadnieniach wynikających ze stosowania zasady maksimum Pontriagina problem – rozwiązujemy układ równań na 
 i 
, przy czym na 
 mamy warunek początkowy, a na 
 końcowy, zależny od końcowej wartości 
, która z kolei zależy od 
. Tu udało się tę zależność łatwo rozwikłać (a nawet można jej nie zauważyć, jeśli najpierw znaleźliśmy rozwiązania ogólne dla obu zmiennych, a dopiero potem liczyliśmy stałe, aby zgadzały się warunki końcowo-początkowe).
Jak się należy spodziewać, może to powodować problemy, zwłaszcza kiedy nie widać rozwiązania analitycznego i trzeba liczyć numerycznie – trzeba używać zupełnie innych procedur niż dla rozwiązywania układów równań różniczkowych, w których mamy tylko warunki początkowe albo tylko końcowe.
Ponownie rozważamy zagadnienie Bolzy z ustalonym horyzontem czasowym 
 i swobodnym punktem końcowym – maksymalizujemy wypłatę (lub minimalizujemy koszt) dane funkcjonałem
 przy
 z warunkiem początkowym 
 
i ograniczeniu na sterowanie 
 dla każdego 
.
Najprostszy warunek konieczny na to, aby mierzalne sterowanie 
 wraz z absolutnie ciągłą odpowiedzią na nie 
 spełniające zasadę maksimum Pontriagina z absolutnie ciągłą zmienną dualną 
 było optymalne opisuje twierdzenie Mangasariana [32].
Niech funkcje 
, 
 i 
 będą wklęsłe (wypukłe) i różniczkowalne ze względu na parę zmiennych 
 na zbiorach określoności. Jeśli sterowanie 
 i odpowiedź na nie 
 spełniają warunki konieczne określone zasadą maksimum Pontragina i 
 dla każdego 
, to  
 jest sterowaniem maksymalizującym (minimalizującym) 
.
Jeśli natomiast 
 jest liniowa, to spośród powyższych warunków można usunąć dodatniość 
.
Dowód w przypadku, gdy maksimum hamiltonianu jest zawsze przyjmowane w punkcie wewnętrznym 
, jest zawarty w Chiang [16] s. 213-216.
Aby dowód był poprawny dla dowolnego punktu 
 z 
 należy zastąpić warunek konieczny maksymalizacji hamiltonianu
 warunkiem
, gdzie 
 dla 
, 
 dla 
 i 
 dla 
. Po kolejnych przekształceniach pojawią się tam czynniki 
, które zawsze są niedodatnie dla 
, więc można je będzie opuścić zachowując żądaną nierówność.
Zauważmy, że założenia powyższego twierdzenia gwarantują wypukłość (wklęsłość) hamiltonianu względem 
 - i tak naprawdę o nią nam chodzi, co ilustruje poniższe twierdzenie o podobnym schemacie dowodowym.
Niech funkcje 
, 
 i 
 będą różniczkowalne ze względu na parę zmiennych 
 na zbiorach określoności. Jeśli sterowanie 
 i odpowiedź na nie 
 spełniają warunki konieczne określone zasadą maksimum Pontragina i 
 jest funkcją wklęsłą (wypukłą) względem 
 i 
 jest funkcją wklęsłą (wypukłą) względem 
 dla prawie wszystkich 
, to  
 jest sterowaniem maksymalizującym (minimalizującym) 
.
Jeszcze silniejszym warunkiem dostatecznym jest twierdzenie Arrowa, zaproponowane bez dowodu w [5] (później częściowo udowodnione przez Arrowa i Kurza w [4]; pełen dowód, nawet w bardziej ogólnej wersji przeprowadzili Seierstad i Sydsaeter w [37]).
Używamy w nim pojęcia Hamiltonianu zmaksymalizowanego
.
Niech funkcje 
, 
 i 
 będą różniczkowalne ze względu na parę zmiennych 
 na zbiorach określoności. Jeśli sterowanie 
 i odpowiedź na nie 
 spełniają warunki konieczne określone zasadą maksimum Pontragina i 
 i 
 są funkcjami wklęsłymi (wypukłymi) względem 
 dla prawie wszystkich 
, to  
 jest sterowaniem maksymalizującym (minimalizującym) 
.
Najkrótsza droga łącząca zadany punkt początkowy w chwili 
 z pionową prostą w 
.
Sprawdzić dostateczność dla wcześniej wyliczonego rozwiązania ćwiczenia 11.1.
Sprawdzić dostateczność dla wcześniej wyliczonego rozwiązania ćwiczenia 11.2: liniowego zagadnienia maksymalizacji z 
, 
, ![]()
, 
, 
.
Sprawdzić dostateczność dla wcześniej wyliczonego rozwiązania ćwiczenia 11.3: maksymalizacji wypłaty z 
, 
, 
, 
, 
, 
.
Sprawdzić dostateczność dla wcześniej wyliczonego rozwiązania ćwiczenia 11.4 minimalizacji kosztu z 
, 
, 
, 
, 
, 
.
W problemach ekonomicznych przeważnie występuje czynnik dyskontujący. Jest to związane z tym, że ta sama złotówka otrzymana dziś i otrzymana za rok ma zupełnie inną wartość - choćby z tego powodu, że złotówkę otrzymaną dziś mogę włożyć na lokatę i za rok otrzymać więcej.
W modelach z czasem ciągłym czynnikiem dyskontującym jest 
 dla pewnego 
.
Liczba 
 to zazwyczaj tzw. stopa procentowa kapitalizacji ciągłej, jeśli liczymy jedynie obiektywną wartość pieniądza – 
 jest to wówczas kwota, jaką możemy otrzymać dziś pod zastaw 
zł w czasie 
.
Może to też być pewna inna stała dodatnia, jeśli chcemy odzwierciedlić nasze własne preferencje co do oczekiwania na pieniądz – wówczas 
 jest naszą prywatną miarą niecierpliwości.
Zagadnienie z dyskontowaniem ma postać 
 przy
 
z warunkiem początkowym 
 
i ograniczeniu na sterowanie 
 dla każdego 
.
Możemy zastosować zwykłą zasadę maksimum Pontriagina.
Hamiltonian ma teraz postać 
, 
a warunek transwersalności 
.
Nawet jeśli wyjściowe funkcje były niezależne od czasu, to teraz problem stał się nieautonomiczny – i to każde z równań, jak otrzymamy z zasady maksimum. A tak nie musi być.
Rozważyć zmienną dualną 
 i Hamiltonian wartości obecnej 
 zdefiniowany jako 
.
Zapisać zasadę maksimum Pontriagina przy użyciu nowych zmiennych i podziwiać odzyskaną autonomiczność (kiedy wyjściowe funkcje były niezależne od 
).
Równania na trajektorie stanu i kostanu oraz sterowanie dla problemu maksymalizacji (minimalizacji) będą miały w nowych zmiennych następującą postać:
 z warunkiem początkowym 
; 
z warunkiem końcowym
; 
 
(
).
W tym rozdziale sformułujemy warunki dostateczne na to, aby zadane sterowanie minimalizowało funkcjonał kosztu (lub maksymalizowało funkcjonał wypłaty) korzystające z oczywistego spostrzeżenia poczynionego przez Bellmana [10] – zasadę optymalności.
Polityka [strategia] optymalna ma tę własność, że jakikolwiek jest stan początkowy i początkowa decyzja, pozostałe decyzje muszą tworzyć politykę [strategię] optymalną ze względu na stan wynikły z pierwszej decyzji.
Metoda postępowania oparta na tej zasadzie, którą opiszemy w tym rozdziale została zaproponowana przez Bellmana [10] pod nazwą programowania dynamicznego.
Sformułujemy warunki dostateczne na to, żeby pewna funkcja zwracała nam wartość minimalną funkcjonału kosztu (bądź maksymalną funkcjonału wypłaty), a wyliczone sterowanie było sterowaniem optymalnym, dla zagadnienia Bolza ze swobodnym punktem końcowym (i ustalonym czasem końcowym).
Aby to zrobić, zaczniemy od pozornego utrudnienia – zamiast szukać jedynie rozwiązania zadanego problemu sterowania optymalnego, będziemy chcieli znaleźć rozwiązania dla całej klasy sterowań optymalnych, zawierających nasz wyjściowy problem.
Nie będą to zagadnienia sztuczne. Wyobraźmy sobie, że wybraliśmy sterowanie optymalne i stosujemy je. Upłynął pewien czas od początkowego 
 – mamy czas 
 i stan systemu zmienił się zgodnie z odpowiedzią na nasze sterowanie i teraz jest równy 
. W sposób naturalny możemy sformułować nowe zagadnienie sterowania optymalnego – startujące w chwili 
 ze stanu 
 z funkcjonałem kosztu/wypłaty 
. Zasada optymalności mówi, że wybrane przez nas sterowanie optymalne dla początkowego zagadnienia jest sterowaniem optymalnym dla nowego zagadnienia.
Dla tej klasy zagadnień będziemy szukać funkcji wartości – przypisującej parom 
 wartość minimalną funkcjonału kosztu (lub maksymalną funkcjonału wypłaty) dla nowego zagadnienia.
To pozorne utrudnienie bardzo nam jednak ułatwi znajdowanie optymalnego sterowania. Przy danej funkcji wartości sterowanie optymalne jest zdefiniowane przy pomocy rodziny statycznych zagadnień optymalizacji zależnych od funkcji wartości, określonych na zbiorze parametrów sterujących 
.
Wprowadzimy pomocnicze oznaczenie – funkcja
 (rozszerzająca pojęcie wyjściowej funkcji kosztu lub wypłaty 
) oznaczająca wartość funkcjonału kosztu lub wypłaty wzdłuż trajektorii będzie zdefiniowana jako 
, gdzie trajektoria 
 jest zdefiniowana równaniem różniczkowym 
 z warunkiem początkowym 
.
Dla ustalenia uwagi, sformułujemy problem w wersji dla minimalizacji funkcjonału kosztu.
Funkcję 
 nazywamy funkcją wartości (dla klasy zagadnień minimalizacji 
), jeśli
.
Przy użyciu tych oznaczeń możemy przeformułować zasadę optymalności jako:
jeśli 
 jest sterowaniem optymalnym dla 
 (czyli, równoważnie sterowaniem optymalnym dla 
) a 
 odpowiadającą mu trajektorią, to dla każdego 
 jest optymalną trajektorią dla minimalizacji 
.
Sformułujemy również warunek dostateczny.
Jeśli funkcja 
 klasy 
 spełnia równanie różniczkowe cząstkowe 
 (równanie Bellmana)
z warunkiem końcowym
, 
to
a) dla każdego sterowania 
, czasu 
 i stanu 
 
.
b) Jeśli ponadto istnieje funkcja 
, której odpowiada absolutnie ciągła trajektoria 
 taka, że 
, to 
 jest funkcją wartości i
 dla sterowania 
 spełniającego 
, czyli 
 jest sterowaniem optymalnym w pętli otwartej.
a) Niech 
 będzie daną absolutnie ciągłą odpowiedzią na sterowanie 
.
Wówczas funkcja 
 jest absolutnie ciągła na dowolnym przedziale 
, więc możemy ją zróżniczkować prawie wszędzie i
 dla prawie każdego 
.
Ponieważ nie mamy absolutnej ciągłości na całym przedziale 
, ograniczymy się do 
. Mamy wówczas
.
Jeśli teraz z otrzymaną nierównością przejdziemy do granicy przy 
 i 
, to otrzymamy
.
Ponieważ 
, otrzymujemy stąd żądaną nierówność.
b) Dla 
 i 
 powtarzamy dowód a) z tym, że zamiast nierówności będziemy mieć równość.
Funkcja 
 jest optymalnym sterowaniem w postaci rozszerzonej zamkniętej pętli (w niektórych podręcznikach tę postać również nazywamy zamkniętą pętlą) – w takiej postaci otrzymujemy optymalne sterowanie z równania Bellmana. Łatwo widać, że w ogólnym przypadku w skończonym horyzoncie czasowym nie da się go przedstawić jako ,,sprzężenie zwrotne” zależne jedynie od 
.
Można też udowodnić wersję twierdzenia 11.5 bez ustalonego czasu końcowego – patrz na przykład Cesari [15] s. 502-505 lub Başar, Olsder [9] s. 236-237.
Rozwiązać przy pomocy równania Bellmana (z twierdzenia 11.5) problem minimalizacji kosztów z 
, 
, 
 i 
, gdzie 
, 
.
Po wyliczeniu kandydata na 
 szukamy 
 w postaci 
.
W przypadku, kiedy rozważamy nieskończony horyzont czasowy a zagadnienie jest autonomiczne, funkcja wartości przestaje być zależna od czasu. Dlatego też dla nieskończonego horyzontu czasowego twierdzenie o warunku dostatecznym ma prostszą postać.
Jeśli funkcja 
 klasy 
 spełnia równanie różniczkowe ![]()
z warunkiem końcowym
 dla każdej trajektorii 
 osiągalnej z 
 to
a) dla każdego sterowania 
 i stanu 
.
b) Jeśli ponadto istnieje funkcja 
, której odpowiada absolutnie ciągła trajektoria 
, taka, że 
 z warunkiem końcowym 
, to 
 jest funkcją wartości, 
 jest optymalnym sterowaniem w postaci sprzężenia zwrotnego i 
 dla sterowania 
 spełniającego 
, czyli 
 jest sterowaniem optymalnym w pętli otwartej.
a) Wynika z zastosowania z twierdzenia 11.5 dla zagadnień optymalizacyjnych ze skończonym horyzontem czasowym 
 i funkcją 
 oraz faktu, że 
 jest niezależna bezpośrednio od czasu. Otrzymujemy
.
Bierzemy granicę dolną przy 
 i otrzymujemy żądaną nierówność.
b) Dla przypadku 
 mamy równość
, która zachowuje się przy przejściu do granicy.
Jeśli zbiór stanów jest jednowymiarowy, to zamiast równania cząstkowego w nieskończonym horyzoncie czasowym mamy równanie zwyczajne. Problemem jest jedynie warunek końcowy w nieskończoności – zwłaszcza dla obliczeń numerycznych.
Rozważyć problem minimalizacji kosztów z 
, 
 i 
, gdzie 
, 
.
Czy można skorzystać z z twierdzenia 11.6?
Rozważamy teraz zagadnienia minimalizacji funkcjonałów
 w skończonym horyzoncie czasowym i 
 w nieskończonym horyzoncie czasowym.
Jeżeli potrakujemy czynnik dyskontujący jako dodatkową współrzędną zmiennej stanu, możemy zastosować odpowiednie wersje twierdzeń 11.5 i 11.6. Jednakże tak otrzymane równanie jest trudne w interpretacji i zbyt złożone. Dlatego dla zagadnień z dyskontowaniem formułuje się inną postać równania Bellmana.
Dla zagadnień z dyskontowaniem ponownie definiujemy nasze pomocnicze oznaczenie – funkcja
 wzdłuż trajektorii będzie zdefiniowana jako 
 w skończonym horyzoncie czasowym i 
 w nieskończonym horyzoncie czasowym, 
dla trajektorii 
 zdefiniowanej równaniem różniczkowym 
 z warunkiem początkowym 
.
Interpretacja jest analogiczna jak w przypadku bez dyskontowania – do chwili 
 stosowaliśmy pewne sterowanie, które zaprowadziło nas do stanu 
. Teraz mamy nowy problem optymalizacyjny – chcemy zminimalizować zdyskontowany funkcjonał kosztu od tego momentu. Choć matematycznie różnica pomiędzy dyskontowaniem na chwilę 
, a na chwilę 
 to tylko przemnożenie przez stałą, jednak dla ekonomisty oczywiste jest, że dyskontujemy zawsze na chwilę podejmowania decyzji, czyli 
. Ponadto okaże się, że dla tak zdefiniowanej zdyskontowanej funkcji wartości otrzymamy proste równanie Bellmana i warunek końcowy.
Wypisać i udowodnić zasadę maksimum dla zagadnienia z dyskontowaniem, tak aby otrzymać równość 
 dla optymalnego sterowania 
.
a) przy skończonym horyzoncie czasowym ;
b) przy nieskończonym horyzoncie czasowym.
Można albo powtórzyć z niewielkimi zmianami schemat dowodowy dla zagadnienia bez dyskontowania, albo potraktować zagadnienie z dyskontowaniem jako zagadnienie autonomiczne z 
- wymiarową zmienną stanu, gdzie dodatkowa współrzędna to czynnik dyskontujący. Ponadto założyć, że wchodzi on do funkcji wartości multiplikatywnie.
Przy skończonym horyzoncie czasowym równania Bellmana ma postać![]()
z warunkiem końcowym
,
Przy nieskończonym horyzoncie czasowym równanie Bellmana ma postać![]()
z warunkiem końcowym
 dla każdej trajektorii 
 osiągalnej z 
.
Rozważmy nasze zagadnienie maksymalizacji zysku z łowiska, tyle że teraz z nieskończonym horyzontem czasowym i dyskontowaniem:
Dane 
,
, 
, przy 
, gdzie 
 – odpowiednio duże.
Można to zrobić na co najmniej dwa sposoby:
1. założyć pewną pewną postać funkcji wartości (tu 
), z równania Bellmana wyliczyć brakujące parametry, tak, aby było spełnione a na koniec sprawdzić, czy zachodzi warunek końcowy;
2. ograniczyć się do pewnej klasy sterowań (tu sterowania stałe w czasie), znaleźć optimum w tej klasie i sprawdzić, czy spełnia równanie Bellmana;
3. poza tym przy rozwiązywaniu zagadnień z nieskończonym horyzontem czasowym można uzyskać funkcję wartości jako granicę funkcji wartości dla zagadnień ze skończonym horyzontem czasowym (choć w tym konkretnym wypadku nie jest to ułatwienie).
W tym podrozdziale przedstawimy model optymalizacji konsumpcji w cyklu życia przez racjonalnego konsumenta, czasem nazywany zagadnieniem wyboru międzyokresowego.
Ten sam model możemy też zastosować do optymalizacji wydatków budżetowych w ciągu roku budżetowego. Zaproponowany tu model stanowi uciągloną wersję przypadku dyskretnego, który można znaleźć w wielu podręcznikach makroekonomii.
Pan Kowalski uważa, że uważa, że będzie żył jeszcze 
 czasu. Jego dochody w chwili 
 wyznacza zewnętrzna, deterministyczna funkcja 
.
Jego bieżąca funkcja wypłaty (nazywana w tym kontekście bieżącą funkcją użyteczności) to 
 ściśle rosnąca i ściśle wklęsła funkcja konsumpcji 
.
Konsumenci mogą korzystać z idealnego konta bankowego, o jednakowej dla kredytów i lokat stopie procentowej 
 kapitalizacji ciągłej. Tak więc pan Kowalski może bez ograniczeń lokować lub zadłużać się, z jednym ograniczeniem – że w chwili 
 jego stan konta musi być nieujemny, ponieważ bank, znający doskonale zagadnienie optymalizacyjne klienta, nie pożyczy mu nigdy kwoty, której nie mógłby odzyskać z jego późniejszych zarobków.
Pan Kowalski chce zmaksymalizować użyteczność konsumpcji w cyklu życia, czyli 
, gdzie 
 – jest miarą jego niecierpliwości. Bieżąca funkcja użyteczności 
 w notacji skryptu to funkcja wyłaty 
.
Stan konta w chwili 
, oznaczany przez 
 opisuje równanie różniczkowe:
 z warunkiem początkowym
. W notacji skryptu 
 to nasza zmienna stanu 
, prawa strona równania definiuje więc funkcję 
.
Parametrem sterującym jest wielkość konsumpcji 
 – w oznaczeniach skryptu jest to 
. Zbiór parametrów sterujących 
.
Cel 
 zapisujemy jako 
.
Pokazać, że pan Kowalski nic nie zamierza zabrać do grobu, czyli 
.
Można to pokazać to bez odwoływania się do zasady maksimum. Zasada maksimum w wersji zapisanej w twierdzeniu 11.1 w tym wypadku nie działa ze względu na ograniczenia na stan końcowy.
a) Pokazać, że niezależnie jaką mierzalną funkcją jest 
 i jakie jest 
, jedyną wielkością, przez którą mają one wpływ na optymalną konsumpcję jest bogactwo (,,wealth”) zdyskonotowane na moment 
, czyli liczba 
, która ponadto powinna wyjść równa 
.
b) Pokazać równocześnie, że zależność pomiędzy 
 a 
 jest zdefiniowana przy użyciu pochodnych 
, przy czym dla 
 otrzymujemy stałą konsumpcję w cyklu życia.
Aby obejść problem z nietypowym warunkiem końcowym można, korzystając z wyliczeń z ćwiczenia 11.21, potraktować to jako problem z ustalonym punktem końcowym – wówczas będzie zachodzić zasada maksimum bez warunku transwersalności na 
.
Problem z ograniczeniem na wartość końcową zmiennej stanu można rozwiązać metodami podanymi w tym skrypcie, rozważając dwa przypadki – optymalizację bez tego ograniczenia (wówczas korzystamy z zasady maksimum z warunkiem transwersalności) i optymalizację z ustalonym punktem końcowym równym zadanemu ograniczeniu.
Istnieje także wiele gotowych wersji zasady maksimum dla zagadnień z ograczeniami na zmienną stanu (nie tylko wartość końcową) – zainteresowani mogą je znaleźć na przykład w opracowaniach Chiang [16] lub Hartl, Sethi, Vickson [22].
Model Nordhausa, przykład podany za Chiang [16].
Do następnych wyborów zostało 
 czasu. Obecnie panujący rząd jest zainteresowany maksymalizacją szansy na wygranie następnych wyborów, a ta z kolei jest ściśle rosnącą funkcją zadowolenia społeczeństwa w chwili wyborów.
W tym uproszczonym modelu są tylko dwa parametry ekonomiczne związane ze sobą i wpływające na zadowolenie społeczeństwa pośrednio  lub bezpośrednio kontrolowane przez rząd. Są to inflacja 
 (będąca pod bezpośrednią kontrolą rządu emitującego pieniądz) i bezrobocie 
 powiązane z 
 zależnością (zwaną w ekonomii krzywą Philipsa i potwierdzaną przez wiele lat przez dane empiryczne). 
W ogólnym przypadku zależność opisana krzywą Philipsa ma postać 
, gdzie 
 to oczekiwana inflacja (nazywana też oczekiwaniami inflacyjnymi), 
, a 
.
Zakładamy ponadto tak zwane adaptacyjne oczekiwania,
czyli 
 – oczekiwania inflacyjne zmieniają się proporcjonalnie do pomyłki w szacowaniu przez nie rzeczywistej inflacji.
Bieżące zadowolenie społeczeństwa mierzy funkcja 
 o obu pochodnych cząstkowych ujemnych, przy czym przeważnie ludzie gorzej znoszą duże wartości inflacji niż bezrobocia – co można odzwierciedlić funkcją liniową względem 
 i kwadratową względem 
.
Podejmując decyzję wyborczą ludzie lepiej pamiętają to, co jest bliższe. To daje nietypowe ,,dyskontowanie” w funkcji maksymalizowanej:
.
Aby uprościć model, wyrugowujemy ze wzorów faktyczną inflację 
. Po przekształceniach otrzymujemy zagadnienie 
zmaksymalizować ![]()
przy 
 
z warunkiem początkowym 
.
W tak przedefiniowanym równaniu zmienną stanu będzie 
, a sterowaniem 
.
Aby uzyskać wyniki analityczne, Nordhaus analizował model liniowo-kwadratowy (liniowa dynamika, kwadratowa wklęsła funkcja wypłaty bieżącej). Potraktujemy jego model jako ćwiczenie.
Znaleźć optymalne sterowanie (poziom bezrobocia 
) i trajektorię oczekiwanej inflacji 
 dla modelu politycznego cyklu koniunkturalnego z 
 dla stałej 
 i 
 dla 
.
Następnie obliczyć, jak zachowuje się faktyczna inflacja 
.
Interpretacja ekonomiczna wyników ćwiczenia 11.23 i implikacje tychże w rzeczywistości.
Optymalne 
 jest malejącą funkcją czasu, a inflacja i oczekiwania rosnącą.
Ten pierwszy fakt oznacza, że dla rządu kierującego się maksymalizacją funkcji wypłaty jak określona w ćwiczeniu 11.23 optymalne jest tuż po wyborach ustanowienie wysokiego poziomu bezrobocia, żeby było z czego schodzić. ,,Ustanowienie wysokiego poziomu bezrobocia” wynika z tego, że tylko po wyborach można pozwolić sobie na duszenie inflacji (podobnie jak i inne mało popularne, acz niezbędne reformy).
Tak naprawdę to przypominamy sobie, że bezrobocia rząd nie ustawia – jest ono skutkiem takiej a nie innej polityki monetarnej – czyli obniżenie bezrobocia jest skutkiem zwiększania inflacji. Jeśli pomyślimy o tym, że ten sam problem optymalizacji będzie miał miejsce po wyborach, to jasne jest, że potem ponosimy dodatkowe koszty – bo same oczekiwania inflacyjne zwiększają inflację, a duszenie inflacji powoduje wzrost bezrobocia…
A zatem potem mamy następne wybory i kolejny rząd ma wysokie 
 na starcie i to samo zagadnienie optymalizacyjne.
Warto dodać jeszcze ciekawostkę: krzywą Philipsa i polityczny cykl koniunkturalny potwierdzały dane empiryczne. Do czasu – ponieważ ludzie się uczą. Oczekiwania adaptacyjne z czasem zamieniły się na racjonalne (wiemy, jak działa rząd, więc jesteśmy w stanie wyliczyć faktyczną inflację będącą skutkiem jego działań), a dodruk pustych pieniędzy przestał wpływać na realny rynek, powodując jedynie inflację, bez wpływu na zmniejszenie bezrobocia.
Niestety, proceder nakręcania inflacji przed wyborami, o ile nie ma ograniczeń prawnych, często nadal ma miejsce.
Przykład podany za Chiang [16].
Koszt wydobycia ilości 
 surowca (ropy naftowej, węgla, etc.) opisuje funkcja 
 rosnąca (zazwyczaj ściśle), wypukła (zazwyczaj ściśle) i nieujemna. Jeśli na rynku jest 
 surowca, wówczas ustala się nieujemna cena 
 za jednostkę, przy czym funkcja 
, nazywana przez ekonomistów odwrotną funkcją popytu, jest malejąca (zazwyczaj ściśle na zbiorze tych 
 dla których jest niezerowa), gdyż ludzie są skłonni zapłacić więcej za towar deficytowy.
Monopolista – posiadacz złoża chce zmaksymalizować łączne zdyskontowane zyski, czyli
, przy czym końcowy czas 
 może być skończony lub równy 
.
Zazwyczaj 
, gdzie 
 to rynkowa stopa procentowa, przy oczywistym równaniu stanu 
 dla 
 i 
 dla 
.
Równie oczywiste jest ograniczenie ,,z próżnego i Salomon nie naleje”, czyli jeśli 
, to jedynym dostępnym sterowaniem jest 
.
Model opisuje też dowolną sytuację wyprzedaży zapasów.
Rozwiązać problem wydobycia surowców nieodnawialnych przy 
 dla pewnych stałych 
 i 
 stałym dla przypadku
a) bez dyskontowania (
);
b) z dyskontowaniem (
).
Zagadnienie sterowania optymalnego tylko pozornie jest z ustalonym czasem końcowym i wolnym stanem końcowym – w chwili osiągnięcia 
 kończy się jakikolwiek wybór.
Mamy więc albo zagadnienie z wolnym czasem końcowym 
 i ustalonym stanem końcowym 
 (a więc możemy zastosować zasadę maksimum bez warunku transwersalności, z pewnym parametrem 
), albo zagadnienie z ustalonym czasem końcowym i swobodnym stanem końcowym 
. Po porównaniu wypłat otrzymamy sterowanie optymalne.
W każdym z przypadków 
.
a) Sterowanie optymalne jest stałe.
b) Sterowanie optymalne maleje w czasie.
Jak się zmieni rozwiązanie problemu znalezienia sterowania optymalnego dla wydobycia surowców nieodnawialnych przy 
 dla pewnych stałych 
, jeśli 
 dla 
, 
 dowolnych?
Rozważyć problem wydobycia surowców nieodnawialnych ze skończonym horyzontem czasowym 
 w najbardziej ogólnej postaci w przypadkach z dyskontowaniem i bez.
Wypisać warunek jaki musi spełniać iloraz pochodnych bieżącej funkcji wypłaty dla sterowania optymalnego w dwóch różnych momentach czasu 
 i 
.
Co on implikuje, jeśli bieżąca funkcja wypłaty jest ściśle wklęsła?
W pojęciu eksploatacja surowców odnawialnych mieści się cała klasa zagadnień tzw. ekonomii ekologicznej, w której przedmiotem eksploatacji jest ekosystem lub jego część. Są to zagadnienia od jednowymiarowych do bardzo złożonych.
Najprostsze modele eksploatacji, w których mamy jedną zmienną stanu, jak na przykład populacja śledzia bałtyckiego albo powierzchnia lasu ignorują wielowymiarowy charakter zależności opisujących stan ekosystemu. Bardziej złożone biorą pod uwagę zależności pomiędzy gatunkami (na przykład interakcje drapieżnik-ofiara), a nawet strukturę wiekową populacji w ramach gatunku.
Zmienna stanu opisuje stan ecosystemu – jest to na przykład wektor, którego współrzędnymi są liczności osobników każdego z gatunków. Parametrem sterującym może być wielkość eksploatacji, albo np. nakłady na eksploatację.
Tym razem równanie stanu ma postać 
, przy czym przeważnie zakładamy, że jeśli 
, to 
 (jeśli gatunek wyginął, to nie da się go odtworzyć). Ponadto eksploatacja zazwyczaj nie może być ujemna.
Właściciel łowiska maksymalizuje łączną zdyskontowaną użyteczność eksploatacji 
a) 
 albo
b) 
 (kiedy postanowię przejść na emeryturę, prawa do łowiska mogę sprzedać).
Funkcja 
 może też mieć postać jak funkcja wypłaty bieżącej w modelu Hotellinga (podrozdział 11.5.3) przy czym koszt dodatkowo może zależeć od stanu systemu – 
 – i być względem niego malejący (wyłowienie tony śledzia kosztuje dużo, jeśli śledzie prawie wyginęły, natomiast jest tańsze, gdy jest ich pełno).
Rozwiązać problem wydobycia surowców odnawialnych będący modyfikacją modelu Hotellinga z ćwiczenia 11.24 (
 dla pewnych stałych 
, stałym 
, skończonym horyzontem czasowym 
 i 
) przy dynamice stanu systemu 
 i ograniczeniu na zmienną stanu 
 dla każdego 
.
Rozważyć dwa przypadki
a) bez dyskontowania (
);
b) z dyskontowaniem (
).
Przykładem zagadnienia wielowymiarowego jest sytuacja, gdy mamy dwa gatunki, a pomiędzy nimi trzy możliwe relacje: symbioza, konkurencja o wspólne źródło pokarmu i drapieżnik-ofiara.
Mamy dwa gatunki ryb, pomiędzy którymi zachodzą różne interakcje opisane układem równań 
 
o ile 
.
 to ilość osobników 
-tego gatunku, a 
 połowy tegoż gatunku.
Rozważamy skończony horyzont czasowy 
.
Dla uproszczenia zbiór parametrów sterujących ma postać 
, gdzie 
 jest takie, że odpowiedź na każde sterowanie mierzalne spełnia 
 dla każdego 
.
Liczba 
, natomiast znaki 
 i 
 zależą od rodzaju relacji pomiędzy gatunkami: symbioza to 
, konkurencja o wspólne źródło pokarmu to 
, a drapieżnik-ofiara 
. Dla ułatwienia rachunków niech 
.
Funkcja wypłaty bieżącej to 
, a końcowej 
.
Znaleźć optymalne sterowanie i trajektorię.
Porównać optymalną trajektorię z odpowiedzią na 
 (,,naturalną trajektorię systemu”).
Treść automatycznie generowana z plików źródłowych LaTeXa za pomocą oprogramowania wykorzystującego LaTeXML.
strona główna | webmaster | o portalu | pomoc
© Wydział Matematyki, Informatyki i
      Mechaniki UW, 2009-2010. 
 Niniejsze materiały są udostępnione bezpłatnie na licencji Creative Commons Uznanie autorstwa-Użycie niekomercyjne-Bez utworów zależnych 3.0 Polska.
Projekt współfinansowany przez Unię Europejską w ramach
Europejskiego Funduszu Społecznego.
Projekt współfinansowany przez Ministerstwo Nauki i Szkolnictwa Wyższego i przez Uniwersytet Warszawski.