Zagadnienia

11.1 Zasada maksimum Pontriagina dla ustalonego czasu końcowego
11.2 Dostateczność dla zasady maksimum Pontriagina
11.3 Dyskontowanie
11.4 Funkcja wartości i równanie Bellmana
- 11.4.1 Nieskończony horyzont czasowy
- 11.4.2 Funkcja wartości i równanie Bellmana dla zagadnień z dyskontowaniem
11.5 Teoria sterowania – problemy ekonomiczne

11. Optymalne sterowanie w przypadku ustalonego czasu końcowego. Warunki konieczne i dostateczne oraz zastosowania ekonomiczne

Agnieszka Wiszniewska-Matyszkiel

W tym rozdziale opisujemy dokładniej różne zagadnienia związane ze sterowaniem optymalnym.

Najpierw prezentujemy różne wersje zasady maksimum Pontragina i twierdzenia o warunkach dostatecznych dla sterowań spełniających zasadę maksimum, następnie wprowadzamy równanie Bellmana zawierające warunki dostateczne optymalności sterowania w postaci pętli zamkniętej.

Ze względu na to, że w zagadnieniach ekonomicznych związanych z poszukiwaniem sterowania optymalnego prawie zawsze występuje dyskontowanie, przedstawiamy modyfikacje obu metod obliczeniowych w przypadku dyskontowania.

Na końcu prezentujemy przykłady ekonomiczne zastosowania zagadnień optymalnego sterowania.

11.1. Zasada maksimum Pontriagina dla ustalonego czasu końcowego

W problemach ekonomicznych często rozważamy zagadnienie Bolzy z ustalonym horyzontem czasowym $t_{1}$ i swobodnym stanem końcowym – maksymalizujemy wypłatę lub minimalizujemy koszt dany funkcjonałem
$\mathfrak{C}(u)=\int _{{0}}^{{t_{1}}}\mathfrak{f}^{0}(t,x(t),u(t))dt+\mathfrak{g}(t,x(t))$ przy
$\dot{x}(t)=f(t,x(t),u(t))$ z warunkiem początkowym $x(0)=x_{0}$ i ograniczeniu na sterowanie $u(t)\in\Omega$ dla każdego $t$ .

Zdefiniujemy Hamiltonian jako
$H(t,\lambda,x,u)=\mathfrak{f}^{0}(t,x(t),u(t))+\langle\lambda,f(t,x,u)\rangle$ .

Ponieważ wielkrotnie będzie pojawiać się określenie ,,zbiór punktów realizujących minimum/maximum funkcji na zbiorze”, wprowadzimy skrótowe oznaczenie. Dla pewnej funkcji $f$ o wartościach rzeczywistych i zbioru $\Gamma$ zawartego w jej dziedzinie symbol
$\mathop{\rm{Argmin}}_{{x\in\Gamma}}f(x)$ oznacza zbiór punktów dla których przyjmowane jest minimum funkcji $f$ na zbiorze $\Gamma$ , natomiast symbol
$\mathop{\rm{Argmax}}_{{x\in\Gamma}}f(x)$ oznacza zbiór punktów dla których przyjmowane jest maksimum funkcji $f$ na zbiorze $\Gamma$ .

Zasada maksimum Pontriagina ma w tym wypadku następującą postać:

Twierdzenie 11.1 (Zasada maksimum dla zagadnienia Bolzy z ustalonym czasem końcowym)

Niech funkcje $\mathfrak{f}^{0}$ , $\mathfrak{g}$ i $f$ oraz ich pochodne po $x$ będą ciągłe na zbiorach określoności.

Jeśli $u_{*}$ jest sterowaniem maksymalizującym (minimalizującym) $\mathfrak{C}[u]$ a $x_{*}$ odpowiedzią na nie, to istnieje absolutnie ciągła funkcja $\lambda:[0,t_{1}]\rightarrow\mathbb{R}$ , taka że w każdym punkcie $t$ , w którym istnieje lewostronna pochodna $x_{*}(t)$ i jest równa $f(t,x_{*}(t),u_{*}(t))$ zachodzi:
$\dot{x_{*}}(t)=\frac{\partial H(t,\lambda,x_{*}(t),u_{*}(t))}{\partial\lambda}$ z warunkiem początkowym $x_{*}(0)=x_{0}$ ;
$\dot{\lambda}(t)=-\frac{\partial H(t,\lambda,x_{*}(t),u_{*}(t))}{\partial x}$ z warunkiem końcowym $\lambda(t_{1})=\frac{\partial\mathfrak{g}(t,x_{*}(t_{1}))}{\partial x}$ ;
$u_{*}(t)\in\mathop{\rm{Argmax}}_{{u\in\Omega}}H(t,\lambda,x_{*}(t),u)$
( $u_{*}(t)\in\mathop{\rm{Argmin}}_{{u\in\Omega}}H(t,\lambda,x_{*}(t),u)$ ).

Dowód zasady maksimum Pontriagina w tej wersji można znaleźć np. w Zabczyk [41].

Uwaga 11.1

$\lambda=-\frac{w}{w_{0}}$ w notacji rozdziału 7 (??) wykładu – można tak zrobić, bo dla naszego zagadnienia $w_{0}<0$ . Dlatego też maksymalizacja zamienia się na minimalizację.

Ćwiczenie 11.1

Sformułować problem znalezienia najkrótszej krzywej w przestrzeni $(t,x)$ łączącej zadany punkt początkowy $x_{0}$ i czas $0$ z pionową prostą w $t_{1}$ jako problem optymalnego sterowania i rozwiązać go za pomocą zasady maksimum, czyli znaleźć sterowanie i trajektorię spełniające warunki konieczne z zasady maksimum Pontriagina – twierdzenia 11.1.

Wskazówka:

Jeśli za $x^{{\prime}}$ we wzorze na długość krzywej podstawimy $u$ , to otrzymamy zagadnienie optymalnego sterowania z $\mathfrak{f}^{0}(t,x,u)=\sqrt{1+u^{2}}$ , $\mathfrak{g}\equiv 0$ , $f(t,x,u)=u$ i nieograniczonym zbiorze parametrów sterująych $\Omega=\mathbb{R}$ .

Ćwiczenie 11.2

Rozważyć liniowe zagadnienie maksymalizacji wypłaty z $x(0)=4$ , $\Omega=[0,2]$ , $t_{1}=2$ , $\mathfrak{f}^{0}(t,x,u)=2x-3u$ , $f(t,x,u)=x+u$ , $\mathfrak{g}\equiv 0$ .

Znaleźć sterowanie i trajektorię spełniające warunki konieczne z zasady maksimum Pontriagina – twierdzenia 11.1.

Ćwiczenie 11.3

Rozważyć zagadnienie maksymalizacji wypłaty z $x(0)=1$ , $\Omega=\mathbb{R}$ , $t_{1}=1$ , $\mathfrak{f}^{0}(t,x,u)=x-u^{2}$ , $f(t,x,u)=-u$ , $\mathfrak{g}\equiv 0$ .

Znaleźć sterowanie i trajektorię spełniające warunki konieczne z zasady maksimum Pontriagina – twierdzenia 11.1.

Ćwiczenie 11.4

Rozważyć zagadnienie minimalizacji kosztu z $x(0)=1$ , $\Omega=\mathbb{R}$ , $t_{1}=1$ , $\mathfrak{f}^{0}(t,x,u)=x^{2}+u^{2}$ , $f(t,x,u)=x-u$ , $\mathfrak{g}\equiv x$ .

Znaleźć sterowanie i trajektorię spełniające warunki konieczne z zasady maksimum Pontriagina – twierdzenia 11.1.

Ćwiczenie 11.5

Maksymalizacja zysków z łowiska.

Model łowiska będącego podstawą egzystencji właściciela – naszym celem jest zmaksymalizować wypłatę.

Dane stan początkowy $x(0)=x_{0}>0$ , wypłata bieżąca $\mathfrak{f}^{0}(t,x,u)=\mathop{\rm{ln}}(ux)$ , wypłata końcowa $\mathfrak{g}\equiv 0$ , zmianę stanu populacji ryb określa funkcja $f(t,x,u)=(r-u)\cdot x$ , a zbiór parametrów sterujących to $\Omega=(0,M]$ .

a) Czy jest możliwe, że sterowanie optymalne $u_{*}$ spełnia $u(t)<M$ prawie wszędzie na pewnym przedziale $[\bar{t},t_{1})$ ?

b) Co musi spełniać sterowanie optymalne, jeśli założymy, że $u_{*}$ ma co najwyżej skończoną liczbie przełączeń pomiędzy wnętrzem a brzegiem $\Omega$ ?

Wskazówka:

Obliczyć oddzielnie równania dla $\lambda$ i $x$ na odcinkach czasu, na których
a) optymalne sterowanie $u_{*}(t)=M$ i
b) $u_{*}(t)<M$ .

Rozwiązanie:

Jeśli $t_{1}\leq\frac{1}{M}$ , to sterowanie optymalne ma postać $u_{*}(t)\equiv M$ ,
$x(t)=x_{0}\cdot e^{{(r-M)\cdot t}}$ i
$\lambda(t)=\frac{1}{x_{0}}\cdot(t_{1}-t)\cdot e^{{-(r-M)\cdot t}}$ .

Jeśli $t_{1}>\frac{1}{M}$ , to sterowanie optymalne ma postać
$u_{*}(t)=\frac{1}{\lambda(t)\cdot x_{*}(t)}=\frac{1}{t_{1}-t}$ na odcinku $(0,\bar{t})$ i
$u_{*}(t)\equiv M$ na odcinku $(\bar{t},t_{1})$
dla $\bar{t}=t_{1}-\frac{1}{M}$ .

Optymalna trajektoria zmiennej stanu spełnia równanie
$x_{*}(t)=\frac{x_{0}}{t_{1}}\cdot(t_{1}-t)\cdot e^{{r\cdot t}}$ na odcinku $(0,\bar{t})$ i
$x_{*}(t)=\frac{x_{0}}{M\cdot t_{1}}\cdot e^{{M\cdot t_{1}-1}}\cdot e^{{(r-M)\cdot t}}$ na odcinku $(\bar{t},t_{1})$ ,
zaś zmiennej ko-stanu
$\lambda(t)=\frac{t_{1}}{x_{0}}\cdot e^{{-r\cdot t}}$ na odcinku $(0,\bar{t})$ i
$\lambda(t)=\frac{M\cdot t_{1}}{x_{0}}\cdot e^{{-M\cdot t_{1}+1}}\cdot(t_{1}-t)\cdot e^{{-(r-M)\cdot t}}$ na odcinku $(\bar{t},t_{1})$ .

Ćwiczenie 11.6

Co jeśli w zadaniu 11.5 zbiór parametrów sterujących $\Omega=(0,+\infty)$ ?

Ćwiczenie 11.7

Maksymalizacja zysków z łowiska będącego podstawą egzystencji użytkownika z różnymi wypłatami końcowymi.

Analizujemy ponownie łowisko z zadania 11.5. Teraz zakładamy, że w chwili $t_{1}$ właściciel może sprzedać łowisko i cena zależy od tego, jaki zasób ryb pozostał, albo że użytkownik będący dzierżawcą musi zapłacić karę za to, że jest ono w złym stanie.

Dane $x(0)>0$ , $\mathfrak{f}^{0}(t,x,u)=\mathop{\rm{ln}}(ux)$ , $f(t,x,u)=(r-u)\cdot x$ , $\Omega=(0,+\infty)$ i
a) $\mathfrak{g}(x)=x$ ;
b) $\mathfrak{g}(x)=\mathop{\rm{ln}}x$ .

znaleźć sterowanie i trajektorię spełniające warunki konieczne z zasady maksimum Pontriagina – twierdzenia 11.1.

Wskazówka:

W punkcie b) w rozwiązaniu równania na $\lambda$ dobrze byłoby stałą zacząć wyliczyć dopiero w ostatniej fazie, po wyliczeniu rozwiązania ogólnego dla $x$ , razem z liczeniem stałych dla $x$ .

Uwaga 11.2

W rozwiązaniu zadania 11.7b) pojawia się typowy w zagadnieniach wynikających ze stosowania zasady maksimum Pontriagina problem – rozwiązujemy układ równań na $\lambda$ i $x$ , przy czym na $x$ mamy warunek początkowy, a na $\lambda$ końcowy, zależny od końcowej wartości $x$ , która z kolei zależy od $\lambda$ . Tu udało się tę zależność łatwo rozwikłać (a nawet można jej nie zauważyć, jeśli najpierw znaleźliśmy rozwiązania ogólne dla obu zmiennych, a dopiero potem liczyliśmy stałe, aby zgadzały się warunki końcowo-początkowe).

Jak się należy spodziewać, może to powodować problemy, zwłaszcza kiedy nie widać rozwiązania analitycznego i trzeba liczyć numerycznie – trzeba używać zupełnie innych procedur niż dla rozwiązywania układów równań różniczkowych, w których mamy tylko warunki początkowe albo tylko końcowe.

11.2. Dostateczność dla zasady maksimum Pontriagina

Ponownie rozważamy zagadnienie Bolzy z ustalonym horyzontem czasowym $t_{1}$ i swobodnym punktem końcowym – maksymalizujemy wypłatę (lub minimalizujemy koszt) dane funkcjonałem
$\mathfrak{C}[u]=\int _{{0}}^{{t_{1}}}\mathfrak{f}^{0}(t,x(t),u(t))dt+\mathfrak{g}(t,x(t))$ przy
$\dot{x}(t)=f(t,x(t),u(t))$ z warunkiem początkowym $x(0)=x_{0}$
i ograniczeniu na sterowanie $u(t)\in\Omega$ dla każdego $t$ .

Najprostszy warunek konieczny na to, aby mierzalne sterowanie $\bar{u}$ wraz z absolutnie ciągłą odpowiedzią na nie $\bar{x}$ spełniające zasadę maksimum Pontriagina z absolutnie ciągłą zmienną dualną $\lambda$ było optymalne opisuje twierdzenie Mangasariana [32].

Twierdzenie 11.2

Niech funkcje $\mathfrak{f}^{0}$ , $\mathfrak{g}$ i $f$ będą wklęsłe (wypukłe) i różniczkowalne ze względu na parę zmiennych $(x,u)$ na zbiorach określoności. Jeśli sterowanie $\bar{u}$ i odpowiedź na nie $\bar{x}$ spełniają warunki konieczne określone zasadą maksimum Pontragina i $\lambda(t)\geq 0$ dla każdego $t$ , to $\bar{u}$ jest sterowaniem maksymalizującym (minimalizującym) $\mathfrak{C}[u]$ .

Jeśli natomiast $f$ jest liniowa, to spośród powyższych warunków można usunąć dodatniość $\lambda$ .

Dowód

Dowód w przypadku, gdy maksimum hamiltonianu jest zawsze przyjmowane w punkcie wewnętrznym $\Omega$ , jest zawarty w Chiang [16] s. 213-216.

Aby dowód był poprawny dla dowolnego punktu $u$ z $\Omega$ należy zastąpić warunek konieczny maksymalizacji hamiltonianu $\frac{\partial H}{\partial u^{i}}=0$ warunkiem $\frac{\partial H}{\partial u^{i}}=\mu^{i}$ , gdzie $\mu^{i}=0$ dla $u_{*}^{i}\in(-1,1)$ , $\mu^{i}>0$ dla $u_{*}^{i}=1$ i $\mu^{i}<0$ dla $u_{*}^{i}=-1$ . Po kolejnych przekształceniach pojawią się tam czynniki $\mu^{i}\cdot(u^{i}-u_{*}^{i})$ , które zawsze są niedodatnie dla $u\in\Omega$ , więc można je będzie opuścić zachowując żądaną nierówność.

∎

Zauważmy, że założenia powyższego twierdzenia gwarantują wypukłość (wklęsłość) hamiltonianu względem $(x,u)$ - i tak naprawdę o nią nam chodzi, co ilustruje poniższe twierdzenie o podobnym schemacie dowodowym.

Twierdzenie 11.3

Niech funkcje $\mathfrak{f}^{0}$ , $\mathfrak{g}$ i $f$ będą różniczkowalne ze względu na parę zmiennych $(x,u)$ na zbiorach określoności. Jeśli sterowanie $\bar{u}$ i odpowiedź na nie $\bar{x}$ spełniają warunki konieczne określone zasadą maksimum Pontragina i $H(t,\lambda(t),x,u)$ jest funkcją wklęsłą (wypukłą) względem $(x,u)$ i $\mathfrak{g}$ jest funkcją wklęsłą (wypukłą) względem $x$ dla prawie wszystkich $t$ , to $\bar{u}$ jest sterowaniem maksymalizującym (minimalizującym) $\mathfrak{C}[u]$ .

Jeszcze silniejszym warunkiem dostatecznym jest twierdzenie Arrowa, zaproponowane bez dowodu w [5] (później częściowo udowodnione przez Arrowa i Kurza w [4]; pełen dowód, nawet w bardziej ogólnej wersji przeprowadzili Seierstad i Sydsaeter w [37]).

Używamy w nim pojęcia Hamiltonianu zmaksymalizowanego $H^{*}(t,\lambda,x)=max_{{u\in\Omega}}H(t,x,\lambda,u)$ .

Twierdzenie 11.4

Niech funkcje $\mathfrak{f}^{0}$ , $\mathfrak{g}$ i $f$ będą różniczkowalne ze względu na parę zmiennych $(x,u)$ na zbiorach określoności. Jeśli sterowanie $\bar{u}$ i odpowiedź na nie $\bar{x}$ spełniają warunki konieczne określone zasadą maksimum Pontragina i $H^{*}(t,\lambda(t),x)$ i $\mathfrak{g}$ są funkcjami wklęsłymi (wypukłymi) względem $x$ dla prawie wszystkich $t$ , to $\bar{u}$ jest sterowaniem maksymalizującym (minimalizującym) $\mathfrak{C}[u]$ .

Ćwiczenie 11.8

Najkrótsza droga łącząca zadany punkt początkowy w chwili $0$ z pionową prostą w $t_{1}$ .

Sprawdzić dostateczność dla wcześniej wyliczonego rozwiązania ćwiczenia 11.1.

Ćwiczenie 11.9

Sprawdzić dostateczność dla wcześniej wyliczonego rozwiązania ćwiczenia 11.2: liniowego zagadnienia maksymalizacji z $x(0)=4$ , $\Omega=[0,2]$ , $t_{1}=2$

$\mathfrak{f}^{0}(t,x,u)=2x-3u$ , $f(t,x,u)=x+u$ , $\mathfrak{g}\equiv 0$ .

Ćwiczenie 11.10

Sprawdzić dostateczność dla wcześniej wyliczonego rozwiązania ćwiczenia 11.3: maksymalizacji wypłaty z $x(0)=1$ , $\Omega=\mathbb{R}$ , $t_{1}=1$ , $\mathfrak{f}^{0}(t,x,u)=x-u^{2}$ , $f(t,x,u)=-u$ , $\mathfrak{g}\equiv 0$ .

Ćwiczenie 11.11

Sprawdzić dostateczność dla wcześniej wyliczonego rozwiązania ćwiczenia 11.4 minimalizacji kosztu z $x(0)=1$ , $\Omega=\mathbb{R}$ , $t_{1}=1$ , $\mathfrak{f}^{0}(t,x,u)=x^{2}+u^{2}$ , $f(t,x,u)=x-u$ , $\mathfrak{g}\equiv x$ .

Ćwiczenie 11.12

Maksymalizacja zysków z łowiska w różnych wersjach.

Dane $x(0)>0$ , $\mathfrak{f}^{0}(t,x,u)=\mathop{\rm{ln}}(ux)$ , $f(t,x,u)=(1+r-u)\cdot x$ , a) $\Omega=(0,M]$ i $\mathfrak{g}\equiv 0$ ;
b) $\Omega=(0,+\infty)$ i $\mathfrak{g}(x)=x$
c) $\Omega=(0,+\infty)$ i $\mathfrak{g}(x)=\mathop{\rm{ln}}x$ .

Czy wyliczone w ćwiczeniach 11.5 i 11.7 sterowania spełniające warunki konieczne są optymalne?

11.3. Dyskontowanie

W problemach ekonomicznych przeważnie występuje czynnik dyskontujący. Jest to związane z tym, że ta sama złotówka otrzymana dziś i otrzymana za rok ma zupełnie inną wartość - choćby z tego powodu, że złotówkę otrzymaną dziś mogę włożyć na lokatę i za rok otrzymać więcej.

W modelach z czasem ciągłym czynnikiem dyskontującym jest $e^{{-\zeta\cdot t}}$ dla pewnego $\zeta>0$ .

Liczba $\zeta$ to zazwyczaj tzw. stopa procentowa kapitalizacji ciągłej, jeśli liczymy jedynie obiektywną wartość pieniądza – $e^{{-\zeta\cdot t}}$ jest to wówczas kwota, jaką możemy otrzymać dziś pod zastaw $1$ zł w czasie $1$ . Może to też być pewna inna stała dodatnia, jeśli chcemy odzwierciedlić nasze własne preferencje co do oczekiwania na pieniądz – wówczas $\zeta$ jest naszą prywatną miarą niecierpliwości.

Zagadnienie z dyskontowaniem ma postać
$\mathfrak{C}(u)=\int _{{0}}^{{t_{1}}}\mathfrak{f}^{0}(t,x(t),u(t))\cdot e^{{-\zeta\cdot t}}dt+\mathfrak{g}(t_{1},x(t_{1}))\cdot e^{{-\zeta\cdot t_{1}}}$ przy
$\dot{x}(t)=f(t,x(t),u(t))$
z warunkiem początkowym $x(0)=x_{0}$
i ograniczeniu na sterowanie $u(t)\in\Omega$ dla każdego $t$ .

Możemy zastosować zwykłą zasadę maksimum Pontriagina.

Hamiltonian ma teraz postać
$H(t,\lambda,x,u)=\mathfrak{f}^{0}(t,x(t),u(t))\cdot e^{{-\zeta\cdot t}}+\langle\lambda,f(t,x,u)\rangle$ ,
a warunek transwersalności $\lambda(T)=\mathfrak{g}_{x}(T,x(T))\cdot e^{{-\zeta\cdot T}}$ .

Nawet jeśli wyjściowe funkcje były niezależne od czasu, to teraz problem stał się nieautonomiczny – i to każde z równań, jak otrzymamy z zasady maksimum. A tak nie musi być.

Wskazówka:

Rozważyć zmienną dualną $\mu(t)=\lambda\cdot e^{{\zeta\cdot t}}$ i Hamiltonian wartości obecnej $H^{C}$ zdefiniowany jako $H^{C}(t,\mu,x,u)=\frac{H(t,\lambda,x,u)}{e^{{-\zeta\cdot T}}}$ .

Ćwiczenie 11.13

Zapisać zasadę maksimum Pontriagina przy użyciu nowych zmiennych i podziwiać odzyskaną autonomiczność (kiedy wyjściowe funkcje były niezależne od $t$ ).

Rozwiązanie:

Równania na trajektorie stanu i kostanu oraz sterowanie dla problemu maksymalizacji (minimalizacji) będą miały w nowych zmiennych następującą postać:

$\dot{x_{*}}(t)=\frac{\partial H^{C}(t,\mu,x_{*}(t),u_{*}(t))}{\partial\mu}$ z warunkiem początkowym $x_{*}(0)=x_{0}$ ;
$\dot{\mu}(t)=-\frac{\partial H^{C}(t,\mu,x_{*}(t),u_{*}(t))}{\partial x}+\mu\cdot\zeta$ z warunkiem końcowym $\mu(t_{1})=\frac{\partial\mathfrak{g}(t,x_{*}(t_{1}))}{\partial x}$ ;
$u_{*}(t)\in\mathop{\rm{Argmax}}_{{u\in\Omega}}H^{C}(t,\mu,x_{*}(t),u)$
( $u_{*}(t)\in\mathop{\rm{Argmin}}_{{u\in\Omega}}H^{C}(t,\mu,x_{*}(t),u)$ ).

Ćwiczenie 11.14

Do zadań 11.1, 11.2, 11.3 i 11.4 dorzućmy teraz czynnik dyskontowy $e^{{-\zeta t}}$ i wyprowadźmy nowe warunki konieczne i dostateczne ze skorygowanej zasady maksimum wyliczonej w ćwiczeniu 11.13.

Ćwiczenie 11.15

Do zadań 11.5 i 11.7 dorzućmy teraz czynnik dyskontowy $e^{{-\zeta t}}$ i wyprowadźmy nowe warunki konieczne i dostateczne ze skorygowanej zasady maksimum wyliczonej w ćwiczeniu 11.13.

11.4. Funkcja wartości i równanie Bellmana

W tym rozdziale sformułujemy warunki dostateczne na to, aby zadane sterowanie minimalizowało funkcjonał kosztu (lub maksymalizowało funkcjonał wypłaty) korzystające z oczywistego spostrzeżenia poczynionego przez Bellmana [10] – zasadę optymalności.

Stwierdzenie 11.1 (Zasada optymalności Bellmana)

Polityka [strategia] optymalna ma tę własność, że jakikolwiek jest stan początkowy i początkowa decyzja, pozostałe decyzje muszą tworzyć politykę [strategię] optymalną ze względu na stan wynikły z pierwszej decyzji.

Metoda postępowania oparta na tej zasadzie, którą opiszemy w tym rozdziale została zaproponowana przez Bellmana [10] pod nazwą programowania dynamicznego.

Sformułujemy warunki dostateczne na to, żeby pewna funkcja zwracała nam wartość minimalną funkcjonału kosztu (bądź maksymalną funkcjonału wypłaty), a wyliczone sterowanie było sterowaniem optymalnym, dla zagadnienia Bolza ze swobodnym punktem końcowym (i ustalonym czasem końcowym).

Aby to zrobić, zaczniemy od pozornego utrudnienia – zamiast szukać jedynie rozwiązania zadanego problemu sterowania optymalnego, będziemy chcieli znaleźć rozwiązania dla całej klasy sterowań optymalnych, zawierających nasz wyjściowy problem.

Nie będą to zagadnienia sztuczne. Wyobraźmy sobie, że wybraliśmy sterowanie optymalne i stosujemy je. Upłynął pewien czas od początkowego $0$ – mamy czas $\bar{t}$ i stan systemu zmienił się zgodnie z odpowiedzią na nasze sterowanie i teraz jest równy $\bar{x}$ . W sposób naturalny możemy sformułować nowe zagadnienie sterowania optymalnego – startujące w chwili $\bar{t}$ ze stanu $\bar{x}$ z funkcjonałem kosztu/wypłaty $\int _{{\bar{t}}}^{{t_{1}}}\mathfrak{f}^{0}(x(t),u(t))dt+\mathfrak{g}(t_{1},x(t_{1}))$ . Zasada optymalności mówi, że wybrane przez nas sterowanie optymalne dla początkowego zagadnienia jest sterowaniem optymalnym dla nowego zagadnienia.

Dla tej klasy zagadnień będziemy szukać funkcji wartości – przypisującej parom $(\bar{t},\bar{x})$ wartość minimalną funkcjonału kosztu (lub maksymalną funkcjonału wypłaty) dla nowego zagadnienia.

To pozorne utrudnienie bardzo nam jednak ułatwi znajdowanie optymalnego sterowania. Przy danej funkcji wartości sterowanie optymalne jest zdefiniowane przy pomocy rodziny statycznych zagadnień optymalizacji zależnych od funkcji wartości, określonych na zbiorze parametrów sterujących $\Omega$ .

Wprowadzimy pomocnicze oznaczenie – funkcja $\mathfrak{C}:\mathbb{R}\times\mathbb{R}^{n}\times\Omega\rightarrow\overline{\mathbb{R}}$ (rozszerzająca pojęcie wyjściowej funkcji kosztu lub wypłaty $\mathfrak{C}$ ) oznaczająca wartość funkcjonału kosztu lub wypłaty wzdłuż trajektorii będzie zdefiniowana jako
$\mathfrak{C}[\bar{t},\bar{x},u]=\int _{{\bar{t}}}^{{t_{1}}}\mathfrak{f}^{0}(x(t),u(t))dt+\mathfrak{g}(t_{1},x(t_{1}))$ , gdzie trajektoria $x$ jest zdefiniowana równaniem różniczkowym $\dot{x}=f(x(t),u(t))$ z warunkiem początkowym $x(\bar{t})=\bar{x}$ .

Dla ustalenia uwagi, sformułujemy problem w wersji dla minimalizacji funkcjonału kosztu.

Definicja 11.1

Funkcję $W^{*}:\mathbb{R}^{n}\times\mathbb{R}\rightarrow\overline{\mathbb{R}}$ nazywamy funkcją wartości (dla klasy zagadnień minimalizacji $\mathfrak{C}[t,x,u]$ ), jeśli
$W^{*}(x,t)=\inf _{{u\in\Omega}}\mathfrak{C}[t,x,u]$ .

Przy użyciu tych oznaczeń możemy przeformułować zasadę optymalności jako:
jeśli $u_{*}$ jest sterowaniem optymalnym dla $\mathfrak{C}[0,x_{0},u]$ (czyli, równoważnie sterowaniem optymalnym dla $\mathfrak{C}[x_{0}]$ ) a $x_{*}$ odpowiadającą mu trajektorią, to dla każdego $\bar{t}>0$ $u_{*}|_{{t\geq\bar{t}}}$ jest optymalną trajektorią dla minimalizacji $\mathfrak{C}[\bar{t},x_{*}(\bar{t}),u]$ .

Sformułujemy również warunek dostateczny.

Twierdzenie 11.5

Jeśli funkcja $W:\mathbb{R}^{n}\times\mathbb{R}\rightarrow\mathbb{R}$ klasy $C^{1}$ spełnia równanie różniczkowe cząstkowe
$-\frac{\partial W(x,t)}{\partial t}=\inf _{{u\in\Omega}}\mathfrak{f}^{0}(x,u)+\langle\nabla _{x}W(x,t),f(x,u)\rangle$ (równanie Bellmana)
z warunkiem końcowym
$W(x,t_{1})=\mathfrak{g}(t_{1},x)$ ,
to

a) dla każdego sterowania $u$ , czasu $t$ i stanu $x$
$W(x,t)\leq\mathfrak{C}[t,x,u]$ .

b) Jeśli ponadto istnieje funkcja $v_{*}:\mathbb{R}^{n}\times\mathbb{R}\rightarrow\mathbb{R}^{m}$ , której odpowiada absolutnie ciągła trajektoria $x_{*}$ taka, że
$v_{*}(x,t)\in\mathop{\rm{Argmin}}_{{u\in\Omega}}\mathfrak{f}^{0}(x,u)+\langle\nabla _{x}W(x,t),f(x,u)\rangle$ , to $W$ jest funkcją wartości i
$W(x,t)=\mathfrak{C}[t,x,u_{*}]$ dla sterowania $u_{*}$ spełniającego $u_{*}(t)=v_{*}(x_{*}(t),t)$ , czyli $u_{*}$ jest sterowaniem optymalnym w pętli otwartej.

Dowód

a) Niech $x$ będzie daną absolutnie ciągłą odpowiedzią na sterowanie $u$ .

Wówczas funkcja $w(t)=W(t,x(t))$ jest absolutnie ciągła na dowolnym przedziale $[a,b]\subset(0,t_{1})$ , więc możemy ją zróżniczkować prawie wszędzie i
$\frac{\mathop{\rm{d}}w(t)}{\mathop{\rm{d}}t}=\frac{\partial W(x(t),t)}{\partial t}+\langle\nabla _{x}W(x(t),t),\frac{\mathop{\rm{d}}x(t)}{\mathop{\rm{d}}t})\rangle=\frac{\partial W(x(t),t)}{\partial t}+\langle\nabla _{x}W(x(t),t),f(x(t),u(t))\rangle$ dla prawie każdego $t$ .

Ponieważ nie mamy absolutnej ciągłości na całym przedziale $[0,t_{1}]$ , ograniczymy się do $[a,b]$ . Mamy wówczas
$W(b,x(b))-W(a,x(a))=w(b)-w(a)=\int _{a}^{b}\frac{\mathop{\rm{d}}w(t)}{\mathop{\rm{d}}t}\mathop{\rm{d}}t=\int _{a}^{b}\frac{\partial W(x(t),t)}{\partial t}+\langle\nabla _{x}W(x(t),t),f(x(t),u(t))\rangle{\mathop{\rm{d}}t}\geq\int _{a}^{b}-\mathfrak{f}^{0}(x(t),u(t))\mathop{\rm{d}}t$ .

Jeśli teraz z otrzymaną nierównością przejdziemy do granicy przy $a\rightarrow 0$ i $b\rightarrow t_{1}$ , to otrzymamy
$W(t_{1},x(t_{1}))-W(0,x(0))\geq-\int _{0}^{{t_{1}}}\mathfrak{f}^{0}(x(t),u(t))\mathop{\rm{d}}t$ .

Ponieważ $W(t_{1},x(t_{1}))=\mathfrak{g}(t_{1},x(t_{1}))$ , otrzymujemy stąd żądaną nierówność.

b) Dla $u_{*}$ i $x_{*}$ powtarzamy dowód a) z tym, że zamiast nierówności będziemy mieć równość.

∎

Uwaga 11.3

Funkcja $v_{*}$ jest optymalnym sterowaniem w postaci rozszerzonej zamkniętej pętli (w niektórych podręcznikach tę postać również nazywamy zamkniętą pętlą) – w takiej postaci otrzymujemy optymalne sterowanie z równania Bellmana. Łatwo widać, że w ogólnym przypadku w skończonym horyzoncie czasowym nie da się go przedstawić jako ,,sprzężenie zwrotne” zależne jedynie od $x$ .

Uwaga 11.4

Można też udowodnić wersję twierdzenia 11.5 bez ustalonego czasu końcowego – patrz na przykład Cesari [15] s. 502-505 lub Başar, Olsder [9] s. 236-237.

Ćwiczenie 11.16 (Zagadnienie liniowo-kwadratowe)

Rozwiązać przy pomocy równania Bellmana (z twierdzenia 11.5) problem minimalizacji kosztów z $\mathfrak{f}^{0}(x,u)=ax^{2}+bu^{2}$ , $\mathfrak{g}(x)=cx^{2}$ , $f(x,u)=dx+fu$ i $\Omega=\mathbb{R}$ , gdzie $b>0$ , $a,c\geq 0$ .

Wskazówka:

Po wyliczeniu kandydata na $v_{*}(x,t)$ szukamy $W$ w postaci $C(t)\cdot x^{2}$ .

11.4.1. Nieskończony horyzont czasowy

W przypadku, kiedy rozważamy nieskończony horyzont czasowy a zagadnienie jest autonomiczne, funkcja wartości przestaje być zależna od czasu. Dlatego też dla nieskończonego horyzontu czasowego twierdzenie o warunku dostatecznym ma prostszą postać.

Twierdzenie 11.6

Jeśli funkcja $W:\mathbb{R}^{n}\rightarrow\mathbb{R}$ klasy $C^{1}$ spełnia równanie różniczkowe
$\inf _{{u\in\Omega}}\mathfrak{f}^{0}(x,u)+\langle\nabla W(x),f(x,u)\rangle=0$
z warunkiem końcowym
$\mathop{\rm{liminf}}_{{t\rightarrow\infty}}W(x(t))=0$ dla każdej trajektorii $x$ osiągalnej z $x_{0}$ to

a) dla każdego sterowania $u$ i stanu $x$ $W(x)\leq\mathfrak{C}(t,x,u)$ .

b) Jeśli ponadto istnieje funkcja $v_{*}:\mathbb{R}^{n}\rightarrow\mathbb{R}^{m}$ , której odpowiada absolutnie ciągła trajektoria $x_{*}$ , taka, że
$v_{*}(x)\in\mathop{\rm{Argmin}}_{{u\in\Omega}}\mathfrak{f}^{0}(x,u)+\langle\nabla _{x}W(x),f(x,u)\rangle$ z warunkiem końcowym
$\lim _{{t\rightarrow\infty}}W(x_{*}(t))=0$ , to $W$ jest funkcją wartości, $v_{*}$ jest optymalnym sterowaniem w postaci sprzężenia zwrotnego i
$W(x)=\mathfrak{C}(t,x,u_{*})$ dla sterowania $u_{*}$ spełniającego $u_{*}(t)=v_{*}(x_{*}(t))$ , czyli $u_{*}$ jest sterowaniem optymalnym w pętli otwartej.

Dowód

a) Wynika z zastosowania z twierdzenia 11.5 dla zagadnień optymalizacyjnych ze skończonym horyzontem czasowym $T$ i funkcją $\mathfrak{g}=W$ oraz faktu, że $W$ jest niezależna bezpośrednio od czasu. Otrzymujemy
$\int _{0}^{T}\mathfrak{f}^{0}(x(t),u(t))\mathop{\rm{d}}t+W(x(T))\geq W(x(0))$ .

Bierzemy granicę dolną przy $T\rightarrow\infty$ i otrzymujemy żądaną nierówność.

b) Dla przypadku $u_{*}$ mamy równość
$\int _{0}^{T}\mathfrak{f}^{0}(x_{*}(t),u_{*}(t))\mathop{\rm{d}}t+W(x_{*}(T))=W(x_{*}(0))$ , która zachowuje się przy przejściu do granicy.

∎

Uwaga 11.5

Jeśli zbiór stanów jest jednowymiarowy, to zamiast równania cząstkowego w nieskończonym horyzoncie czasowym mamy równanie zwyczajne. Problemem jest jedynie warunek końcowy w nieskończoności – zwłaszcza dla obliczeń numerycznych.

Ćwiczenie 11.17 (Zagadnienie liniowo-kwadratowe z nieskończonym horyzontem czasowym)

Rozważyć problem minimalizacji kosztów z $\mathfrak{f}^{0}(x,u)=ax^{2}+bu^{2}$ , $f(x,u)=dx+fu$ i $\Omega=\mathbb{R}$ , gdzie $b>0$ , $a,c\geq 0$ .

Czy można skorzystać z z twierdzenia 11.6?

11.4.2. Funkcja wartości i równanie Bellmana dla zagadnień z dyskontowaniem

Rozważamy teraz zagadnienia minimalizacji funkcjonałów
$\int _{{\bar{t}}}^{{t_{1}}}\mathfrak{f}^{0}(x(t),u(t))e^{{-\zeta\cdot t}}dt+\mathfrak{g}(t_{1},x(t_{1}))e^{{-\zeta\cdot t_{1}}}$ w skończonym horyzoncie czasowym i
$\int _{{\bar{t}}}^{{\infty}}\mathfrak{f}^{0}(x(t),u(t))e^{{-\zeta\cdot t}}dt$ w nieskończonym horyzoncie czasowym.

Jeżeli potrakujemy czynnik dyskontujący jako dodatkową współrzędną zmiennej stanu, możemy zastosować odpowiednie wersje twierdzeń 11.5 i 11.6. Jednakże tak otrzymane równanie jest trudne w interpretacji i zbyt złożone. Dlatego dla zagadnień z dyskontowaniem formułuje się inną postać równania Bellmana.

Dla zagadnień z dyskontowaniem ponownie definiujemy nasze pomocnicze oznaczenie – funkcja $\mathfrak{C}:\mathbb{R}\times\mathbb{R}^{n}\times\Omega\rightarrow\overline{\mathbb{R}}$ wzdłuż trajektorii będzie zdefiniowana jako
$\mathfrak{C}[\bar{t},\bar{x},u]=\int _{{\bar{t}}}^{{t_{1}}}\mathfrak{f}^{0}(x(t),u(t))e^{{-\zeta\cdot(t-\bar{t})}}dt+\mathfrak{g}(t_{1},x(t_{1}))e^{{-\zeta(t_{1}-\bar{t})}}$ w skończonym horyzoncie czasowym i
$\mathfrak{C}[\bar{t},\bar{x},u]=\int _{{\bar{t}}}^{{\infty}}\mathfrak{f}^{0}(x(t),u(t))e^{{-\zeta\cdot(t-\bar{t})}}dt$ w nieskończonym horyzoncie czasowym,
dla trajektorii $x$ zdefiniowanej równaniem różniczkowym $\dot{x}=f(x(t),u(t))$ z warunkiem początkowym $x(\bar{t})=\bar{x}$ .

Interpretacja jest analogiczna jak w przypadku bez dyskontowania – do chwili $\bar{t}$ stosowaliśmy pewne sterowanie, które zaprowadziło nas do stanu $\bar{x}$ . Teraz mamy nowy problem optymalizacyjny – chcemy zminimalizować zdyskontowany funkcjonał kosztu od tego momentu. Choć matematycznie różnica pomiędzy dyskontowaniem na chwilę $0$ , a na chwilę $\bar{t}$ to tylko przemnożenie przez stałą, jednak dla ekonomisty oczywiste jest, że dyskontujemy zawsze na chwilę podejmowania decyzji, czyli $\bar{t}$ . Ponadto okaże się, że dla tak zdefiniowanej zdyskontowanej funkcji wartości otrzymamy proste równanie Bellmana i warunek końcowy.

Ćwiczenie 11.18

Wypisać i udowodnić zasadę maksimum dla zagadnienia z dyskontowaniem, tak aby otrzymać równość $W(\bar{x},\bar{t})=\mathfrak{C}[\bar{t},\bar{x},u]$ dla optymalnego sterowania $u$ .

a) przy skończonym horyzoncie czasowym ;

b) przy nieskończonym horyzoncie czasowym.

Wskazówka:

Można albo powtórzyć z niewielkimi zmianami schemat dowodowy dla zagadnienia bez dyskontowania, albo potraktować zagadnienie z dyskontowaniem jako zagadnienie autonomiczne z $n+1$ - wymiarową zmienną stanu, gdzie dodatkowa współrzędna to czynnik dyskontujący. Ponadto założyć, że wchodzi on do funkcji wartości multiplikatywnie.

Rozwiązanie:

Przy skończonym horyzoncie czasowym równania Bellmana ma postać
$-\frac{\partial W(x,t)}{\partial t}+\zeta\cdot W(x,t)=\inf _{{u\in\Omega}}\mathfrak{f}^{0}(x,u)+\langle\nabla _{x}W(x,t),f(x,u)\rangle$
z warunkiem końcowym $W(x,t_{1})=\mathfrak{g}(t_{1},x)$ ,

Przy nieskończonym horyzoncie czasowym równanie Bellmana ma postać
$\inf _{{u\in\Omega}}\mathfrak{f}^{0}(x,u)+\langle\nabla W(x),f(x,u)\rangle=\zeta\cdot W(x)$
z warunkiem końcowym
$\mathop{\rm{liminf}}_{{t\rightarrow\infty}}W(x(t))\cdot e^{{-\zeta t}}=0$ dla każdej trajektorii $x$ osiągalnej z $x_{0}$ .

Ćwiczenie 11.19

Rozważmy nasze zagadnienie maksymalizacji zysku z łowiska, tyle że teraz z nieskończonym horyzontem czasowym i dyskontowaniem:

Dane $x(0)>0$ , $\mathfrak{f}^{0}(x,u)=\mathop{\rm{ln}}(ux)$ , $f(x,u)=(r-u)\cdot x$ , przy $\Omega=(0,M]$ , gdzie $M$ – odpowiednio duże.

Wskazówka:

Można to zrobić na co najmniej dwa sposoby:
1. założyć pewną pewną postać funkcji wartości (tu $A+B\cdot\mathop{\rm{ln}}x$ ), z równania Bellmana wyliczyć brakujące parametry, tak, aby było spełnione a na koniec sprawdzić, czy zachodzi warunek końcowy;
2. ograniczyć się do pewnej klasy sterowań (tu sterowania stałe w czasie), znaleźć optimum w tej klasie i sprawdzić, czy spełnia równanie Bellmana;
3. poza tym przy rozwiązywaniu zagadnień z nieskończonym horyzontem czasowym można uzyskać funkcję wartości jako granicę funkcji wartości dla zagadnień ze skończonym horyzontem czasowym (choć w tym konkretnym wypadku nie jest to ułatwienie).

Ćwiczenie 11.20

Rozwiązać jeszcze raz minimalizacji kosztów dla zagadnień liniowo-kwadratowych ze skończonym i nieskończonym horyzontem czasowym (zadania 11.16 i 11.17) z dyskontowaniem.

11.5. Teoria sterowania – problemy ekonomiczne

11.5.1. Optymalizacja konsumpcji w cyklu życia

W tym podrozdziale przedstawimy model optymalizacji konsumpcji w cyklu życia przez racjonalnego konsumenta, czasem nazywany zagadnieniem wyboru międzyokresowego.

Ten sam model możemy też zastosować do optymalizacji wydatków budżetowych w ciągu roku budżetowego. Zaproponowany tu model stanowi uciągloną wersję przypadku dyskretnego, który można znaleźć w wielu podręcznikach makroekonomii.

Pan Kowalski uważa, że uważa, że będzie żył jeszcze $T$ czasu. Jego dochody w chwili $t$ wyznacza zewnętrzna, deterministyczna funkcja $Y(t)\geq 0$ .

Jego bieżąca funkcja wypłaty (nazywana w tym kontekście bieżącą funkcją użyteczności) to $U(C)$ ściśle rosnąca i ściśle wklęsła funkcja konsumpcji $C$ .

Konsumenci mogą korzystać z idealnego konta bankowego, o jednakowej dla kredytów i lokat stopie procentowej $r$ kapitalizacji ciągłej. Tak więc pan Kowalski może bez ograniczeń lokować lub zadłużać się, z jednym ograniczeniem – że w chwili $T$ jego stan konta musi być nieujemny, ponieważ bank, znający doskonale zagadnienie optymalizacyjne klienta, nie pożyczy mu nigdy kwoty, której nie mógłby odzyskać z jego późniejszych zarobków.

Pan Kowalski chce zmaksymalizować użyteczność konsumpcji w cyklu życia, czyli
$\int _{0}^{T}U(C(t))\cdot e^{{-\zeta\cdot t}}dt$ , gdzie $\zeta>0$ – jest miarą jego niecierpliwości. Bieżąca funkcja użyteczności $U$ w notacji skryptu to funkcja wyłaty $\mathfrak{f}^{0}$ .

Stan konta w chwili $t$ , oznaczany przez $A(t)$ opisuje równanie różniczkowe:
$\dot{A(t)}=r\cdot A(t)+Y(t)-C(t)$ z warunkiem początkowym
$A(0)=A_{0}$ . W notacji skryptu $A$ to nasza zmienna stanu $x$ , prawa strona równania definiuje więc funkcję $f$ .

Parametrem sterującym jest wielkość konsumpcji $C$ – w oznaczeniach skryptu jest to $u$ . Zbiór parametrów sterujących $\Omega=\mathbb{R}_{+}\ (=[0,+\infty)$ .
Cel $A(T)\geq 0$ zapisujemy jako $\mathcal{T}=\mathbb{R}_{+}$ .

Ćwiczenie 11.21

Pokazać, że pan Kowalski nic nie zamierza zabrać do grobu, czyli $A(T)=0$ .

Wskazówka:

Można to pokazać to bez odwoływania się do zasady maksimum. Zasada maksimum w wersji zapisanej w twierdzeniu 11.1 w tym wypadku nie działa ze względu na ograniczenia na stan końcowy.

Ćwiczenie 11.22

a) Pokazać, że niezależnie jaką mierzalną funkcją jest $Y$ i jakie jest $A_{0}$ , jedyną wielkością, przez którą mają one wpływ na optymalną konsumpcję jest bogactwo (,,wealth”) zdyskonotowane na moment $0$ , czyli liczba $W=A_{0}+\int _{0}^{T}Y(t)\cdot e^{{-r\cdot t}}dt$ , która ponadto powinna wyjść równa $\int _{0}^{T}C(t)\cdot e^{{-r\cdot t}}dt$ .

b) Pokazać równocześnie, że zależność pomiędzy $C(t)$ a $C(s)$ jest zdefiniowana przy użyciu pochodnych $U$ , przy czym dla $\zeta=r$ otrzymujemy stałą konsumpcję w cyklu życia.

Wskazówka:

Aby obejść problem z nietypowym warunkiem końcowym można, korzystając z wyliczeń z ćwiczenia 11.21, potraktować to jako problem z ustalonym punktem końcowym – wówczas będzie zachodzić zasada maksimum bez warunku transwersalności na $\lambda(T)$ .

Uwaga 11.6

Problem z ograniczeniem na wartość końcową zmiennej stanu można rozwiązać metodami podanymi w tym skrypcie, rozważając dwa przypadki – optymalizację bez tego ograniczenia (wówczas korzystamy z zasady maksimum z warunkiem transwersalności) i optymalizację z ustalonym punktem końcowym równym zadanemu ograniczeniu.

Istnieje także wiele gotowych wersji zasady maksimum dla zagadnień z ograczeniami na zmienną stanu (nie tylko wartość końcową) – zainteresowani mogą je znaleźć na przykład w opracowaniach Chiang [16] lub Hartl, Sethi, Vickson [22].

11.5.2. ,,Chcemy wygrać następne wybory!” czyli polityczny cykl koniunkturalny

Model Nordhausa, przykład podany za Chiang [16].

Do następnych wyborów zostało $T$ czasu. Obecnie panujący rząd jest zainteresowany maksymalizacją szansy na wygranie następnych wyborów, a ta z kolei jest ściśle rosnącą funkcją zadowolenia społeczeństwa w chwili wyborów.

W tym uproszczonym modelu są tylko dwa parametry ekonomiczne związane ze sobą i wpływające na zadowolenie społeczeństwa pośrednio lub bezpośrednio kontrolowane przez rząd. Są to inflacja $\Pi$ (będąca pod bezpośrednią kontrolą rządu emitującego pieniądz) i bezrobocie $U$ powiązane z $\Pi$ zależnością (zwaną w ekonomii krzywą Philipsa i potwierdzaną przez wiele lat przez dane empiryczne).
W ogólnym przypadku zależność opisana krzywą Philipsa ma postać $\Pi=\phi(U)+a\cdot\Pi^{e}$ , gdzie $\Pi^{e}$ to oczekiwana inflacja (nazywana też oczekiwaniami inflacyjnymi), $\phi^{{\prime}}<0$ , a $a\in(0,1]$ .

Zakładamy ponadto tak zwane adaptacyjne oczekiwania, czyli $(\Pi^{e})^{{\prime}}=b\cdot(\Pi-\Pi^{e})$ – oczekiwania inflacyjne zmieniają się proporcjonalnie do pomyłki w szacowaniu przez nie rzeczywistej inflacji.

Bieżące zadowolenie społeczeństwa mierzy funkcja $v(U,\Pi)$ o obu pochodnych cząstkowych ujemnych, przy czym przeważnie ludzie gorzej znoszą duże wartości inflacji niż bezrobocia – co można odzwierciedlić funkcją liniową względem $\Pi$ i kwadratową względem $U$ .

Podejmując decyzję wyborczą ludzie lepiej pamiętają to, co jest bliższe. To daje nietypowe ,,dyskontowanie” w funkcji maksymalizowanej:
$\int _{0}^{T}v(U(t),\Pi(t))e^{{\zeta\cdot t}}dt$ .

Aby uprościć model, wyrugowujemy ze wzorów faktyczną inflację $\Pi$ . Po przekształceniach otrzymujemy zagadnienie
zmaksymalizować $\int _{0}^{T}v(U(t),\Phi(U(t))+a\cdot\Pi^{e}(t))dt$
przy $\dot{\Pi^{e}}(t)=b\cdot(\Phi(U)+(1-a)\cdot\Pi^{e})$
z warunkiem początkowym $\Pi^{e}(0)=\Pi^{e}_{0}\geq 0$ .

W tak przedefiniowanym równaniu zmienną stanu będzie $\Pi^{e}$ , a sterowaniem $U$ .

Aby uzyskać wyniki analityczne, Nordhaus analizował model liniowo-kwadratowy (liniowa dynamika, kwadratowa wklęsła funkcja wypłaty bieżącej). Potraktujemy jego model jako ćwiczenie.

Ćwiczenie 11.23

Znaleźć optymalne sterowanie (poziom bezrobocia $U$ ) i trajektorię oczekiwanej inflacji $\Pi^{e}$ dla modelu politycznego cyklu koniunkturalnego z
$v(U,\Pi)=-U^{2}-h\cdot\Pi$ dla stałej $h>0$ i
$\phi(U)=j-k\cdot U$ dla $j,k>0$ .

Następnie obliczyć, jak zachowuje się faktyczna inflacja $\Pi$ .

Interpretacja ekonomiczna wyników ćwiczenia 11.23 i implikacje tychże w rzeczywistości.

Optymalne $U$ jest malejącą funkcją czasu, a inflacja i oczekiwania rosnącą.

Ten pierwszy fakt oznacza, że dla rządu kierującego się maksymalizacją funkcji wypłaty jak określona w ćwiczeniu 11.23 optymalne jest tuż po wyborach ustanowienie wysokiego poziomu bezrobocia, żeby było z czego schodzić. ,,Ustanowienie wysokiego poziomu bezrobocia” wynika z tego, że tylko po wyborach można pozwolić sobie na duszenie inflacji (podobnie jak i inne mało popularne, acz niezbędne reformy).

Tak naprawdę to przypominamy sobie, że bezrobocia rząd nie ustawia – jest ono skutkiem takiej a nie innej polityki monetarnej – czyli obniżenie bezrobocia jest skutkiem zwiększania inflacji. Jeśli pomyślimy o tym, że ten sam problem optymalizacji będzie miał miejsce po wyborach, to jasne jest, że potem ponosimy dodatkowe koszty – bo same oczekiwania inflacyjne zwiększają inflację, a duszenie inflacji powoduje wzrost bezrobocia…

A zatem potem mamy następne wybory i kolejny rząd ma wysokie $\Pi^{e}_{0}$ na starcie i to samo zagadnienie optymalizacyjne.

Warto dodać jeszcze ciekawostkę: krzywą Philipsa i polityczny cykl koniunkturalny potwierdzały dane empiryczne. Do czasu – ponieważ ludzie się uczą. Oczekiwania adaptacyjne z czasem zamieniły się na racjonalne (wiemy, jak działa rząd, więc jesteśmy w stanie wyliczyć faktyczną inflację będącą skutkiem jego działań), a dodruk pustych pieniędzy przestał wpływać na realny rynek, powodując jedynie inflację, bez wpływu na zmniejszenie bezrobocia.

Niestety, proceder nakręcania inflacji przed wyborami, o ile nie ma ograniczeń prawnych, często nadal ma miejsce.

11.5.3. Wydobycie surowców nieodnawialnych przez właściciela – monopolistę. Model Hotellinga

Przykład podany za Chiang [16].

Koszt wydobycia ilości $u$ surowca (ropy naftowej, węgla, etc.) opisuje funkcja $c(u)$ rosnąca (zazwyczaj ściśle), wypukła (zazwyczaj ściśle) i nieujemna. Jeśli na rynku jest $u>0$ surowca, wówczas ustala się nieujemna cena $p(u)$ za jednostkę, przy czym funkcja $p$ , nazywana przez ekonomistów odwrotną funkcją popytu, jest malejąca (zazwyczaj ściśle na zbiorze tych $u$ dla których jest niezerowa), gdyż ludzie są skłonni zapłacić więcej za towar deficytowy.

Monopolista – posiadacz złoża chce zmaksymalizować łączne zdyskontowane zyski, czyli
$\int _{0}^{{T}}[p(u(t))\cdot u(t)-c(u(t))]\cdot e^{{-\zeta\cdot t}}dt$ , przy czym końcowy czas $T$ może być skończony lub równy $+\infty$ .

Zazwyczaj $\zeta=r\geq 0$ , gdzie $r$ to rynkowa stopa procentowa, przy oczywistym równaniu stanu $\dot{x}(t)=-u(t)$ dla $x(t)>0$ i $\dot{x}(t)=0$ dla $x(t)=0$ .

Równie oczywiste jest ograniczenie ,,z próżnego i Salomon nie naleje”, czyli jeśli $x(t)=0$ , to jedynym dostępnym sterowaniem jest $0$ .

Model opisuje też dowolną sytuację wyprzedaży zapasów.

Ćwiczenie 11.24

Rozwiązać problem wydobycia surowców nieodnawialnych przy $p(u)=(b-a\cdot u)^{+}$ dla pewnych stałych $a,b>0$ i $c$ stałym dla przypadku

a) bez dyskontowania ( $\zeta=0$ );

b) z dyskontowaniem ( $\zeta>0$ ).

Wskazówka:

Zagadnienie sterowania optymalnego tylko pozornie jest z ustalonym czasem końcowym i wolnym stanem końcowym – w chwili osiągnięcia $x(t_{1})=0$ kończy się jakikolwiek wybór.

Mamy więc albo zagadnienie z wolnym czasem końcowym $t_{1}\leq T$ i ustalonym stanem końcowym $0$ (a więc możemy zastosować zasadę maksimum bez warunku transwersalności, z pewnym parametrem $\lambda _{0}$ ), albo zagadnienie z ustalonym czasem końcowym i swobodnym stanem końcowym $x(T)>0$ . Po porównaniu wypłat otrzymamy sterowanie optymalne.

Rozwiązanie:

W każdym z przypadków $x(T)=0$ .

a) Sterowanie optymalne jest stałe.

b) Sterowanie optymalne maleje w czasie.

Ćwiczenie 11.25

Jak się zmieni rozwiązanie problemu znalezienia sterowania optymalnego dla wydobycia surowców nieodnawialnych przy $p=(b-a\cdot u)^{+}$ dla pewnych stałych $a,b>0$ , jeśli $c(u)=d_{1}\cdot u^{2}+d_{2}\cdot u+d_{3}$ dla $d_{1}\geq 0$ , $d_{2},d_{3}$ dowolnych?

Ćwiczenie 11.26

Rozważyć problem wydobycia surowców nieodnawialnych ze skończonym horyzontem czasowym $T$ w najbardziej ogólnej postaci w przypadkach z dyskontowaniem i bez.

Wypisać warunek jaki musi spełniać iloraz pochodnych bieżącej funkcji wypłaty dla sterowania optymalnego w dwóch różnych momentach czasu $t$ i $s$ .

Co on implikuje, jeśli bieżąca funkcja wypłaty jest ściśle wklęsła?

11.5.4. Łowimy ryby, wycinamy puszczę – czyli exploatacja surowców odnawialnych

W pojęciu eksploatacja surowców odnawialnych mieści się cała klasa zagadnień tzw. ekonomii ekologicznej, w której przedmiotem eksploatacji jest ekosystem lub jego część. Są to zagadnienia od jednowymiarowych do bardzo złożonych.

Najprostsze modele eksploatacji, w których mamy jedną zmienną stanu, jak na przykład populacja śledzia bałtyckiego albo powierzchnia lasu ignorują wielowymiarowy charakter zależności opisujących stan ekosystemu. Bardziej złożone biorą pod uwagę zależności pomiędzy gatunkami (na przykład interakcje drapieżnik-ofiara), a nawet strukturę wiekową populacji w ramach gatunku.

Zmienna stanu opisuje stan ecosystemu – jest to na przykład wektor, którego współrzędnymi są liczności osobników każdego z gatunków. Parametrem sterującym może być wielkość eksploatacji, albo np. nakłady na eksploatację.

Tym razem równanie stanu ma postać $\dot{x}(t)=f(x(t),u(t))$ , przy czym przeważnie zakładamy, że jeśli $x^{i}=0$ , to $f^{i}(x,u)\equiv 0$ (jeśli gatunek wyginął, to nie da się go odtworzyć). Ponadto eksploatacja zazwyczaj nie może być ujemna.

Właściciel łowiska maksymalizuje łączną zdyskontowaną użyteczność eksploatacji
a) $\int _{0}^{{\infty}}[U(u(t),x(t))\cdot e^{{-\zeta\cdot t}}dt$ albo
b) $\int _{0}^{{t_{1}}}[U(u(t),x(t))\cdot e^{{-\zeta\cdot t}}dt+\mathfrak{g}(x(t_{1}))\cdot e^{{-\zeta\cdot t_{1}}}$ (kiedy postanowię przejść na emeryturę, prawa do łowiska mogę sprzedać).

Różne wersje tego modelu badaliśmy w ćwiczeniach 11.5, 11.7, 11.12 i 11.19.

Funkcja $U$ może też mieć postać jak funkcja wypłaty bieżącej w modelu Hotellinga (podrozdział 11.5.3) przy czym koszt dodatkowo może zależeć od stanu systemu – $U(u,x)=p(u)\cdot u-c(u,x)$ – i być względem niego malejący (wyłowienie tony śledzia kosztuje dużo, jeśli śledzie prawie wyginęły, natomiast jest tańsze, gdy jest ich pełno).

Ćwiczenie 11.27

Rozwiązać problem wydobycia surowców odnawialnych będący modyfikacją modelu Hotellinga z ćwiczenia 11.24 ( $p(u)=(b-a\cdot u)^{+}$ dla pewnych stałych $a,b>0$ , stałym $c$ , skończonym horyzontem czasowym $T$ i $\Omega=\mathbb{R}_{+}$ ) przy dynamice stanu systemu $\dot{x}(t)=r\cdot x-u$ i ograniczeniu na zmienną stanu $x(t)\geq 0$ dla każdego $t\leq T$ .

Rozważyć dwa przypadki

a) bez dyskontowania ( $\zeta=0$ );

b) z dyskontowaniem ( $\zeta>0$ ).

Przykładem zagadnienia wielowymiarowego jest sytuacja, gdy mamy dwa gatunki, a pomiędzy nimi trzy możliwe relacje: symbioza, konkurencja o wspólne źródło pokarmu i drapieżnik-ofiara.

Ćwiczenie 11.28

Mamy dwa gatunki ryb, pomiędzy którymi zachodzą różne interakcje opisane układem równań
$\dot{x}^{1}(t)=r\cdot x^{1}(t)+q^{1}\cdot x^{2}(t)-u^{1}(t),\\ \dot{x}^{2}(t)=q^{2}\cdot x^{1}(t)+r\cdot x^{2}(t)-u^{2}(t),$
o ile $x^{1}(t),x^{2}(t)>0$ .

$x^{i}$ to ilość osobników $i$ -tego gatunku, a $u^{i}$ połowy tegoż gatunku.

Rozważamy skończony horyzont czasowy $T$ .

Dla uproszczenia zbiór parametrów sterujących ma postać $[0,M]\times[0,M]$ , gdzie $M$ jest takie, że odpowiedź na każde sterowanie mierzalne spełnia $x^{1}(t),x^{2}(t)>0$ dla każdego $t<T$ .

Liczba $r>0$ , natomiast znaki $q^{1}$ i $q^{2}$ zależą od rodzaju relacji pomiędzy gatunkami: symbioza to $q^{1},q^{2}>0$ , konkurencja o wspólne źródło pokarmu to $q^{1},q^{2}<0$ , a drapieżnik-ofiara $q^{1}>0,q^{2}<0$ . Dla ułatwienia rachunków niech $|q^{1}|=|q^{2}|=q<r$ .

Funkcja wypłaty bieżącej to $U(u,x)=x^{1}-a\cdot(u^{1})^{2}+b\cdot u^{1}+x^{2}-a\cdot(u^{2})^{2}+b\cdot u^{2}$ , a końcowej $\mathfrak{g}(x)=x^{1}+x^{2}$ .

Znaleźć optymalne sterowanie i trajektorię.

Porównać optymalną trajektorię z odpowiedzią na $u\equiv 0$ (,,naturalną trajektorię systemu”).

Treść automatycznie generowana z plików źródłowych LaTeXa za pomocą oprogramowania wykorzystującego LaTeXML.