Zagadnienia

11. Optymalne sterowanie w przypadku ustalonego czasu końcowego. Warunki konieczne i dostateczne oraz zastosowania ekonomiczne

Agnieszka Wiszniewska-Matyszkiel

W tym rozdziale opisujemy dokładniej różne zagadnienia związane ze sterowaniem optymalnym.

Najpierw prezentujemy różne wersje zasady maksimum Pontragina i twierdzenia o warunkach dostatecznych dla sterowań spełniających zasadę maksimum, następnie wprowadzamy równanie Bellmana zawierające warunki dostateczne optymalności sterowania w postaci pętli zamkniętej.

Ze względu na to, że w zagadnieniach ekonomicznych związanych z poszukiwaniem sterowania optymalnego prawie zawsze występuje dyskontowanie, przedstawiamy modyfikacje obu metod obliczeniowych w przypadku dyskontowania.

Na końcu prezentujemy przykłady ekonomiczne zastosowania zagadnień optymalnego sterowania.

11.1. Zasada maksimum Pontriagina dla ustalonego czasu końcowego

W problemach ekonomicznych często rozważamy zagadnienie Bolzy z ustalonym horyzontem czasowym t1 i swobodnym stanem końcowym – maksymalizujemy wypłatę lub minimalizujemy koszt dany funkcjonałem
Cu=0t1f0t,xt,utdt+gt,xt przy
x˙t=ft,xt,ut z warunkiem początkowym x0=x0 i ograniczeniu na sterowanie utΩ dla każdego t.

Zdefiniujemy Hamiltonian jako
Ht,λ,x,u=f0t,xt,ut+λ,ft,x,u.

Ponieważ wielkrotnie będzie pojawiać się określenie ,,zbiór punktów realizujących minimum/maximum funkcji na zbiorze”, wprowadzimy skrótowe oznaczenie. Dla pewnej funkcji f o wartościach rzeczywistych i zbioru Γ zawartego w jej dziedzinie symbol
ArgminxΓfx oznacza zbiór punktów dla których przyjmowane jest minimum funkcji f na zbiorze Γ, natomiast symbol
ArgmaxxΓfx oznacza zbiór punktów dla których przyjmowane jest maksimum funkcji f na zbiorze Γ.

Zasada maksimum Pontriagina ma w tym wypadku następującą postać:

Twierdzenie 11.1 (Zasada maksimum dla zagadnienia Bolzy z ustalonym czasem końcowym)

Niech funkcje f0, g i f oraz ich pochodne po x będą ciągłe na zbiorach określoności.

Jeśli u* jest sterowaniem maksymalizującym (minimalizującym) Cu a x* odpowiedzią na nie, to istnieje absolutnie ciągła funkcja λ:0,t1R, taka że w każdym punkcie t, w którym istnieje lewostronna pochodna x*t i jest równa ft,x*t,u*t zachodzi:
x*˙t=Ht,λ,x*t,u*tλ z warunkiem początkowym x*0=x0;
λ˙t=-Ht,λ,x*t,u*tx z warunkiem końcowym λt1=gt,x*t1x;
u*tArgmaxuΩHt,λ,x*t,u
(u*tArgminuΩHt,λ,x*t,u).

Dowód zasady maksimum Pontriagina w tej wersji można znaleźć np. w Zabczyk [41].

Uwaga 11.1

λ=-ww0 w notacji rozdziału 7 (??) wykładu – można tak zrobić, bo dla naszego zagadnienia w0<0. Dlatego też maksymalizacja zamienia się na minimalizację.

Ćwiczenie 11.1

Sformułować problem znalezienia najkrótszej krzywej w przestrzeni t,x łączącej zadany punkt początkowy x0 i czas 0 z pionową prostą w t1 jako problem optymalnego sterowania i rozwiązać go za pomocą zasady maksimum, czyli znaleźć sterowanie i trajektorię spełniające warunki konieczne z zasady maksimum Pontriagina – twierdzenia 11.1.

Wskazówka: 

Jeśli za x we wzorze na długość krzywej podstawimy u, to otrzymamy zagadnienie optymalnego sterowania z f0t,x,u=1+u2, g0, ft,x,u=u i nieograniczonym zbiorze parametrów sterująych Ω=R.

Ćwiczenie 11.2

Rozważyć liniowe zagadnienie maksymalizacji wypłaty z x0=4, Ω=0,2, t1=2, f0t,x,u=2x-3u, ft,x,u=x+u, g0.

Znaleźć sterowanie i trajektorię spełniające warunki konieczne z zasady maksimum Pontriagina – twierdzenia 11.1.

Ćwiczenie 11.3

Rozważyć zagadnienie maksymalizacji wypłaty z x0=1, Ω=R, t1=1, f0t,x,u=x-u2, ft,x,u=-u, g0.

Znaleźć sterowanie i trajektorię spełniające warunki konieczne z zasady maksimum Pontriagina – twierdzenia 11.1.

Ćwiczenie 11.4

Rozważyć zagadnienie minimalizacji kosztu z x0=1, Ω=R, t1=1, f0t,x,u=x2+u2, ft,x,u=x-u, gx.

Znaleźć sterowanie i trajektorię spełniające warunki konieczne z zasady maksimum Pontriagina – twierdzenia 11.1.

Ćwiczenie 11.5

Maksymalizacja zysków z łowiska.

Model łowiska będącego podstawą egzystencji właściciela – naszym celem jest zmaksymalizować wypłatę.

Dane stan początkowy x0=x0>0, wypłata bieżąca f0t,x,u=lnux, wypłata końcowa g0, zmianę stanu populacji ryb określa funkcja ft,x,u=r-ux, a zbiór parametrów sterujących to Ω=0,M.

a) Czy jest możliwe, że sterowanie optymalne u* spełnia ut<M prawie wszędzie na pewnym przedziale t¯,t1?

b) Co musi spełniać sterowanie optymalne, jeśli założymy, że u* ma co najwyżej skończoną liczbie przełączeń pomiędzy wnętrzem a brzegiem Ω?

Wskazówka: 

Obliczyć oddzielnie równania dla λ i x na odcinkach czasu, na których
a) optymalne sterowanie u*t=M i
b) u*t<M.

Rozwiązanie: 

Jeśli t11M, to sterowanie optymalne ma postać u*tM,
xt=x0er-Mt i
λt=1x0t1-te-r-Mt.

Jeśli t1>1M, to sterowanie optymalne ma postać
u*t=1λtx*t=1t1-t na odcinku 0,t¯ i
u*tM na odcinku t¯,t1
dla t¯=t1-1M.

Optymalna trajektoria zmiennej stanu spełnia równanie
x*t=x0t1t1-tert na odcinku 0,t¯ i
x*t=x0Mt1eMt1-1er-Mt na odcinku t¯,t1,
zaś zmiennej ko-stanu
λt=t1x0e-rt na odcinku 0,t¯ i
λt=Mt1x0e-Mt1+1t1-te-r-Mt na odcinku t¯,t1.

Ćwiczenie 11.6

Co jeśli w zadaniu 11.5 zbiór parametrów sterujących Ω=0,+?

Ćwiczenie 11.7

Maksymalizacja zysków z łowiska będącego podstawą egzystencji użytkownika z różnymi wypłatami końcowymi.

Analizujemy ponownie łowisko z zadania 11.5. Teraz zakładamy, że w chwili t1 właściciel może sprzedać łowisko i cena zależy od tego, jaki zasób ryb pozostał, albo że użytkownik będący dzierżawcą musi zapłacić karę za to, że jest ono w złym stanie.

Dane x0>0, f0t,x,u=lnux, ft,x,u=r-ux, Ω=0,+ i
a) gx=x;
b) gx=lnx.

znaleźć sterowanie i trajektorię spełniające warunki konieczne z zasady maksimum Pontriagina – twierdzenia 11.1.

Wskazówka: 

W punkcie b) w rozwiązaniu równania na λ dobrze byłoby stałą zacząć wyliczyć dopiero w ostatniej fazie, po wyliczeniu rozwiązania ogólnego dla x, razem z liczeniem stałych dla x.

Uwaga 11.2

W rozwiązaniu zadania 11.7b) pojawia się typowy w zagadnieniach wynikających ze stosowania zasady maksimum Pontriagina problem – rozwiązujemy układ równań na λ i x, przy czym na x mamy warunek początkowy, a na λ końcowy, zależny od końcowej wartości x, która z kolei zależy od λ. Tu udało się tę zależność łatwo rozwikłać (a nawet można jej nie zauważyć, jeśli najpierw znaleźliśmy rozwiązania ogólne dla obu zmiennych, a dopiero potem liczyliśmy stałe, aby zgadzały się warunki końcowo-początkowe).

Jak się należy spodziewać, może to powodować problemy, zwłaszcza kiedy nie widać rozwiązania analitycznego i trzeba liczyć numerycznie – trzeba używać zupełnie innych procedur niż dla rozwiązywania układów równań różniczkowych, w których mamy tylko warunki początkowe albo tylko końcowe.

11.2. Dostateczność dla zasady maksimum Pontriagina

Ponownie rozważamy zagadnienie Bolzy z ustalonym horyzontem czasowym t1 i swobodnym punktem końcowym – maksymalizujemy wypłatę (lub minimalizujemy koszt) dane funkcjonałem
Cu=0t1f0t,xt,utdt+gt,xt przy
x˙t=ft,xt,ut z warunkiem początkowym x0=x0
i ograniczeniu na sterowanie utΩ dla każdego t.

Najprostszy warunek konieczny na to, aby mierzalne sterowanie u¯ wraz z absolutnie ciągłą odpowiedzią na nie x¯ spełniające zasadę maksimum Pontriagina z absolutnie ciągłą zmienną dualną λ było optymalne opisuje twierdzenie Mangasariana [32].

Twierdzenie 11.2

Niech funkcje f0, g i f będą wklęsłe (wypukłe) i różniczkowalne ze względu na parę zmiennych x,u na zbiorach określoności. Jeśli sterowanie u¯ i odpowiedź na nie x¯ spełniają warunki konieczne określone zasadą maksimum Pontragina i λt0 dla każdego t, to u¯ jest sterowaniem maksymalizującym (minimalizującym) Cu.

Jeśli natomiast f jest liniowa, to spośród powyższych warunków można usunąć dodatniość λ.

Dowód

Dowód w przypadku, gdy maksimum hamiltonianu jest zawsze przyjmowane w punkcie wewnętrznym Ω, jest zawarty w Chiang [16] s. 213-216.

Aby dowód był poprawny dla dowolnego punktu u z Ω należy zastąpić warunek konieczny maksymalizacji hamiltonianu Hui=0 warunkiem Hui=μi, gdzie μi=0 dla u*i-1,1, μi>0 dla u*i=1 i μi<0 dla u*i=-1. Po kolejnych przekształceniach pojawią się tam czynniki μiui-u*i, które zawsze są niedodatnie dla uΩ, więc można je będzie opuścić zachowując żądaną nierówność.

Zauważmy, że założenia powyższego twierdzenia gwarantują wypukłość (wklęsłość) hamiltonianu względem x,u - i tak naprawdę o nią nam chodzi, co ilustruje poniższe twierdzenie o podobnym schemacie dowodowym.

Twierdzenie 11.3

Niech funkcje f0, g i f będą różniczkowalne ze względu na parę zmiennych x,u na zbiorach określoności. Jeśli sterowanie u¯ i odpowiedź na nie x¯ spełniają warunki konieczne określone zasadą maksimum Pontragina i Ht,λt,x,u jest funkcją wklęsłą (wypukłą) względem x,u i g jest funkcją wklęsłą (wypukłą) względem x dla prawie wszystkich t, to u¯ jest sterowaniem maksymalizującym (minimalizującym) Cu.

Jeszcze silniejszym warunkiem dostatecznym jest twierdzenie Arrowa, zaproponowane bez dowodu w [5] (później częściowo udowodnione przez Arrowa i Kurza w [4]; pełen dowód, nawet w bardziej ogólnej wersji przeprowadzili Seierstad i Sydsaeter w [37]).

Używamy w nim pojęcia Hamiltonianu zmaksymalizowanego H*t,λ,x=maxuΩHt,x,λ,u.

Twierdzenie 11.4

Niech funkcje f0, g i f będą różniczkowalne ze względu na parę zmiennych x,u na zbiorach określoności. Jeśli sterowanie u¯ i odpowiedź na nie x¯ spełniają warunki konieczne określone zasadą maksimum Pontragina i H*t,λt,x i g są funkcjami wklęsłymi (wypukłymi) względem x dla prawie wszystkich t, to u¯ jest sterowaniem maksymalizującym (minimalizującym) Cu.

Ćwiczenie 11.8

Najkrótsza droga łącząca zadany punkt początkowy w chwili 0 z pionową prostą w t1.

Sprawdzić dostateczność dla wcześniej wyliczonego rozwiązania ćwiczenia 11.1.

Ćwiczenie 11.9

Sprawdzić dostateczność dla wcześniej wyliczonego rozwiązania ćwiczenia 11.2: liniowego zagadnienia maksymalizacji z x0=4, Ω=0,2, t1=2

f0t,x,u=2x-3u, ft,x,u=x+u, g0.

Ćwiczenie 11.10

Sprawdzić dostateczność dla wcześniej wyliczonego rozwiązania ćwiczenia 11.3: maksymalizacji wypłaty z x0=1, Ω=R, t1=1, f0t,x,u=x-u2, ft,x,u=-u, g0.

Ćwiczenie 11.11

Sprawdzić dostateczność dla wcześniej wyliczonego rozwiązania ćwiczenia 11.4 minimalizacji kosztu z x0=1, Ω=R, t1=1, f0t,x,u=x2+u2, ft,x,u=x-u, gx.

Ćwiczenie 11.12

Maksymalizacja zysków z łowiska w różnych wersjach.

Dane x0>0, f0t,x,u=lnux, ft,x,u=1+r-ux, a) Ω=0,M i g0;
b) Ω=0,+ i gx=x
c) Ω=0,+ i gx=lnx.

Czy wyliczone w ćwiczeniach 11.5 i 11.7 sterowania spełniające warunki konieczne są optymalne?

11.3. Dyskontowanie

W problemach ekonomicznych przeważnie występuje czynnik dyskontujący. Jest to związane z tym, że ta sama złotówka otrzymana dziś i otrzymana za rok ma zupełnie inną wartość - choćby z tego powodu, że złotówkę otrzymaną dziś mogę włożyć na lokatę i za rok otrzymać więcej.

W modelach z czasem ciągłym czynnikiem dyskontującym jest e-ζt dla pewnego ζ>0.

Liczba ζ to zazwyczaj tzw. stopa procentowa kapitalizacji ciągłej, jeśli liczymy jedynie obiektywną wartość pieniądza – e-ζt jest to wówczas kwota, jaką możemy otrzymać dziś pod zastaw 1zł w czasie 1. Może to też być pewna inna stała dodatnia, jeśli chcemy odzwierciedlić nasze własne preferencje co do oczekiwania na pieniądz – wówczas ζ jest naszą prywatną miarą niecierpliwości.

Zagadnienie z dyskontowaniem ma postać
Cu=0t1f0t,xt,ute-ζtdt+gt1,xt1e-ζt1 przy
x˙t=ft,xt,ut
z warunkiem początkowym x0=x0
i ograniczeniu na sterowanie utΩ dla każdego t.

Możemy zastosować zwykłą zasadę maksimum Pontriagina.

Hamiltonian ma teraz postać
Ht,λ,x,u=f0t,xt,ute-ζt+λ,ft,x,u,
a warunek transwersalności λT=gxT,xTe-ζT.

Nawet jeśli wyjściowe funkcje były niezależne od czasu, to teraz problem stał się nieautonomiczny – i to każde z równań, jak otrzymamy z zasady maksimum. A tak nie musi być.

Wskazówka: 

Rozważyć zmienną dualną μt=λeζt i Hamiltonian wartości obecnej HC zdefiniowany jako HCt,μ,x,u=Ht,λ,x,ue-ζT.

Ćwiczenie 11.13

Zapisać zasadę maksimum Pontriagina przy użyciu nowych zmiennych i podziwiać odzyskaną autonomiczność (kiedy wyjściowe funkcje były niezależne od t).

Rozwiązanie: 

Równania na trajektorie stanu i kostanu oraz sterowanie dla problemu maksymalizacji (minimalizacji) będą miały w nowych zmiennych następującą postać:

x*˙t=HCt,μ,x*t,u*tμ z warunkiem początkowym x*0=x0;
μ˙t=-HCt,μ,x*t,u*tx+μζ z warunkiem końcowym μt1=gt,x*t1x;
u*tArgmaxuΩHCt,μ,x*t,u
(u*tArgminuΩHCt,μ,x*t,u).

Ćwiczenie 11.14

Do zadań 11.1, 11.2, 11.3 i 11.4 dorzućmy teraz czynnik dyskontowy e-ζt i wyprowadźmy nowe warunki konieczne i dostateczne ze skorygowanej zasady maksimum wyliczonej w ćwiczeniu 11.13.

Ćwiczenie 11.15

Do zadań 11.5 i 11.7 dorzućmy teraz czynnik dyskontowy e-ζt i wyprowadźmy nowe warunki konieczne i dostateczne ze skorygowanej zasady maksimum wyliczonej w ćwiczeniu 11.13.

11.4. Funkcja wartości i równanie Bellmana

W tym rozdziale sformułujemy warunki dostateczne na to, aby zadane sterowanie minimalizowało funkcjonał kosztu (lub maksymalizowało funkcjonał wypłaty) korzystające z oczywistego spostrzeżenia poczynionego przez Bellmana [10] – zasadę optymalności.

Stwierdzenie 11.1 (Zasada optymalności Bellmana)

Polityka [strategia] optymalna ma tę własność, że jakikolwiek jest stan początkowy i początkowa decyzja, pozostałe decyzje muszą tworzyć politykę [strategię] optymalną ze względu na stan wynikły z pierwszej decyzji.

Metoda postępowania oparta na tej zasadzie, którą opiszemy w tym rozdziale została zaproponowana przez Bellmana [10] pod nazwą programowania dynamicznego.

Sformułujemy warunki dostateczne na to, żeby pewna funkcja zwracała nam wartość minimalną funkcjonału kosztu (bądź maksymalną funkcjonału wypłaty), a wyliczone sterowanie było sterowaniem optymalnym, dla zagadnienia Bolza ze swobodnym punktem końcowym (i ustalonym czasem końcowym).

Aby to zrobić, zaczniemy od pozornego utrudnienia – zamiast szukać jedynie rozwiązania zadanego problemu sterowania optymalnego, będziemy chcieli znaleźć rozwiązania dla całej klasy sterowań optymalnych, zawierających nasz wyjściowy problem.

Nie będą to zagadnienia sztuczne. Wyobraźmy sobie, że wybraliśmy sterowanie optymalne i stosujemy je. Upłynął pewien czas od początkowego 0 – mamy czas t¯ i stan systemu zmienił się zgodnie z odpowiedzią na nasze sterowanie i teraz jest równy x¯. W sposób naturalny możemy sformułować nowe zagadnienie sterowania optymalnego – startujące w chwili t¯ ze stanu x¯ z funkcjonałem kosztu/wypłaty t¯t1f0xt,utdt+gt1,xt1. Zasada optymalności mówi, że wybrane przez nas sterowanie optymalne dla początkowego zagadnienia jest sterowaniem optymalnym dla nowego zagadnienia.

Dla tej klasy zagadnień będziemy szukać funkcji wartości – przypisującej parom t¯,x¯ wartość minimalną funkcjonału kosztu (lub maksymalną funkcjonału wypłaty) dla nowego zagadnienia.

To pozorne utrudnienie bardzo nam jednak ułatwi znajdowanie optymalnego sterowania. Przy danej funkcji wartości sterowanie optymalne jest zdefiniowane przy pomocy rodziny statycznych zagadnień optymalizacji zależnych od funkcji wartości, określonych na zbiorze parametrów sterujących Ω.

Wprowadzimy pomocnicze oznaczenie – funkcja C:R×Rn×ΩR¯ (rozszerzająca pojęcie wyjściowej funkcji kosztu lub wypłaty C) oznaczająca wartość funkcjonału kosztu lub wypłaty wzdłuż trajektorii będzie zdefiniowana jako
Ct¯,x¯,u=t¯t1f0xt,utdt+gt1,xt1, gdzie trajektoria x jest zdefiniowana równaniem różniczkowym x˙=fxt,ut z warunkiem początkowym xt¯=x¯.

Dla ustalenia uwagi, sformułujemy problem w wersji dla minimalizacji funkcjonału kosztu.

Definicja 11.1

Funkcję W*:Rn×RR¯ nazywamy funkcją wartości (dla klasy zagadnień minimalizacji Ct,x,u), jeśli
W*x,t=infuΩCt,x,u.

Przy użyciu tych oznaczeń możemy przeformułować zasadę optymalności jako:
jeśli u* jest sterowaniem optymalnym dla C0,x0,u (czyli, równoważnie sterowaniem optymalnym dla Cx0) a x* odpowiadającą mu trajektorią, to dla każdego t¯>0 u*tt¯ jest optymalną trajektorią dla minimalizacji Ct¯,x*t¯,u.

Sformułujemy również warunek dostateczny.

Twierdzenie 11.5

Jeśli funkcja W:Rn×RR klasy C1 spełnia równanie różniczkowe cząstkowe
-Wx,tt=infuΩf0x,u+xWx,t,fx,u (równanie Bellmana)
z warunkiem końcowym
Wx,t1=gt1,x,
to

a) dla każdego sterowania u, czasu t i stanu x
Wx,tCt,x,u.

b) Jeśli ponadto istnieje funkcja v*:Rn×RRm, której odpowiada absolutnie ciągła trajektoria x* taka, że
v*x,tArgminuΩf0x,u+xWx,t,fx,u, to W jest funkcją wartości i
Wx,t=Ct,x,u* dla sterowania u* spełniającego u*t=v*x*t,t, czyli u* jest sterowaniem optymalnym w pętli otwartej.

Dowód

a) Niech x będzie daną absolutnie ciągłą odpowiedzią na sterowanie u.

Wówczas funkcja wt=Wt,xt jest absolutnie ciągła na dowolnym przedziale a,b0,t1, więc możemy ją zróżniczkować prawie wszędzie i
dwtdt=Wxt,tt+xW(x(t),t),dxtdt)=Wxt,tt+xW(x(t),t),f(x(t),u(t)) dla prawie każdego t.

Ponieważ nie mamy absolutnej ciągłości na całym przedziale 0,t1, ograniczymy się do a,b. Mamy wówczas
Wb,xb-Wa,xa=wb-wa=abdwtdtdt=abWxt,tt+xWxt,t,fxt,utdtab-f0xt,utdt.

Jeśli teraz z otrzymaną nierównością przejdziemy do granicy przy a0 i bt1, to otrzymamy
Wt1,xt1-W0,x0-0t1f0xt,utdt.

Ponieważ Wt1,xt1=gt1,xt1, otrzymujemy stąd żądaną nierówność.

b) Dla u* i x* powtarzamy dowód a) z tym, że zamiast nierówności będziemy mieć równość.

Uwaga 11.3

Funkcja v* jest optymalnym sterowaniem w postaci rozszerzonej zamkniętej pętli (w niektórych podręcznikach tę postać również nazywamy zamkniętą pętlą) – w takiej postaci otrzymujemy optymalne sterowanie z równania Bellmana. Łatwo widać, że w ogólnym przypadku w skończonym horyzoncie czasowym nie da się go przedstawić jako ,,sprzężenie zwrotne” zależne jedynie od x.

Uwaga 11.4

Można też udowodnić wersję twierdzenia 11.5 bez ustalonego czasu końcowego – patrz na przykład Cesari [15] s. 502-505 lub Başar, Olsder [9] s. 236-237.

Ćwiczenie 11.16 (Zagadnienie liniowo-kwadratowe)

Rozwiązać przy pomocy równania Bellmana (z twierdzenia 11.5) problem minimalizacji kosztów z f0x,u=ax2+bu2, gx=cx2, fx,u=dx+fu i Ω=R, gdzie b>0, a,c0.

Wskazówka: 

Po wyliczeniu kandydata na v*x,t szukamy W w postaci Ctx2.

11.4.1. Nieskończony horyzont czasowy

W przypadku, kiedy rozważamy nieskończony horyzont czasowy a zagadnienie jest autonomiczne, funkcja wartości przestaje być zależna od czasu. Dlatego też dla nieskończonego horyzontu czasowego twierdzenie o warunku dostatecznym ma prostszą postać.

Twierdzenie 11.6

Jeśli funkcja W:RnR klasy C1 spełnia równanie różniczkowe
infuΩf0x,u+Wx,fx,u=0
z warunkiem końcowym
liminftWxt=0 dla każdej trajektorii x osiągalnej z x0 to

a) dla każdego sterowania u i stanu x WxCt,x,u.

b) Jeśli ponadto istnieje funkcja v*:RnRm, której odpowiada absolutnie ciągła trajektoria x*, taka, że
v*xArgminuΩf0x,u+xWx,fx,u z warunkiem końcowym
limtWx*t=0, to W jest funkcją wartości, v* jest optymalnym sterowaniem w postaci sprzężenia zwrotnego i
Wx=Ct,x,u* dla sterowania u* spełniającego u*t=v*x*t, czyli u* jest sterowaniem optymalnym w pętli otwartej.

Dowód

a) Wynika z zastosowania z twierdzenia 11.5 dla zagadnień optymalizacyjnych ze skończonym horyzontem czasowym T i funkcją g=W oraz faktu, że W jest niezależna bezpośrednio od czasu. Otrzymujemy
0Tf0xt,utdt+WxTWx0.

Bierzemy granicę dolną przy T i otrzymujemy żądaną nierówność.

b) Dla przypadku u* mamy równość
0Tf0x*t,u*tdt+Wx*T=Wx*0, która zachowuje się przy przejściu do granicy.

Uwaga 11.5

Jeśli zbiór stanów jest jednowymiarowy, to zamiast równania cząstkowego w nieskończonym horyzoncie czasowym mamy równanie zwyczajne. Problemem jest jedynie warunek końcowy w nieskończoności – zwłaszcza dla obliczeń numerycznych.

Ćwiczenie 11.17 (Zagadnienie liniowo-kwadratowe z nieskończonym horyzontem czasowym)

Rozważyć problem minimalizacji kosztów z f0x,u=ax2+bu2, fx,u=dx+fu i Ω=R, gdzie b>0, a,c0.

Czy można skorzystać z z twierdzenia 11.6?

11.4.2. Funkcja wartości i równanie Bellmana dla zagadnień z dyskontowaniem

Rozważamy teraz zagadnienia minimalizacji funkcjonałów
t¯t1f0xt,ute-ζtdt+gt1,xt1e-ζt1 w skończonym horyzoncie czasowym i
t¯f0xt,ute-ζtdt w nieskończonym horyzoncie czasowym.

Jeżeli potrakujemy czynnik dyskontujący jako dodatkową współrzędną zmiennej stanu, możemy zastosować odpowiednie wersje twierdzeń 11.5 i 11.6. Jednakże tak otrzymane równanie jest trudne w interpretacji i zbyt złożone. Dlatego dla zagadnień z dyskontowaniem formułuje się inną postać równania Bellmana.

Dla zagadnień z dyskontowaniem ponownie definiujemy nasze pomocnicze oznaczenie – funkcja C:R×Rn×ΩR¯ wzdłuż trajektorii będzie zdefiniowana jako
Ct¯,x¯,u=t¯t1f0xt,ute-ζt-t¯dt+gt1,xt1e-ζt1-t¯ w skończonym horyzoncie czasowym i
Ct¯,x¯,u=t¯f0xt,ute-ζt-t¯dt w nieskończonym horyzoncie czasowym,
dla trajektorii x zdefiniowanej równaniem różniczkowym x˙=fxt,ut z warunkiem początkowym xt¯=x¯.

Interpretacja jest analogiczna jak w przypadku bez dyskontowania – do chwili t¯ stosowaliśmy pewne sterowanie, które zaprowadziło nas do stanu x¯. Teraz mamy nowy problem optymalizacyjny – chcemy zminimalizować zdyskontowany funkcjonał kosztu od tego momentu. Choć matematycznie różnica pomiędzy dyskontowaniem na chwilę 0, a na chwilę t¯ to tylko przemnożenie przez stałą, jednak dla ekonomisty oczywiste jest, że dyskontujemy zawsze na chwilę podejmowania decyzji, czyli t¯. Ponadto okaże się, że dla tak zdefiniowanej zdyskontowanej funkcji wartości otrzymamy proste równanie Bellmana i warunek końcowy.

Ćwiczenie 11.18

Wypisać i udowodnić zasadę maksimum dla zagadnienia z dyskontowaniem, tak aby otrzymać równość Wx¯,t¯=Ct¯,x¯,u dla optymalnego sterowania u.

a) przy skończonym horyzoncie czasowym ;

b) przy nieskończonym horyzoncie czasowym.

Wskazówka: 

Można albo powtórzyć z niewielkimi zmianami schemat dowodowy dla zagadnienia bez dyskontowania, albo potraktować zagadnienie z dyskontowaniem jako zagadnienie autonomiczne z n+1- wymiarową zmienną stanu, gdzie dodatkowa współrzędna to czynnik dyskontujący. Ponadto założyć, że wchodzi on do funkcji wartości multiplikatywnie.

Rozwiązanie: 

Przy skończonym horyzoncie czasowym równania Bellmana ma postać
-Wx,tt+ζWx,t=infuΩf0x,u+xWx,t,fx,u
z warunkiem końcowym Wx,t1=gt1,x,

Przy nieskończonym horyzoncie czasowym równanie Bellmana ma postać
infuΩf0x,u+Wx,fx,u=ζWx
z warunkiem końcowym
liminftWxte-ζt=0 dla każdej trajektorii x osiągalnej z x0.

Ćwiczenie 11.19

Rozważmy nasze zagadnienie maksymalizacji zysku z łowiska, tyle że teraz z nieskończonym horyzontem czasowym i dyskontowaniem:

Dane x0>0, f0x,u=lnux, fx,u=r-ux, przy Ω=0,M, gdzie M – odpowiednio duże.

Wskazówka: 

Można to zrobić na co najmniej dwa sposoby:
1. założyć pewną pewną postać funkcji wartości (tu A+Blnx), z równania Bellmana wyliczyć brakujące parametry, tak, aby było spełnione a na koniec sprawdzić, czy zachodzi warunek końcowy;
2. ograniczyć się do pewnej klasy sterowań (tu sterowania stałe w czasie), znaleźć optimum w tej klasie i sprawdzić, czy spełnia równanie Bellmana;
3. poza tym przy rozwiązywaniu zagadnień z nieskończonym horyzontem czasowym można uzyskać funkcję wartości jako granicę funkcji wartości dla zagadnień ze skończonym horyzontem czasowym (choć w tym konkretnym wypadku nie jest to ułatwienie).

Ćwiczenie 11.20

Rozwiązać jeszcze raz minimalizacji kosztów dla zagadnień liniowo-kwadratowych ze skończonym i nieskończonym horyzontem czasowym (zadania 11.16 i 11.17) z dyskontowaniem.

11.5. Teoria sterowania – problemy ekonomiczne

11.5.1. Optymalizacja konsumpcji w cyklu życia

W tym podrozdziale przedstawimy model optymalizacji konsumpcji w cyklu życia przez racjonalnego konsumenta, czasem nazywany zagadnieniem wyboru międzyokresowego.

Ten sam model możemy też zastosować do optymalizacji wydatków budżetowych w ciągu roku budżetowego. Zaproponowany tu model stanowi uciągloną wersję przypadku dyskretnego, który można znaleźć w wielu podręcznikach makroekonomii.

Pan Kowalski uważa, że uważa, że będzie żył jeszcze T czasu. Jego dochody w chwili t wyznacza zewnętrzna, deterministyczna funkcja Yt0.

Jego bieżąca funkcja wypłaty (nazywana w tym kontekście bieżącą funkcją użyteczności) to UC ściśle rosnąca i ściśle wklęsła funkcja konsumpcji C.

Konsumenci mogą korzystać z idealnego konta bankowego, o jednakowej dla kredytów i lokat stopie procentowej r kapitalizacji ciągłej. Tak więc pan Kowalski może bez ograniczeń lokować lub zadłużać się, z jednym ograniczeniem – że w chwili T jego stan konta musi być nieujemny, ponieważ bank, znający doskonale zagadnienie optymalizacyjne klienta, nie pożyczy mu nigdy kwoty, której nie mógłby odzyskać z jego późniejszych zarobków.

Pan Kowalski chce zmaksymalizować użyteczność konsumpcji w cyklu życia, czyli
0TUCte-ζtdt, gdzie ζ>0 – jest miarą jego niecierpliwości. Bieżąca funkcja użyteczności U w notacji skryptu to funkcja wyłaty f0.

Stan konta w chwili t, oznaczany przez At opisuje równanie różniczkowe:
At˙=rAt+Yt-Ct z warunkiem początkowym
A0=A0. W notacji skryptu A to nasza zmienna stanu x, prawa strona równania definiuje więc funkcję f.

Parametrem sterującym jest wielkość konsumpcji C – w oznaczeniach skryptu jest to u. Zbiór parametrów sterujących Ω=R+(=[0,+).
Cel AT0 zapisujemy jako T=R+.

Ćwiczenie 11.21

Pokazać, że pan Kowalski nic nie zamierza zabrać do grobu, czyli AT=0.

Wskazówka: 

Można to pokazać to bez odwoływania się do zasady maksimum. Zasada maksimum w wersji zapisanej w twierdzeniu 11.1 w tym wypadku nie działa ze względu na ograniczenia na stan końcowy.

Ćwiczenie 11.22

a) Pokazać, że niezależnie jaką mierzalną funkcją jest Y i jakie jest A0, jedyną wielkością, przez którą mają one wpływ na optymalną konsumpcję jest bogactwo (,,wealth”) zdyskonotowane na moment 0, czyli liczba W=A0+0TYte-rtdt, która ponadto powinna wyjść równa 0TCte-rtdt.

b) Pokazać równocześnie, że zależność pomiędzy Ct a Cs jest zdefiniowana przy użyciu pochodnych U, przy czym dla ζ=r otrzymujemy stałą konsumpcję w cyklu życia.

Wskazówka: 

Aby obejść problem z nietypowym warunkiem końcowym można, korzystając z wyliczeń z ćwiczenia 11.21, potraktować to jako problem z ustalonym punktem końcowym – wówczas będzie zachodzić zasada maksimum bez warunku transwersalności na λT.

Uwaga 11.6

Problem z ograniczeniem na wartość końcową zmiennej stanu można rozwiązać metodami podanymi w tym skrypcie, rozważając dwa przypadki – optymalizację bez tego ograniczenia (wówczas korzystamy z zasady maksimum z warunkiem transwersalności) i optymalizację z ustalonym punktem końcowym równym zadanemu ograniczeniu.

Istnieje także wiele gotowych wersji zasady maksimum dla zagadnień z ograczeniami na zmienną stanu (nie tylko wartość końcową) – zainteresowani mogą je znaleźć na przykład w opracowaniach Chiang [16] lub Hartl, Sethi, Vickson [22].

11.5.2. ,,Chcemy wygrać następne wybory!” czyli polityczny cykl koniunkturalny

Model Nordhausa, przykład podany za Chiang [16].

Do następnych wyborów zostało T czasu. Obecnie panujący rząd jest zainteresowany maksymalizacją szansy na wygranie następnych wyborów, a ta z kolei jest ściśle rosnącą funkcją zadowolenia społeczeństwa w chwili wyborów.

W tym uproszczonym modelu są tylko dwa parametry ekonomiczne związane ze sobą i wpływające na zadowolenie społeczeństwa pośrednio lub bezpośrednio kontrolowane przez rząd. Są to inflacja Π (będąca pod bezpośrednią kontrolą rządu emitującego pieniądz) i bezrobocie U powiązane z Π zależnością (zwaną w ekonomii krzywą Philipsa i potwierdzaną przez wiele lat przez dane empiryczne).
W ogólnym przypadku zależność opisana krzywą Philipsa ma postać Π=ϕU+aΠe, gdzie Πe to oczekiwana inflacja (nazywana też oczekiwaniami inflacyjnymi), ϕ<0, a a0,1.

Zakładamy ponadto tak zwane adaptacyjne oczekiwania, czyli Πe=bΠ-Πe – oczekiwania inflacyjne zmieniają się proporcjonalnie do pomyłki w szacowaniu przez nie rzeczywistej inflacji.

Bieżące zadowolenie społeczeństwa mierzy funkcja vU,Π o obu pochodnych cząstkowych ujemnych, przy czym przeważnie ludzie gorzej znoszą duże wartości inflacji niż bezrobocia – co można odzwierciedlić funkcją liniową względem Π i kwadratową względem U.

Podejmując decyzję wyborczą ludzie lepiej pamiętają to, co jest bliższe. To daje nietypowe ,,dyskontowanie” w funkcji maksymalizowanej:
0TvUt,Πteζtdt.

Aby uprościć model, wyrugowujemy ze wzorów faktyczną inflację Π. Po przekształceniach otrzymujemy zagadnienie
zmaksymalizować 0TvUt,ΦUt+aΠetdt
przy Πe˙t=bΦU+1-aΠe
z warunkiem początkowym Πe0=Π0e0.

W tak przedefiniowanym równaniu zmienną stanu będzie Πe, a sterowaniem U.

Aby uzyskać wyniki analityczne, Nordhaus analizował model liniowo-kwadratowy (liniowa dynamika, kwadratowa wklęsła funkcja wypłaty bieżącej). Potraktujemy jego model jako ćwiczenie.

Ćwiczenie 11.23

Znaleźć optymalne sterowanie (poziom bezrobocia U) i trajektorię oczekiwanej inflacji Πe dla modelu politycznego cyklu koniunkturalnego z
vU,Π=-U2-hΠ dla stałej h>0 i
ϕU=j-kU dla j,k>0.

Następnie obliczyć, jak zachowuje się faktyczna inflacja Π.

Interpretacja ekonomiczna wyników ćwiczenia 11.23 i implikacje tychże w rzeczywistości.

Optymalne U jest malejącą funkcją czasu, a inflacja i oczekiwania rosnącą.

Ten pierwszy fakt oznacza, że dla rządu kierującego się maksymalizacją funkcji wypłaty jak określona w ćwiczeniu 11.23 optymalne jest tuż po wyborach ustanowienie wysokiego poziomu bezrobocia, żeby było z czego schodzić. ,,Ustanowienie wysokiego poziomu bezrobocia” wynika z tego, że tylko po wyborach można pozwolić sobie na duszenie inflacji (podobnie jak i inne mało popularne, acz niezbędne reformy).

Tak naprawdę to przypominamy sobie, że bezrobocia rząd nie ustawia – jest ono skutkiem takiej a nie innej polityki monetarnej – czyli obniżenie bezrobocia jest skutkiem zwiększania inflacji. Jeśli pomyślimy o tym, że ten sam problem optymalizacji będzie miał miejsce po wyborach, to jasne jest, że potem ponosimy dodatkowe koszty – bo same oczekiwania inflacyjne zwiększają inflację, a duszenie inflacji powoduje wzrost bezrobocia…

A zatem potem mamy następne wybory i kolejny rząd ma wysokie Π0e na starcie i to samo zagadnienie optymalizacyjne.

Warto dodać jeszcze ciekawostkę: krzywą Philipsa i polityczny cykl koniunkturalny potwierdzały dane empiryczne. Do czasu – ponieważ ludzie się uczą. Oczekiwania adaptacyjne z czasem zamieniły się na racjonalne (wiemy, jak działa rząd, więc jesteśmy w stanie wyliczyć faktyczną inflację będącą skutkiem jego działań), a dodruk pustych pieniędzy przestał wpływać na realny rynek, powodując jedynie inflację, bez wpływu na zmniejszenie bezrobocia.

Niestety, proceder nakręcania inflacji przed wyborami, o ile nie ma ograniczeń prawnych, często nadal ma miejsce.

11.5.3. Wydobycie surowców nieodnawialnych przez właściciela – monopolistę. Model Hotellinga

Przykład podany za Chiang [16].

Koszt wydobycia ilości u surowca (ropy naftowej, węgla, etc.) opisuje funkcja cu rosnąca (zazwyczaj ściśle), wypukła (zazwyczaj ściśle) i nieujemna. Jeśli na rynku jest u>0 surowca, wówczas ustala się nieujemna cena pu za jednostkę, przy czym funkcja p, nazywana przez ekonomistów odwrotną funkcją popytu, jest malejąca (zazwyczaj ściśle na zbiorze tych u dla których jest niezerowa), gdyż ludzie są skłonni zapłacić więcej za towar deficytowy.

Monopolista – posiadacz złoża chce zmaksymalizować łączne zdyskontowane zyski, czyli
0Tputut-cute-ζtdt, przy czym końcowy czas T może być skończony lub równy +.

Zazwyczaj ζ=r0, gdzie r to rynkowa stopa procentowa, przy oczywistym równaniu stanu x˙t=-ut dla xt>0 i x˙t=0 dla xt=0.

Równie oczywiste jest ograniczenie ,,z próżnego i Salomon nie naleje”, czyli jeśli xt=0, to jedynym dostępnym sterowaniem jest 0.

Model opisuje też dowolną sytuację wyprzedaży zapasów.

Ćwiczenie 11.24

Rozwiązać problem wydobycia surowców nieodnawialnych przy pu=b-au+ dla pewnych stałych a,b>0 i c stałym dla przypadku

a) bez dyskontowania (ζ=0);

b) z dyskontowaniem (ζ>0).

Wskazówka: 

Zagadnienie sterowania optymalnego tylko pozornie jest z ustalonym czasem końcowym i wolnym stanem końcowym – w chwili osiągnięcia xt1=0 kończy się jakikolwiek wybór.

Mamy więc albo zagadnienie z wolnym czasem końcowym t1T i ustalonym stanem końcowym 0 (a więc możemy zastosować zasadę maksimum bez warunku transwersalności, z pewnym parametrem λ0), albo zagadnienie z ustalonym czasem końcowym i swobodnym stanem końcowym xT>0. Po porównaniu wypłat otrzymamy sterowanie optymalne.

Rozwiązanie: 

W każdym z przypadków xT=0.

a) Sterowanie optymalne jest stałe.

b) Sterowanie optymalne maleje w czasie.

Ćwiczenie 11.25

Jak się zmieni rozwiązanie problemu znalezienia sterowania optymalnego dla wydobycia surowców nieodnawialnych przy p=b-au+ dla pewnych stałych a,b>0, jeśli cu=d1u2+d2u+d3 dla d10, d2,d3 dowolnych?

Ćwiczenie 11.26

Rozważyć problem wydobycia surowców nieodnawialnych ze skończonym horyzontem czasowym T w najbardziej ogólnej postaci w przypadkach z dyskontowaniem i bez.

Wypisać warunek jaki musi spełniać iloraz pochodnych bieżącej funkcji wypłaty dla sterowania optymalnego w dwóch różnych momentach czasu t i s.

Co on implikuje, jeśli bieżąca funkcja wypłaty jest ściśle wklęsła?

11.5.4. Łowimy ryby, wycinamy puszczę – czyli exploatacja surowców odnawialnych

W pojęciu eksploatacja surowców odnawialnych mieści się cała klasa zagadnień tzw. ekonomii ekologicznej, w której przedmiotem eksploatacji jest ekosystem lub jego część. Są to zagadnienia od jednowymiarowych do bardzo złożonych.

Najprostsze modele eksploatacji, w których mamy jedną zmienną stanu, jak na przykład populacja śledzia bałtyckiego albo powierzchnia lasu ignorują wielowymiarowy charakter zależności opisujących stan ekosystemu. Bardziej złożone biorą pod uwagę zależności pomiędzy gatunkami (na przykład interakcje drapieżnik-ofiara), a nawet strukturę wiekową populacji w ramach gatunku.

Zmienna stanu opisuje stan ecosystemu – jest to na przykład wektor, którego współrzędnymi są liczności osobników każdego z gatunków. Parametrem sterującym może być wielkość eksploatacji, albo np. nakłady na eksploatację.

Tym razem równanie stanu ma postać x˙t=fxt,ut, przy czym przeważnie zakładamy, że jeśli xi=0, to fix,u0 (jeśli gatunek wyginął, to nie da się go odtworzyć). Ponadto eksploatacja zazwyczaj nie może być ujemna.

Właściciel łowiska maksymalizuje łączną zdyskontowaną użyteczność eksploatacji
a) 0[U(u(t),x(t))e-ζtdt albo
b) 0t1[U(u(t),x(t))e-ζtdt+g(x(t1))e-ζt1 (kiedy postanowię przejść na emeryturę, prawa do łowiska mogę sprzedać).

Różne wersje tego modelu badaliśmy w ćwiczeniach 11.5, 11.7, 11.12 i 11.19.

Funkcja U może też mieć postać jak funkcja wypłaty bieżącej w modelu Hotellinga (podrozdział 11.5.3) przy czym koszt dodatkowo może zależeć od stanu systemu – Uu,x=puu-cu,x – i być względem niego malejący (wyłowienie tony śledzia kosztuje dużo, jeśli śledzie prawie wyginęły, natomiast jest tańsze, gdy jest ich pełno).

Ćwiczenie 11.27

Rozwiązać problem wydobycia surowców odnawialnych będący modyfikacją modelu Hotellinga z ćwiczenia 11.24 (pu=b-au+ dla pewnych stałych a,b>0, stałym c, skończonym horyzontem czasowym T i Ω=R+) przy dynamice stanu systemu x˙t=rx-u i ograniczeniu na zmienną stanu xt0 dla każdego tT.

Rozważyć dwa przypadki

a) bez dyskontowania (ζ=0);

b) z dyskontowaniem (ζ>0).

Przykładem zagadnienia wielowymiarowego jest sytuacja, gdy mamy dwa gatunki, a pomiędzy nimi trzy możliwe relacje: symbioza, konkurencja o wspólne źródło pokarmu i drapieżnik-ofiara.

Ćwiczenie 11.28

Mamy dwa gatunki ryb, pomiędzy którymi zachodzą różne interakcje opisane układem równań
x˙1t=rx1t+q1x2t-u1t,x˙2t=q2x1t+rx2t-u2t,
o ile x1t,x2t>0.

xi to ilość osobników i-tego gatunku, a ui połowy tegoż gatunku.

Rozważamy skończony horyzont czasowy T.

Dla uproszczenia zbiór parametrów sterujących ma postać 0,M×0,M, gdzie M jest takie, że odpowiedź na każde sterowanie mierzalne spełnia x1t,x2t>0 dla każdego t<T.

Liczba r>0, natomiast znaki q1 i q2 zależą od rodzaju relacji pomiędzy gatunkami: symbioza to q1,q2>0, konkurencja o wspólne źródło pokarmu to q1,q2<0, a drapieżnik-ofiara q1>0,q2<0. Dla ułatwienia rachunków niech q1=q2=q<r.

Funkcja wypłaty bieżącej to Uu,x=x1-au12+bu1+x2-au22+bu2, a końcowej gx=x1+x2.

Znaleźć optymalne sterowanie i trajektorię.

Porównać optymalną trajektorię z odpowiedzią na u0 (,,naturalną trajektorię systemu”).

Treść automatycznie generowana z plików źródłowych LaTeXa za pomocą oprogramowania wykorzystującego LaTeXML.

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu Społecznego.

Projekt współfinansowany przez Ministerstwo Nauki i Szkolnictwa Wyższego i przez Uniwersytet Warszawski.