W tym rozdziale opisujemy dokładniej różne zagadnienia związane ze sterowaniem optymalnym.
Najpierw prezentujemy różne wersje zasady maksimum Pontragina i twierdzenia o warunkach dostatecznych dla sterowań spełniających zasadę maksimum, następnie wprowadzamy równanie Bellmana zawierające warunki dostateczne optymalności sterowania w postaci pętli zamkniętej.
Ze względu na to, że w zagadnieniach ekonomicznych związanych z poszukiwaniem sterowania optymalnego prawie zawsze występuje dyskontowanie, przedstawiamy modyfikacje obu metod obliczeniowych w przypadku dyskontowania.
Na końcu prezentujemy przykłady ekonomiczne zastosowania zagadnień optymalnego sterowania.
W problemach ekonomicznych często rozważamy zagadnienie Bolzy z ustalonym horyzontem czasowym
Zdefiniujemy Hamiltonian jako
Ponieważ wielkrotnie będzie pojawiać się określenie ,,zbiór punktów realizujących minimum/maximum funkcji na zbiorze”, wprowadzimy skrótowe oznaczenie. Dla pewnej funkcji
Zasada maksimum Pontriagina ma w tym wypadku następującą postać:
Niech funkcje
Jeśli
(
Dowód zasady maksimum Pontriagina w tej wersji można znaleźć np. w Zabczyk [41].
Sformułować problem znalezienia najkrótszej krzywej w przestrzeni
Jeśli za
Rozważyć liniowe zagadnienie maksymalizacji wypłaty z
Znaleźć sterowanie i trajektorię spełniające warunki konieczne z zasady maksimum Pontriagina – twierdzenia 11.1.
Rozważyć zagadnienie maksymalizacji wypłaty z
Znaleźć sterowanie i trajektorię spełniające warunki konieczne z zasady maksimum Pontriagina – twierdzenia 11.1.
Rozważyć zagadnienie minimalizacji kosztu z
Znaleźć sterowanie i trajektorię spełniające warunki konieczne z zasady maksimum Pontriagina – twierdzenia 11.1.
Maksymalizacja zysków z łowiska.
Model łowiska będącego podstawą egzystencji właściciela – naszym celem jest zmaksymalizować wypłatę.
Dane stan początkowy
a) Czy jest możliwe, że sterowanie optymalne
b) Co musi spełniać sterowanie optymalne, jeśli założymy, że
Obliczyć oddzielnie równania dla
a) optymalne sterowanie
b)
Jeśli
Jeśli
dla
Optymalna trajektoria zmiennej stanu spełnia równanie
zaś zmiennej ko-stanu
Co jeśli w zadaniu 11.5 zbiór parametrów sterujących
Maksymalizacja zysków z łowiska będącego podstawą egzystencji użytkownika z różnymi wypłatami końcowymi.
Analizujemy ponownie łowisko z zadania 11.5. Teraz zakładamy, że w chwili
Dane
a)
b)
znaleźć sterowanie i trajektorię spełniające warunki konieczne z zasady maksimum Pontriagina – twierdzenia 11.1.
W punkcie b) w rozwiązaniu równania na
W rozwiązaniu zadania 11.7b) pojawia się typowy w zagadnieniach wynikających ze stosowania zasady maksimum Pontriagina problem – rozwiązujemy układ równań na
Jak się należy spodziewać, może to powodować problemy, zwłaszcza kiedy nie widać rozwiązania analitycznego i trzeba liczyć numerycznie – trzeba używać zupełnie innych procedur niż dla rozwiązywania układów równań różniczkowych, w których mamy tylko warunki początkowe albo tylko końcowe.
Ponownie rozważamy zagadnienie Bolzy z ustalonym horyzontem czasowym
i ograniczeniu na sterowanie
Najprostszy warunek konieczny na to, aby mierzalne sterowanie
Niech funkcje
Jeśli natomiast
Dowód w przypadku, gdy maksimum hamiltonianu jest zawsze przyjmowane w punkcie wewnętrznym
Aby dowód był poprawny dla dowolnego punktu
Zauważmy, że założenia powyższego twierdzenia gwarantują wypukłość (wklęsłość) hamiltonianu względem
Niech funkcje
Jeszcze silniejszym warunkiem dostatecznym jest twierdzenie Arrowa, zaproponowane bez dowodu w [5] (później częściowo udowodnione przez Arrowa i Kurza w [4]; pełen dowód, nawet w bardziej ogólnej wersji przeprowadzili Seierstad i Sydsaeter w [37]).
Używamy w nim pojęcia Hamiltonianu zmaksymalizowanego
Niech funkcje
Najkrótsza droga łącząca zadany punkt początkowy w chwili
Sprawdzić dostateczność dla wcześniej wyliczonego rozwiązania ćwiczenia 11.1.
Sprawdzić dostateczność dla wcześniej wyliczonego rozwiązania ćwiczenia 11.2: liniowego zagadnienia maksymalizacji z
Sprawdzić dostateczność dla wcześniej wyliczonego rozwiązania ćwiczenia 11.3: maksymalizacji wypłaty z
Sprawdzić dostateczność dla wcześniej wyliczonego rozwiązania ćwiczenia 11.4 minimalizacji kosztu z
W problemach ekonomicznych przeważnie występuje czynnik dyskontujący. Jest to związane z tym, że ta sama złotówka otrzymana dziś i otrzymana za rok ma zupełnie inną wartość - choćby z tego powodu, że złotówkę otrzymaną dziś mogę włożyć na lokatę i za rok otrzymać więcej.
W modelach z czasem ciągłym czynnikiem dyskontującym jest
Liczba
Zagadnienie z dyskontowaniem ma postać
z warunkiem początkowym
i ograniczeniu na sterowanie
Możemy zastosować zwykłą zasadę maksimum Pontriagina.
Hamiltonian ma teraz postać
a warunek transwersalności
Nawet jeśli wyjściowe funkcje były niezależne od czasu, to teraz problem stał się nieautonomiczny – i to każde z równań, jak otrzymamy z zasady maksimum. A tak nie musi być.
Rozważyć zmienną dualną
Zapisać zasadę maksimum Pontriagina przy użyciu nowych zmiennych i podziwiać odzyskaną autonomiczność (kiedy wyjściowe funkcje były niezależne od
Równania na trajektorie stanu i kostanu oraz sterowanie dla problemu maksymalizacji (minimalizacji) będą miały w nowych zmiennych następującą postać:
(
W tym rozdziale sformułujemy warunki dostateczne na to, aby zadane sterowanie minimalizowało funkcjonał kosztu (lub maksymalizowało funkcjonał wypłaty) korzystające z oczywistego spostrzeżenia poczynionego przez Bellmana [10] – zasadę optymalności.
Polityka [strategia] optymalna ma tę własność, że jakikolwiek jest stan początkowy i początkowa decyzja, pozostałe decyzje muszą tworzyć politykę [strategię] optymalną ze względu na stan wynikły z pierwszej decyzji.
Metoda postępowania oparta na tej zasadzie, którą opiszemy w tym rozdziale została zaproponowana przez Bellmana [10] pod nazwą programowania dynamicznego.
Sformułujemy warunki dostateczne na to, żeby pewna funkcja zwracała nam wartość minimalną funkcjonału kosztu (bądź maksymalną funkcjonału wypłaty), a wyliczone sterowanie było sterowaniem optymalnym, dla zagadnienia Bolza ze swobodnym punktem końcowym (i ustalonym czasem końcowym).
Aby to zrobić, zaczniemy od pozornego utrudnienia – zamiast szukać jedynie rozwiązania zadanego problemu sterowania optymalnego, będziemy chcieli znaleźć rozwiązania dla całej klasy sterowań optymalnych, zawierających nasz wyjściowy problem.
Nie będą to zagadnienia sztuczne. Wyobraźmy sobie, że wybraliśmy sterowanie optymalne i stosujemy je. Upłynął pewien czas od początkowego
Dla tej klasy zagadnień będziemy szukać funkcji wartości – przypisującej parom
To pozorne utrudnienie bardzo nam jednak ułatwi znajdowanie optymalnego sterowania. Przy danej funkcji wartości sterowanie optymalne jest zdefiniowane przy pomocy rodziny statycznych zagadnień optymalizacji zależnych od funkcji wartości, określonych na zbiorze parametrów sterujących
Wprowadzimy pomocnicze oznaczenie – funkcja
Dla ustalenia uwagi, sformułujemy problem w wersji dla minimalizacji funkcjonału kosztu.
Funkcję
Przy użyciu tych oznaczeń możemy przeformułować zasadę optymalności jako:
jeśli
Sformułujemy również warunek dostateczny.
Jeśli funkcja
z warunkiem końcowym
to
a) dla każdego sterowania
b) Jeśli ponadto istnieje funkcja
a) Niech
Wówczas funkcja
Ponieważ nie mamy absolutnej ciągłości na całym przedziale
Jeśli teraz z otrzymaną nierównością przejdziemy do granicy przy
Ponieważ
b) Dla
Funkcja
Można też udowodnić wersję twierdzenia 11.5 bez ustalonego czasu końcowego – patrz na przykład Cesari [15] s. 502-505 lub Başar, Olsder [9] s. 236-237.
Rozwiązać przy pomocy równania Bellmana (z twierdzenia 11.5) problem minimalizacji kosztów z
Po wyliczeniu kandydata na
W przypadku, kiedy rozważamy nieskończony horyzont czasowy a zagadnienie jest autonomiczne, funkcja wartości przestaje być zależna od czasu. Dlatego też dla nieskończonego horyzontu czasowego twierdzenie o warunku dostatecznym ma prostszą postać.
Jeśli funkcja
z warunkiem końcowym
a) dla każdego sterowania
b) Jeśli ponadto istnieje funkcja
a) Wynika z zastosowania z twierdzenia 11.5 dla zagadnień optymalizacyjnych ze skończonym horyzontem czasowym
Bierzemy granicę dolną przy
b) Dla przypadku
Jeśli zbiór stanów jest jednowymiarowy, to zamiast równania cząstkowego w nieskończonym horyzoncie czasowym mamy równanie zwyczajne. Problemem jest jedynie warunek końcowy w nieskończoności – zwłaszcza dla obliczeń numerycznych.
Rozważyć problem minimalizacji kosztów z
Czy można skorzystać z z twierdzenia 11.6?
Rozważamy teraz zagadnienia minimalizacji funkcjonałów
Jeżeli potrakujemy czynnik dyskontujący jako dodatkową współrzędną zmiennej stanu, możemy zastosować odpowiednie wersje twierdzeń 11.5 i 11.6. Jednakże tak otrzymane równanie jest trudne w interpretacji i zbyt złożone. Dlatego dla zagadnień z dyskontowaniem formułuje się inną postać równania Bellmana.
Dla zagadnień z dyskontowaniem ponownie definiujemy nasze pomocnicze oznaczenie – funkcja
dla trajektorii
Interpretacja jest analogiczna jak w przypadku bez dyskontowania – do chwili
Wypisać i udowodnić zasadę maksimum dla zagadnienia z dyskontowaniem, tak aby otrzymać równość
a) przy skończonym horyzoncie czasowym ;
b) przy nieskończonym horyzoncie czasowym.
Można albo powtórzyć z niewielkimi zmianami schemat dowodowy dla zagadnienia bez dyskontowania, albo potraktować zagadnienie z dyskontowaniem jako zagadnienie autonomiczne z
Przy skończonym horyzoncie czasowym równania Bellmana ma postać
z warunkiem końcowym
Przy nieskończonym horyzoncie czasowym równanie Bellmana ma postać
z warunkiem końcowym
Rozważmy nasze zagadnienie maksymalizacji zysku z łowiska, tyle że teraz z nieskończonym horyzontem czasowym i dyskontowaniem:
Dane
Można to zrobić na co najmniej dwa sposoby:
1. założyć pewną pewną postać funkcji wartości (tu
2. ograniczyć się do pewnej klasy sterowań (tu sterowania stałe w czasie), znaleźć optimum w tej klasie i sprawdzić, czy spełnia równanie Bellmana;
3. poza tym przy rozwiązywaniu zagadnień z nieskończonym horyzontem czasowym można uzyskać funkcję wartości jako granicę funkcji wartości dla zagadnień ze skończonym horyzontem czasowym (choć w tym konkretnym wypadku nie jest to ułatwienie).
W tym podrozdziale przedstawimy model optymalizacji konsumpcji w cyklu życia przez racjonalnego konsumenta, czasem nazywany zagadnieniem wyboru międzyokresowego.
Ten sam model możemy też zastosować do optymalizacji wydatków budżetowych w ciągu roku budżetowego. Zaproponowany tu model stanowi uciągloną wersję przypadku dyskretnego, który można znaleźć w wielu podręcznikach makroekonomii.
Pan Kowalski uważa, że uważa, że będzie żył jeszcze
Jego bieżąca funkcja wypłaty (nazywana w tym kontekście bieżącą funkcją użyteczności) to
Konsumenci mogą korzystać z idealnego konta bankowego, o jednakowej dla kredytów i lokat stopie procentowej
Pan Kowalski chce zmaksymalizować użyteczność konsumpcji w cyklu życia, czyli
Stan konta w chwili
Parametrem sterującym jest wielkość konsumpcji
Cel
Pokazać, że pan Kowalski nic nie zamierza zabrać do grobu, czyli
Można to pokazać to bez odwoływania się do zasady maksimum. Zasada maksimum w wersji zapisanej w twierdzeniu 11.1 w tym wypadku nie działa ze względu na ograniczenia na stan końcowy.
a) Pokazać, że niezależnie jaką mierzalną funkcją jest
b) Pokazać równocześnie, że zależność pomiędzy
Aby obejść problem z nietypowym warunkiem końcowym można, korzystając z wyliczeń z ćwiczenia 11.21, potraktować to jako problem z ustalonym punktem końcowym – wówczas będzie zachodzić zasada maksimum bez warunku transwersalności na
Problem z ograniczeniem na wartość końcową zmiennej stanu można rozwiązać metodami podanymi w tym skrypcie, rozważając dwa przypadki – optymalizację bez tego ograniczenia (wówczas korzystamy z zasady maksimum z warunkiem transwersalności) i optymalizację z ustalonym punktem końcowym równym zadanemu ograniczeniu.
Istnieje także wiele gotowych wersji zasady maksimum dla zagadnień z ograczeniami na zmienną stanu (nie tylko wartość końcową) – zainteresowani mogą je znaleźć na przykład w opracowaniach Chiang [16] lub Hartl, Sethi, Vickson [22].
Model Nordhausa, przykład podany za Chiang [16].
Do następnych wyborów zostało
W tym uproszczonym modelu są tylko dwa parametry ekonomiczne związane ze sobą i wpływające na zadowolenie społeczeństwa pośrednio lub bezpośrednio kontrolowane przez rząd. Są to inflacja
W ogólnym przypadku zależność opisana krzywą Philipsa ma postać
Zakładamy ponadto tak zwane adaptacyjne oczekiwania,
czyli
Bieżące zadowolenie społeczeństwa mierzy funkcja
Podejmując decyzję wyborczą ludzie lepiej pamiętają to, co jest bliższe. To daje nietypowe ,,dyskontowanie” w funkcji maksymalizowanej:
Aby uprościć model, wyrugowujemy ze wzorów faktyczną inflację
zmaksymalizować
przy
z warunkiem początkowym
W tak przedefiniowanym równaniu zmienną stanu będzie
Aby uzyskać wyniki analityczne, Nordhaus analizował model liniowo-kwadratowy (liniowa dynamika, kwadratowa wklęsła funkcja wypłaty bieżącej). Potraktujemy jego model jako ćwiczenie.
Znaleźć optymalne sterowanie (poziom bezrobocia
Następnie obliczyć, jak zachowuje się faktyczna inflacja
Interpretacja ekonomiczna wyników ćwiczenia 11.23 i implikacje tychże w rzeczywistości.
Optymalne
Ten pierwszy fakt oznacza, że dla rządu kierującego się maksymalizacją funkcji wypłaty jak określona w ćwiczeniu 11.23 optymalne jest tuż po wyborach ustanowienie wysokiego poziomu bezrobocia, żeby było z czego schodzić. ,,Ustanowienie wysokiego poziomu bezrobocia” wynika z tego, że tylko po wyborach można pozwolić sobie na duszenie inflacji (podobnie jak i inne mało popularne, acz niezbędne reformy).
Tak naprawdę to przypominamy sobie, że bezrobocia rząd nie ustawia – jest ono skutkiem takiej a nie innej polityki monetarnej – czyli obniżenie bezrobocia jest skutkiem zwiększania inflacji. Jeśli pomyślimy o tym, że ten sam problem optymalizacji będzie miał miejsce po wyborach, to jasne jest, że potem ponosimy dodatkowe koszty – bo same oczekiwania inflacyjne zwiększają inflację, a duszenie inflacji powoduje wzrost bezrobocia…
A zatem potem mamy następne wybory i kolejny rząd ma wysokie
Warto dodać jeszcze ciekawostkę: krzywą Philipsa i polityczny cykl koniunkturalny potwierdzały dane empiryczne. Do czasu – ponieważ ludzie się uczą. Oczekiwania adaptacyjne z czasem zamieniły się na racjonalne (wiemy, jak działa rząd, więc jesteśmy w stanie wyliczyć faktyczną inflację będącą skutkiem jego działań), a dodruk pustych pieniędzy przestał wpływać na realny rynek, powodując jedynie inflację, bez wpływu na zmniejszenie bezrobocia.
Niestety, proceder nakręcania inflacji przed wyborami, o ile nie ma ograniczeń prawnych, często nadal ma miejsce.
Przykład podany za Chiang [16].
Koszt wydobycia ilości
Monopolista – posiadacz złoża chce zmaksymalizować łączne zdyskontowane zyski, czyli
Zazwyczaj
Równie oczywiste jest ograniczenie ,,z próżnego i Salomon nie naleje”, czyli jeśli
Model opisuje też dowolną sytuację wyprzedaży zapasów.
Rozwiązać problem wydobycia surowców nieodnawialnych przy
a) bez dyskontowania (
b) z dyskontowaniem (
Zagadnienie sterowania optymalnego tylko pozornie jest z ustalonym czasem końcowym i wolnym stanem końcowym – w chwili osiągnięcia
Mamy więc albo zagadnienie z wolnym czasem końcowym
W każdym z przypadków
a) Sterowanie optymalne jest stałe.
b) Sterowanie optymalne maleje w czasie.
Jak się zmieni rozwiązanie problemu znalezienia sterowania optymalnego dla wydobycia surowców nieodnawialnych przy
Rozważyć problem wydobycia surowców nieodnawialnych ze skończonym horyzontem czasowym
Wypisać warunek jaki musi spełniać iloraz pochodnych bieżącej funkcji wypłaty dla sterowania optymalnego w dwóch różnych momentach czasu
Co on implikuje, jeśli bieżąca funkcja wypłaty jest ściśle wklęsła?
W pojęciu eksploatacja surowców odnawialnych mieści się cała klasa zagadnień tzw. ekonomii ekologicznej, w której przedmiotem eksploatacji jest ekosystem lub jego część. Są to zagadnienia od jednowymiarowych do bardzo złożonych.
Najprostsze modele eksploatacji, w których mamy jedną zmienną stanu, jak na przykład populacja śledzia bałtyckiego albo powierzchnia lasu ignorują wielowymiarowy charakter zależności opisujących stan ekosystemu. Bardziej złożone biorą pod uwagę zależności pomiędzy gatunkami (na przykład interakcje drapieżnik-ofiara), a nawet strukturę wiekową populacji w ramach gatunku.
Zmienna stanu opisuje stan ecosystemu – jest to na przykład wektor, którego współrzędnymi są liczności osobników każdego z gatunków. Parametrem sterującym może być wielkość eksploatacji, albo np. nakłady na eksploatację.
Tym razem równanie stanu ma postać
Właściciel łowiska maksymalizuje łączną zdyskontowaną użyteczność eksploatacji
a)
b)
Funkcja
Rozwiązać problem wydobycia surowców odnawialnych będący modyfikacją modelu Hotellinga z ćwiczenia 11.24 (
Rozważyć dwa przypadki
a) bez dyskontowania (
b) z dyskontowaniem (
Przykładem zagadnienia wielowymiarowego jest sytuacja, gdy mamy dwa gatunki, a pomiędzy nimi trzy możliwe relacje: symbioza, konkurencja o wspólne źródło pokarmu i drapieżnik-ofiara.
Mamy dwa gatunki ryb, pomiędzy którymi zachodzą różne interakcje opisane układem równań
o ile
Rozważamy skończony horyzont czasowy
Dla uproszczenia zbiór parametrów sterujących ma postać
Liczba
Funkcja wypłaty bieżącej to
Znaleźć optymalne sterowanie i trajektorię.
Porównać optymalną trajektorię z odpowiedzią na
Treść automatycznie generowana z plików źródłowych LaTeXa za pomocą oprogramowania wykorzystującego LaTeXML.
strona główna | webmaster | o portalu | pomoc
© Wydział Matematyki, Informatyki i Mechaniki UW, 2009-2010. Niniejsze materiały są udostępnione bezpłatnie na licencji Creative Commons Uznanie autorstwa-Użycie niekomercyjne-Bez utworów zależnych 3.0 Polska.
Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu Społecznego.
Projekt współfinansowany przez Ministerstwo Nauki i Szkolnictwa Wyższego i przez Uniwersytet Warszawski.