9.1. Warunki drugiego rzędu
Rozważmy problem optymalizacyjny z ograniczeniami mieszanymi (8.1). Załóżmy, że pewnym punkcie x¯∈W spełniony jest warunek pierwszego rzędu, tzn. istnieją wektory μ∈0,∞m i λ∈Rl, takie że
| Dfx¯+∑i∈Ix¯μiDgix¯+∑j=1lλjDhjx¯=0T,μigix¯=0,i=1,2,…,m. | |
Definicja 9.1
Funkcją Lagrange'a nazywamy funkcję
| Lx,μ,λ=fx+∑i=1mμigix+∑j=1lλjhjx. | |
Możemy teraz zapisać warunek pierwszego rzędu w skróconej formie:
| DxLx¯,μ,λ=0T,orazμigix¯=0,i=1,2,…,m, | |
gdzie Dx oznacza różniczkowanie względem zmiennej x∈Rn.
Definicja 9.2
Zbiór
nazywamy zbiorem ograniczeń nierównościowych mocno aktywnych.
Zbiór
nazywamy zbiorem ograniczeń nierównościowych słabo aktywnych.
Twierdzenie 9.1 (Warunek konieczny drugiego rzędu)
Załóżmy, że punkt x¯ jest lokalnym rozwiązaniem problemu z ograniczeniami mieszanymi i spełniony jest w nim warunek liniowej niezależności. Niech μ, λ będą mnożnikami Lagrange'a z warunku pierwszego rzędu. Jeśli f, gi, i∈Ix¯ oraz hj, j=1,…,l, są klasy C2 w otoczeniu x¯, to
dla każdego d∈Rn spełniającego
| | Dgix¯d=0,i∈Ix¯, | |
| | Dhjx¯d=0,j=1,…,l. | |
Dowód
Ustalmy d∈Rn jak w warunkach twierdzenia. Na mocy twierdzenia 8.5 istnieje ε>0 i krzywa y:-ε,ε→Rn klasy C2 o następujących własnościach: y0=x¯, y′0=d, oraz dla t∈-ε,ε mamy hjyt=0, j=1,…,l, i giyt=0, i∈Ix¯. Wynika stąd, że funkcja Ft:=Lyt,μ,λ równa jest fyt dla t w otoczeniu 0. Z ciągłości ograniczeń nieaktywnych wnioskujemy, że yt∈W dla t w otoczeniu 0. Zatem F ma minimum lokalne w 0, gdyż y0 jest minimum lokalnym f na W. Na mocy założeń, F jest klasy C2. Istnienie minimum w zerze implikuje, że F′′0≥0, a więc
| 0≤dTDx2Lx¯,μ,λd+DxLx¯,μ,λy′′0. | |
To kończy dowód, gdyż w punkcie x¯ spełnione są warunki pierwszego rzędu: DxLx¯,μ,λ=0T.
∎
Bez dowodu pozostawiamy następujące uogólnienie powyższego twierdzenia:
Twierdzenie 9.2
Przy założeniach tw. 9.1 następująca nierówność
zachodzi dla każdego d∈Rn spełniającego
| | Dgix¯d=0,i∈I*x¯, | |
| | Dgix¯d≤0,i∈I0x¯, | |
| | Dhjx¯d=0,j=1,…,l. | |
Podamy teraz warunek dostateczny istnienia rozwiązania lokalnego. Zwróćmy uwagę na to, że warunek ten implikuje, iż rozwiązanie jest ścisłe. Pozostaje więc szara strefa, gdzie jest spełniony warunek konieczny drugiego rzędu, lecz nie zachodzi warunek dostateczny drugiego rzędu. Podobnie jak w przypadku optymalizacji bez ograniczeń, na to nie ma niestety rady.
Twierdzenie 9.3 (Warunek dostateczny drugiego rzędu)
Załóżmy, że w punkcie x¯∈W spełniony jest warunek pierwszego rzędu, tzn. istnieją wektory μ∈0,∞m i λ∈Rl, takie że
| Dfx¯+∑i∈Ix¯μiDgix¯+∑j=1lλjDhjx¯=0T,μigix¯=0,i=1,2,…,m. | | (9.1) |
Załóżmy ponadto, że funkcje gi, i∈I*x¯, oraz hj, j=1,…,l, są dwukrotnie różniczkowalne w x¯. Jeśli
dla każdego d∈Rn∖0 spełniającego
| Dgix¯d=0,i∈I*x¯,Dgix¯d≤0,i∈I0x¯,Dhjx¯d=0,j=1,…,l, | | (9.2) |
to x¯ jest ścisłym rozwiązaniem lokalnym.
Zanim przejdziemy do dowodu podkreślmy, iż w powyższym twierdzeniu nie zakłada się regularności punktu ograniczeń.
Dowód twierdzenia 9.3
Przeprowadzimy dowód przez zaprzeczenie. Załóżmy mianowicie, że x¯ nie jest ścisłym rozwiązaniem lokalnym. Istnieje zatem ciąg punktów dopuszczalnych xk∈W, takich że xk≠x¯ oraz fxk≤fx¯. Zdefiniujmy
| dk=xk-x¯xk-x¯,orazλk=xk-x¯. | |
Wówczas xk=x¯+λkdk. Zauważmy, że limk→∞λk=0. Z faktu dk=1 wynika, że istnieje podciąg dkn zbieżny do pewnego d o normie jednostkowej. Aby uprościć notację zakładamy, że od początku dk był zbieżny do d. Oczywiście z definicji λk wynika, że limk→∞λk=0.
W dalszej części dowodu wykażemy dwie własności d: (a) dTDx2Lx¯,μ,λd≤0 oraz (b) d spełnia warunki (9.2). A to przeczy założeniom twierdzenia.
Rozpocznijmy od dowodu własności (a). Z definicji drugiej pochodnej:
| Lx,μ,λ=Lx¯,μ,λ+DxLx¯,μ,λx-x¯+12x-x¯TDx2Lx¯,μ,λx-x¯+ox-x¯2. | |
Przypomnijmy, że Lxk,μ,λ≤Lx¯,μ,λ, bo fxk≤fx¯ oraz gixk≤gix¯ dla i∈Ix¯. Z warunku pierwszego rzędu (9.1) wynika również, że DxLx¯,μ,λ=0T. Zatem
| xk-x¯TDx2Lx¯,μ,λxk-x¯+oxk-x¯2≤0. | |
Przypomnijmy, że xk=x¯+λkdk. Wstawiając tą reprezentację do powyższego wzoru dostajemy:
| λk2dkTDx2Lx¯,μ,λdk+oλk2dk2≤0. | |
Dzielimy obie strony przez λk2:
| dkTDx2Lx¯,μ,λdk+oλk2dk2λk2≤0. | |
Przypomnijmy, że dk=1. A zatem w granicy, gdy k→∞, drugi składnik powyższej sumy dąży do 0. Korzystając z faktu, że limk→∞dk=d dostajemy
co kończy dowód faktu (a).
W dowodzie własności (b) zastosujemy podobne podejście jak powyżej. Z różniczkowalności funkcji f w punkcie x¯ mamy
| fxk=fx¯+Dfx¯xk-x¯+oxk-x¯. | |
Przypomnijmy, że fxk≤fx¯, co implikuje
Korzystając znów z reprezentacji xk=x¯+λkdk dostajemy
Zatem w granicy, przy k→∞, otrzymujemy Dfx¯d≤0. Zauważając, że gixk≤gix¯=0 dla i∈Ix¯ i postępując podobnie jak powyżej dostajemy Dgix¯d≤0, i∈Ix¯. Analogicznie również dowodzimy, że Dhjx¯d=0 dla j=1,…,l.
Pomnóżmy obie strony pierwszej równości w (9.1) przez d:
| Dfx¯d+∑i∈Ix¯μiDgix¯d+∑j=1lλjDhjx¯d=0. | |
Suma ta składa się z wyrazów nieujemnych. Ponieważ sumują się one do zera, to wszystkie muszą być zerowe. W szczególności
| Dfx¯d=0,orazDgix¯d=0,i∈I*x¯. | |
Dowiedliśmy zatem, że d spełnia warunki (9.2).
∎
9.2. Podsumowanie
Opiszemy teraz ogólny algorytm postępowania w przypadku rozwiązywania problemów optymalizacyjnych z ograniczeniami mieszanymi.
Krok 1. Szukamy punktów podejrzanych:
| A1={x∈X: | w punkcie x nie zachodzi warunek regularności}, | |
| A2={x∈X: | w punkcie x zachodzi warunek regularności | |
| | i spełnione są warunki pierwszego rzędu}. | |
Krok 2. Sprawdzamy, czy w punktach ze zbiorów A1,A2 spełnione są założenia tw. 7.6, tzw. warunki dostateczne pierwszego rzędu. Jeśli tak, to w punktach tych są rozwiązania globalne. Pozostałe kroki podejmujemy, jeśli
-
nie znaleźliśmy żadnego rozwiązania globalnego, lub
-
chcemy znaleźć wszystkie rozwiązania globalne, lub
-
chcemy znaleźć wszystkie rozwiązania lokalne.
Usuwamy ze zbiorów A1,A2 punkty, które są rozwiązaniami globalnymi. Oznaczmy nowe zbiory A1′,A2′.
Krok 3. Eliminujemy ze zbioru A2′ te punkty, gdzie nie zachodzi warunek konieczny drugiego rzędu. Pozostałe punkty oznaczamy A2′′.
Krok 4. W każdym punkcie ze zbioru A1′∩A2′′ sprawdzamy warunek dostateczny drugiego rzędu. Punkty, w których jest spełniony, są rozwiązaniami lokalnymi.
Krok 5. Optymalność punktów ze zbioru A1′∩A2′′, w których nie jest spełniony warunek dostateczny drugiego rzędu sprawdzamy innymi metodami.
9.3. Przykład
W tym podrozdziale opiszemy bardzo dokładnie rozwiązanie następującego problemu optymalizacyjnego:
| x1-12+x22→min,2kx1-x22≤0,x=x1,x2∈R2, | |
gdzie k>0 jest parametrem.
Zauważmy, że w każdym punkcie, gdzie aktywne jest ograniczenie, spełniony jest warunek liniowej niezależności ograniczeń: pierwsza pochodna ograniczenia wynosi 2k,-2x2≠0T. Wynika stąd, że A1=∅.
Funkcja Lagrange'a dla powyższego problemu ma postać:
| Lx1,x2;μ=x1-12+x22+μ2kx1-x22. | |
Zapiszmy warunek pierwszego rzędu:
| | 2x1-1,2x2+μ2k,-2x2=0T, | | (9.3) |
| | μ2kx1-x22=0, | | (9.4) |
| | μ≥0. | |
Sprawdźmy, czy możliwe jest μ=0. Wówczas z równania (9.3) dostajemy
co pociąga x1=1, x2=0. Punkt ten nie jest dopuszczalny: nie spełnia warunku nierównościowego dla żadnego k>0. Wnioskujemy zatem, że μ>0 i warunek konieczny pierwszego rzędu może być spełniony tylko w punktach, w których ograniczenie nierównościowe jest aktywne:
Rozpiszmy równanie (9.3):
Z drugiego równania wynika, że albo μ=1 albo x2=0. Jeśli x2=0, to z (9.5) dostajemy x1=0. Punkt 0,0 wraz z mnożnikiem Lagrange'a μ=1/k spełnia warunek pierwszego rzędu.
Rozważmy teraz przypadek μ=1. Wówczas z równania x1-1+μk=0 dostajemy x1=1-k. Jeśli k>1, to x1<0 i równanie (9.5) nie ma rozwiązania. Dla k=1 dostajemy punkt 0,0, zaś dla k∈0,1 dwa punkty
Podsumowując: A1=∅ oraz
| | A2=0,0dlak≥1, | |
| | A2=0,0,1-k,2k1-k,1-k,-2k1-kdla0<k<1. | |
Funkcja g1x1,x2=2kx1-x22 nie jest quasi-wypukła, wiec nie możemy skorzystać z twierdzenia 7.6 stwierdzającego dostateczność warunku pierwszego rzędu. Zatem A2′=A2.
Przechodzimy do kroku 3 i sprawdzamy warunek konieczny drugiego rzędu dla punktów z A2′. Rozważmy najpierw punkt 0,0. Odpowiada mu mnożnik Lagrange'a μ=1/k. Pierwsza pochodna funkcji Lagrange'a ma postać:
| DxL(x1,x2,1/k)=[(2(x1-1)+2,2x2(1-1k)]. | |
Macierz drugich pochodnych to;
| Dx2Lx1,x2,1/k=2,00,21-1k. | |
Na mocy twierdzenia wystarczy sprawdzić, że
dla wektorów d∈R2∖0 spełniających Dg10,0d=2k,0d=0, czyli takich że d1=0. Wstawiając do powyższej nierówności dostajemy 1-1kd22≥0. Nierówność ta zachodzi dla k≥1: w punkcie 0,0 może być rozwiązanie lokalne. Dla k<1 nierówność nie zachodzi, więc w 0,0 nie ma rozwiązania lokalnego.
Załóżmy teraz 0<k<1 i rozważmy dwa pozostałe punkty. W obu przypadkach mnożnik Lagrange'a μ=1. Mamy zatem
| | DxL(x1,x2,1)=[(2(x1-1)+2k,0], | |
| | Dx2Lx1,x2,1=2,00,0. | |
Macierz drugich pochodnych jest nieujemnie określona, więc warunek konieczny drugiego rzędu jest spełniony w obu punktach. Podsumowując:
| | A2′′=0,0dlak≥1, | |
| | A2′′=1-k,2k1-k,1-k,-2k1-kdla0<k<1. | |
Przechodzimy do sprawdzenia warunku dostatecznego drugiego rzędu. W przypadku k>1 macierz drugich pochodnych funkcji Lagrange'a jest dodatnio określona, więc na mocy tw. 9.3 w punkcie 0,0 jest ścisłe rozwiązanie lokalne. Niestety nie możemy nic powiedzieć o punkcie 0,0, gdy k=1.
Rozważmy przypadek 0<k<1. Zajmijmy się punktem x¯=1-k,2k1-k. Musimy sprawdzić warunki tw. 9.3:
dla d∈R2∖0 spełniającego 2k,-22k1-kd=0, czyli d1=1k2k1-kd2. A zatem jeśli d≠0, to d1≠0 i w punkcie x¯ spełniony jest warunek dostateczny drugiego rzędu: x¯ jest ścisłym rozwiązaniem lokalnym. Analogicznie dowodzimy, że punkt 1-k,-2k1-k jest również ścisłym rozwiązaniem lokalnym.
Pozostaje jeszcze przypadek k=1. Choć 0,0 jest rozwiązaniem globalnym, to nie udało nam się tego pokazać korzystając z teorii Kuhna-Tuckera. Łatwo można to jednak udowodnić bezpośrednio.
9.4. Zadania
Ćwiczenie 9.1
Rozwiąż geometrycznie i analitycznie zadanie minimalizacji x2 na zbiorze W=x1,x2:x1+x2≥2,x12+x22≤2.
Ćwiczenie 9.2
Niech A będzie macierzą m×n o pełnym rzędzie (tzn. o rzędzie równym minm,n). Udowodnij, że rzut na jądro kerA jest przekształceniem liniowym zadanym wzorem
W dowodzie wykorzystaj fakt, że rzeczony rzut, to taki punkt zbioru kerA, który jest najmniej oddalony od rzutowanego punktu.
Ćwiczenie 9.3
Na brzegu będącym prostym odcinkiem co 500 metrów stoją trzy stacje pomiarowe, patrz rys. 9.1. Każda z nich mierzy kąt między prostą prostopadłą do brzegu a prostą przechodzącą przez punkt pomiarowy i statek. Wyniki obserwacji są następujące:
| α~1=0.083,α~2=0.024,α~3=-0.017. | |
Pomiary te są obarczone małymi błędami. Skoryguj je tak, aby były zgodne tzn. wskazywały na ten sam punkt na płaszczyźnie i korekta była jak najmniejsza w sensie średniokwadratowym (suma kwadratów różnic pomiędzy zmierzonymi kątami i skorygowanymi kątami). Znajdź położenie statku względem punktów pomiarowych. W obliczeniach przyjmij, że tgα≈α dla małych kątów α.
Ćwiczenie 9.4
Metalowa belka ma przekrój trapezoidalny. Pole tego przekroju ze względów wytrzymałościowych musi wynosić S. Górna i boczna powierzchnia musi zostać zabezpieczona antykorozyjnie. Ustal tak kształt przekroju, aby powierzchnia do zabezpieczenia antykorozyjnego była jak najmniejsza.