Zagadnienia

9.1 Warunki drugiego rzędu
9.2 Podsumowanie
9.3 Przykład
9.4 Zadania

9. Warunki drugiego rzędu

W tym rozdziale przedstawimy warunki konieczne i dostateczne drugiego rzędu, tzn. warunki sformułowane w języku drugich pochodnych oraz podsumujemy dotychczasową wiedzę dotyczącą rozwiązywania problemów optymalizacyjnych z ograniczeniami mieszanymi.

9.1. Warunki drugiego rzędu

Rozważmy problem optymalizacyjny z ograniczeniami mieszanymi (8.1). Załóżmy, że pewnym punkcie x¯∈W spełniony jest warunek pierwszego rzędu, tzn. istnieją wektory μ∈0,∞m i λ∈Rl, takie że

D⁢f⁢x¯+∑i∈I⁢x¯μi⁢D⁢gi⁢x¯+∑j=1lλj⁢D⁢hj⁢x¯=0T,μi⁢gi⁢x¯=0,⁢i=1,2,…,m.

Definicja 9.1

Funkcją Lagrange'a nazywamy funkcję

L⁢x,μ,λ=f⁢x+∑i=1mμi⁢gi⁢x+∑j=1lλj⁢hj⁢x.

Możemy teraz zapisać warunek pierwszego rzędu w skróconej formie:

Dx⁢L⁢x¯,μ,λ=0T,⁢oraz⁢⁢μi⁢gi⁢x¯=0,⁢i=1,2,…,m,

gdzie Dx oznacza różniczkowanie względem zmiennej x∈Rn.

Definicja 9.2

Zbiór

I*⁢x¯=i∈I⁢x¯:⁢μi>0

nazywamy zbiorem ograniczeń nierównościowych mocno aktywnych.

Zbiór

I0⁢x¯=I⁢x¯∖I*⁢x¯

nazywamy zbiorem ograniczeń nierównościowych słabo aktywnych.

Twierdzenie 9.1 (Warunek konieczny drugiego rzędu)

Załóżmy, że punkt x¯ jest lokalnym rozwiązaniem problemu z ograniczeniami mieszanymi i spełniony jest w nim warunek liniowej niezależności. Niech μ, λ będą mnożnikami Lagrange'a z warunku pierwszego rzędu. Jeśli f, gi, i∈I⁢x¯ oraz hj, j=1,…,l, są klasy C2 w otoczeniu x¯, to

dT⁢Dx2⁢L⁢x¯,μ,λ⁢d≥0

dla każdego d∈Rn spełniającego

		D⁢gi⁢x¯⁢d=0,⁢i∈I⁢x¯,
		D⁢hj⁢x¯⁢d=0,⁢j=1,…,l.

Dowód

Ustalmy d∈Rn jak w warunkach twierdzenia. Na mocy twierdzenia 8.5 istnieje ε>0 i krzywa y:-ε,ε→Rn klasy C2 o następujących własnościach: y⁢0=x¯, y′⁢0=d, oraz dla t∈-ε,ε mamy hj⁢y⁢t=0, j=1,…,l, i gi⁢y⁢t=0, i∈I⁢x¯. Wynika stąd, że funkcja F⁢t:=L⁢y⁢t,μ,λ równa jest f⁢y⁢t dla t w otoczeniu 0. Z ciągłości ograniczeń nieaktywnych wnioskujemy, że y⁢t∈W dla t w otoczeniu 0. Zatem F ma minimum lokalne w 0, gdyż y⁢0 jest minimum lokalnym f na W. Na mocy założeń, F jest klasy C2. Istnienie minimum w zerze implikuje, że F′′⁢0≥0, a więc

0≤dT⁢Dx2⁢L⁢x¯,μ,λ⁢d+Dx⁢L⁢x¯,μ,λ⁢y′′⁢0.

To kończy dowód, gdyż w punkcie x¯ spełnione są warunki pierwszego rzędu: Dx⁢L⁢x¯,μ,λ=0T.

∎

Bez dowodu pozostawiamy następujące uogólnienie powyższego twierdzenia:

Twierdzenie 9.2

Przy założeniach tw. 9.1 następująca nierówność

dT⁢Dx2⁢L⁢x¯,μ,λ⁢d≥0

zachodzi dla każdego d∈Rn spełniającego

		D⁢gi⁢x¯⁢d=0,⁢i∈I*⁢x¯,
		D⁢gi⁢x¯⁢d≤0,⁢i∈I0⁢x¯,
		D⁢hj⁢x¯⁢d=0,⁢j=1,…,l.

Podamy teraz warunek dostateczny istnienia rozwiązania lokalnego. Zwróćmy uwagę na to, że warunek ten implikuje, iż rozwiązanie jest ścisłe. Pozostaje więc szara strefa, gdzie jest spełniony warunek konieczny drugiego rzędu, lecz nie zachodzi warunek dostateczny drugiego rzędu. Podobnie jak w przypadku optymalizacji bez ograniczeń, na to nie ma niestety rady.

Twierdzenie 9.3 (Warunek dostateczny drugiego rzędu)

Załóżmy, że w punkcie x¯∈W spełniony jest warunek pierwszego rzędu, tzn. istnieją wektory μ∈0,∞m i λ∈Rl, takie że

D⁢f⁢x¯+∑i∈I⁢x¯μi⁢D⁢gi⁢x¯+∑j=1lλj⁢D⁢hj⁢x¯=0T,μi⁢gi⁢x¯=0,⁢i=1,2,…,m.

(9.1)

Załóżmy ponadto, że funkcje gi, i∈I*⁢x¯, oraz hj, j=1,…,l, są dwukrotnie różniczkowalne w x¯. Jeśli

dT⁢Dx2⁢L⁢x¯,μ,λ⁢d>0

dla każdego d∈Rn∖0 spełniającego

D⁢gi⁢x¯⁢d=0,⁢i∈I*⁢x¯,D⁢gi⁢x¯⁢d≤0,⁢i∈I0⁢x¯,D⁢hj⁢x¯⁢d=0,⁢j=1,…,l,

(9.2)

to x¯ jest ścisłym rozwiązaniem lokalnym.

Zanim przejdziemy do dowodu podkreślmy, iż w powyższym twierdzeniu nie zakłada się regularności punktu ograniczeń.

Dowód twierdzenia 9.3

Przeprowadzimy dowód przez zaprzeczenie. Załóżmy mianowicie, że x¯ nie jest ścisłym rozwiązaniem lokalnym. Istnieje zatem ciąg punktów dopuszczalnych xk∈W, takich że xk≠x¯ oraz f⁢xk≤f⁢x¯. Zdefiniujmy

dk=xk-x¯xk-x¯,⁢oraz⁢⁢λk=xk-x¯.

Wówczas xk=x¯+λk⁢dk. Zauważmy, że limk→∞⁡λk=0. Z faktu dk=1 wynika, że istnieje podciąg dkn zbieżny do pewnego d o normie jednostkowej. Aby uprościć notację zakładamy, że od początku dk był zbieżny do d. Oczywiście z definicji λk wynika, że limk→∞⁡λk=0.

W dalszej części dowodu wykażemy dwie własności d: (a) dT⁢Dx2⁢L⁢x¯,μ,λ⁢d≤0 oraz (b) d spełnia warunki (9.2). A to przeczy założeniom twierdzenia.

Rozpocznijmy od dowodu własności (a). Z definicji drugiej pochodnej:

L⁢x,μ,λ=L⁢x¯,μ,λ+Dx⁢L⁢x¯,μ,λ⁢x-x¯+12⁢x-x¯T⁢Dx2⁢L⁢x¯,μ,λ⁢x-x¯+o⁢x-x¯2.

Przypomnijmy, że L⁢xk,μ,λ≤L⁢x¯,μ,λ, bo f⁢xk≤f⁢x¯ oraz gi⁢xk≤gi⁢x¯ dla i∈I⁢x¯. Z warunku pierwszego rzędu (9.1) wynika również, że Dx⁢L⁢x¯,μ,λ=0T. Zatem

xk-x¯T⁢Dx2⁢L⁢x¯,μ,λ⁢xk-x¯+o⁢xk-x¯2≤0.

Przypomnijmy, że xk=x¯+λk⁢dk. Wstawiając tą reprezentację do powyższego wzoru dostajemy:

λk2⁢dkT⁢Dx2⁢L⁢x¯,μ,λ⁢dk+o⁢λk2⁢dk2≤0.

Dzielimy obie strony przez λk2:

dkT⁢Dx2⁢L⁢x¯,μ,λ⁢dk+o⁢λk2⁢dk2λk2≤0.

Przypomnijmy, że dk=1. A zatem w granicy, gdy k→∞, drugi składnik powyższej sumy dąży do 0. Korzystając z faktu, że limk→∞⁡dk=d dostajemy

dT⁢Dx2⁢L⁢x¯,μ,λ⁢d≤0,

co kończy dowód faktu (a).

W dowodzie własności (b) zastosujemy podobne podejście jak powyżej. Z różniczkowalności funkcji f w punkcie x¯ mamy

f⁢xk=f⁢x¯+D⁢f⁢x¯⁢xk-x¯+o⁢xk-x¯.

Przypomnijmy, że f⁢xk≤f⁢x¯, co implikuje

D⁢f⁢x¯⁢xk-x¯+o⁢xk-x¯≤0.

Korzystając znów z reprezentacji xk=x¯+λk⁢dk dostajemy

D⁢f⁢x¯⁢dk+o⁢λk⁢dkλk≤0.

Zatem w granicy, przy k→∞, otrzymujemy D⁢f⁢x¯⁢d≤0. Zauważając, że gi⁢xk≤gi⁢x¯=0 dla i∈I⁢x¯ i postępując podobnie jak powyżej dostajemy D⁢gi⁢x¯⁢d≤0, i∈I⁢x¯. Analogicznie również dowodzimy, że D⁢hj⁢x¯⁢d=0 dla j=1,…,l.

Pomnóżmy obie strony pierwszej równości w (9.1) przez d:

D⁢f⁢x¯⁢d+∑i∈I⁢x¯μi⁢D⁢gi⁢x¯⁢d+∑j=1lλj⁢D⁢hj⁢x¯⁢d=0.

Suma ta składa się z wyrazów nieujemnych. Ponieważ sumują się one do zera, to wszystkie muszą być zerowe. W szczególności

D⁢f⁢x¯⁢d=0,⁢oraz⁢⁢D⁢gi⁢x¯⁢d=0,⁢i∈I*⁢x¯.

Dowiedliśmy zatem, że d spełnia warunki (9.2).

∎

9.2. Podsumowanie

Opiszemy teraz ogólny algorytm postępowania w przypadku rozwiązywania problemów optymalizacyjnych z ograniczeniami mieszanymi.

Krok 1. Szukamy punktów podejrzanych:

	A1={x∈X:	w punkcie x nie zachodzi warunek regularności},
	A2={x∈X:	w punkcie x zachodzi warunek regularności
		i spełnione są warunki pierwszego rzędu}.

Krok 2. Sprawdzamy, czy w punktach ze zbiorów A1,A2 spełnione są założenia tw. 7.6, tzw. warunki dostateczne pierwszego rzędu. Jeśli tak, to w punktach tych są rozwiązania globalne. Pozostałe kroki podejmujemy, jeśli

nie znaleźliśmy żadnego rozwiązania globalnego, lub
chcemy znaleźć wszystkie rozwiązania globalne, lub
chcemy znaleźć wszystkie rozwiązania lokalne.

Usuwamy ze zbiorów A1,A2 punkty, które są rozwiązaniami globalnymi. Oznaczmy nowe zbiory A1′,A2′.

Krok 3. Eliminujemy ze zbioru A2′ te punkty, gdzie nie zachodzi warunek konieczny drugiego rzędu. Pozostałe punkty oznaczamy A2′′.

Krok 4. W każdym punkcie ze zbioru A1′∩A2′′ sprawdzamy warunek dostateczny drugiego rzędu. Punkty, w których jest spełniony, są rozwiązaniami lokalnymi.

Krok 5. Optymalność punktów ze zbioru A1′∩A2′′, w których nie jest spełniony warunek dostateczny drugiego rzędu sprawdzamy innymi metodami.

9.3. Przykład

W tym podrozdziale opiszemy bardzo dokładnie rozwiązanie następującego problemu optymalizacyjnego:

x1-12+x22→min,2⁢k⁢x1-x22≤0,x=x1,x2∈R2,

gdzie k>0 jest parametrem.

Zauważmy, że w każdym punkcie, gdzie aktywne jest ograniczenie, spełniony jest warunek liniowej niezależności ograniczeń: pierwsza pochodna ograniczenia wynosi 2⁢k,-2⁢x2≠0T. Wynika stąd, że A1=∅.

Funkcja Lagrange'a dla powyższego problemu ma postać:

L⁢x1,x2;μ=x1-12+x22+μ⁢2⁢k⁢x1-x22.

Zapiszmy warunek pierwszego rzędu:

		2⁢x1-1,2⁢x2+μ⁢2⁢k,-2⁢x2=0T,		(9.3)
		μ⁢2⁢k⁢x1-x22=0,		(9.4)
		μ≥0.

Sprawdźmy, czy możliwe jest μ=0. Wówczas z równania (9.3) dostajemy

2⁢x1-1=0,⁢2⁢x2=0,

co pociąga x1=1, x2=0. Punkt ten nie jest dopuszczalny: nie spełnia warunku nierównościowego dla żadnego k>0. Wnioskujemy zatem, że μ>0 i warunek konieczny pierwszego rzędu może być spełniony tylko w punktach, w których ograniczenie nierównościowe jest aktywne:

2⁢k⁢x1-x22=0.

(9.5)

Rozpiszmy równanie (9.3):

x1-1+μ⁢k=0,x2-μ⁢x2=0.

Z drugiego równania wynika, że albo μ=1 albo x2=0. Jeśli x2=0, to z (9.5) dostajemy x1=0. Punkt 0,0 wraz z mnożnikiem Lagrange'a μ=1/k spełnia warunek pierwszego rzędu.

Rozważmy teraz przypadek μ=1. Wówczas z równania x1-1+μ⁢k=0 dostajemy x1=1-k. Jeśli k>1, to x1<0 i równanie (9.5) nie ma rozwiązania. Dla k=1 dostajemy punkt 0,0, zaś dla k∈0,1 dwa punkty

x1=1-k,⁢x2=±2⁢k⁢1-k.

Podsumowując: A1=∅ oraz

		A2=0,0⁢⁢dla⁢⁢k≥1,
		A2=0,0,1-k,2⁢k⁢1-k,1-k,-2⁢k⁢1-k⁢⁢dla⁢⁢0<k<1.

Funkcja g1⁢x1,x2=2⁢k⁢x1-x22 nie jest quasi-wypukła, wiec nie możemy skorzystać z twierdzenia 7.6 stwierdzającego dostateczność warunku pierwszego rzędu. Zatem A2′=A2.

Przechodzimy do kroku 3 i sprawdzamy warunek konieczny drugiego rzędu dla punktów z A2′. Rozważmy najpierw punkt 0,0. Odpowiada mu mnożnik Lagrange'a μ=1/k. Pierwsza pochodna funkcji Lagrange'a ma postać:

DxL(x1,x2,1/k)=[(2(x1-1)+2,2x2(1-1k)].

Macierz drugich pochodnych to;

Dx2⁢L⁢x1,x2,1/k=2,00,2⁢1-1k.

Na mocy twierdzenia wystarczy sprawdzić, że

dT⁢2,00,2⁢1-1k⁢d≥0

dla wektorów d∈R2∖0 spełniających D⁢g1⁢0,0⁢d=2⁢k,0⁢d=0, czyli takich że d1=0. Wstawiając do powyższej nierówności dostajemy 1-1k⁢d22≥0. Nierówność ta zachodzi dla k≥1: w punkcie 0,0 może być rozwiązanie lokalne. Dla k<1 nierówność nie zachodzi, więc w 0,0 nie ma rozwiązania lokalnego.

Załóżmy teraz 0<k<1 i rozważmy dwa pozostałe punkty. W obu przypadkach mnożnik Lagrange'a μ=1. Mamy zatem

		DxL(x1,x2,1)=[(2(x1-1)+2k,0],
		Dx2⁢L⁢x1,x2,1=2,00,0.

Macierz drugich pochodnych jest nieujemnie określona, więc warunek konieczny drugiego rzędu jest spełniony w obu punktach. Podsumowując:

		A2′′=0,0⁢⁢dla⁢⁢k≥1,
		A2′′=1-k,2⁢k⁢1-k,1-k,-2⁢k⁢1-k⁢⁢dla⁢⁢0<k<1.

Przechodzimy do sprawdzenia warunku dostatecznego drugiego rzędu. W przypadku k>1 macierz drugich pochodnych funkcji Lagrange'a jest dodatnio określona, więc na mocy tw. 9.3 w punkcie 0,0 jest ścisłe rozwiązanie lokalne. Niestety nie możemy nic powiedzieć o punkcie 0,0, gdy k=1.

Rozważmy przypadek 0<k<1. Zajmijmy się punktem x¯=1-k,2⁢k⁢1-k. Musimy sprawdzić warunki tw. 9.3:

dT⁢2,00,0⁢d=2⁢d12>0

dla d∈R2∖0 spełniającego 2⁢k,-2⁢2⁢k⁢1-k⁢d=0, czyli d1=1k⁢2⁢k⁢1-k⁢d2. A zatem jeśli d≠0, to d1≠0 i w punkcie x¯ spełniony jest warunek dostateczny drugiego rzędu: x¯ jest ścisłym rozwiązaniem lokalnym. Analogicznie dowodzimy, że punkt 1-k,-2⁢k⁢1-k jest również ścisłym rozwiązaniem lokalnym.

Pozostaje jeszcze przypadek k=1. Choć 0,0 jest rozwiązaniem globalnym, to nie udało nam się tego pokazać korzystając z teorii Kuhna-Tuckera. Łatwo można to jednak udowodnić bezpośrednio.

9.4. Zadania

Ćwiczenie 9.1

Rozwiąż geometrycznie i analitycznie zadanie minimalizacji x2 na zbiorze W=x1,x2:⁢x1+x2≥2,⁢x12+x22≤2.

Ćwiczenie 9.2

Niech A będzie macierzą m×n o pełnym rzędzie (tzn. o rzędzie równym min⁡m,n). Udowodnij, że rzut na jądro ker⁡A jest przekształceniem liniowym zadanym wzorem

I-AT⁢A⁢AT-1⁢A.

W dowodzie wykorzystaj fakt, że rzeczony rzut, to taki punkt zbioru ker⁡A, który jest najmniej oddalony od rzutowanego punktu.

Ćwiczenie 9.3

$Rysunek pomocniczy do zadania \ref{exe:ch9:statek}$

Rys. 9.1. Położenie punktów pomiarowych.

Na brzegu będącym prostym odcinkiem co 500 metrów stoją trzy stacje pomiarowe, patrz rys. 9.1. Każda z nich mierzy kąt między prostą prostopadłą do brzegu a prostą przechodzącą przez punkt pomiarowy i statek. Wyniki obserwacji są następujące:

α~1=0.083,⁢α~2=0.024,⁢α~3=-0.017.

Pomiary te są obarczone małymi błędami. Skoryguj je tak, aby były zgodne tzn. wskazywały na ten sam punkt na płaszczyźnie i korekta była jak najmniejsza w sensie średniokwadratowym (suma kwadratów różnic pomiędzy zmierzonymi kątami i skorygowanymi kątami). Znajdź położenie statku względem punktów pomiarowych. W obliczeniach przyjmij, że t⁢g⁢α≈α dla małych kątów α.

Ćwiczenie 9.4

Metalowa belka ma przekrój trapezoidalny. Pole tego przekroju ze względów wytrzymałościowych musi wynosić S. Górna i boczna powierzchnia musi zostać zabezpieczona antykorozyjnie. Ustal tak kształt przekroju, aby powierzchnia do zabezpieczenia antykorozyjnego była jak najmniejsza.

Treść automatycznie generowana z plików źródłowych LaTeXa za pomocą oprogramowania wykorzystującego LaTeXML.

Optymalizacja II