Zagadnienia

9. Warunki drugiego rzędu

W tym rozdziale przedstawimy warunki konieczne i dostateczne drugiego rzędu, tzn. warunki sformułowane w języku drugich pochodnych oraz podsumujemy dotychczasową wiedzę dotyczącą rozwiązywania problemów optymalizacyjnych z ograniczeniami mieszanymi.

9.1. Warunki drugiego rzędu

Rozważmy problem optymalizacyjny z ograniczeniami mieszanymi (8.1). Załóżmy, że pewnym punkcie x¯W spełniony jest warunek pierwszego rzędu, tzn. istnieją wektory μ0,m i λRl, takie że

Dfx¯+iIx¯μiDgix¯+j=1lλjDhjx¯=0T,μigix¯=0,i=1,2,,m.
Definicja 9.1

Funkcją Lagrange'a nazywamy funkcję

Lx,μ,λ=fx+i=1mμigix+j=1lλjhjx.

Możemy teraz zapisać warunek pierwszego rzędu w skróconej formie:

DxLx¯,μ,λ=0T,orazμigix¯=0,i=1,2,,m,

gdzie Dx oznacza różniczkowanie względem zmiennej xRn.

Definicja 9.2

Zbiór

I*x¯=iIx¯:μi>0

nazywamy zbiorem ograniczeń nierównościowych mocno aktywnych.

Zbiór

I0x¯=Ix¯I*x¯

nazywamy zbiorem ograniczeń nierównościowych słabo aktywnych.

Twierdzenie 9.1 (Warunek konieczny drugiego rzędu)

Załóżmy, że punkt x¯ jest lokalnym rozwiązaniem problemu z ograniczeniami mieszanymi i spełniony jest w nim warunek liniowej niezależności. Niech μ, λ będą mnożnikami Lagrange'a z warunku pierwszego rzędu. Jeśli f, gi, iIx¯ oraz hj, j=1,,l, są klasy C2 w otoczeniu x¯, to

dTDx2Lx¯,μ,λd0

dla każdego dRn spełniającego

Dgix¯d=0,iIx¯,
Dhjx¯d=0,j=1,,l.
Dowód

Ustalmy dRn jak w warunkach twierdzenia. Na mocy twierdzenia 8.5 istnieje ε>0 i krzywa y:-ε,εRn klasy C2 o następujących własnościach: y0=x¯, y0=d, oraz dla t-ε,ε mamy hjyt=0, j=1,,l, i giyt=0, iIx¯. Wynika stąd, że funkcja Ft:=Lyt,μ,λ równa jest fyt dla t w otoczeniu 0. Z ciągłości ograniczeń nieaktywnych wnioskujemy, że ytW dla t w otoczeniu 0. Zatem F ma minimum lokalne w 0, gdyż y0 jest minimum lokalnym f na W. Na mocy założeń, F jest klasy C2. Istnienie minimum w zerze implikuje, że F′′00, a więc

0dTDx2Lx¯,μ,λd+DxLx¯,μ,λy′′0.

To kończy dowód, gdyż w punkcie x¯ spełnione są warunki pierwszego rzędu: DxLx¯,μ,λ=0T.

Bez dowodu pozostawiamy następujące uogólnienie powyższego twierdzenia:

Twierdzenie 9.2

Przy założeniach tw. 9.1 następująca nierówność

dTDx2Lx¯,μ,λd0

zachodzi dla każdego dRn spełniającego

Dgix¯d=0,iI*x¯,
Dgix¯d0,iI0x¯,
Dhjx¯d=0,j=1,,l.

Podamy teraz warunek dostateczny istnienia rozwiązania lokalnego. Zwróćmy uwagę na to, że warunek ten implikuje, iż rozwiązanie jest ścisłe. Pozostaje więc szara strefa, gdzie jest spełniony warunek konieczny drugiego rzędu, lecz nie zachodzi warunek dostateczny drugiego rzędu. Podobnie jak w przypadku optymalizacji bez ograniczeń, na to nie ma niestety rady.

Twierdzenie 9.3 (Warunek dostateczny drugiego rzędu)

Załóżmy, że w punkcie x¯W spełniony jest warunek pierwszego rzędu, tzn. istnieją wektory μ0,m i λRl, takie że

Dfx¯+iIx¯μiDgix¯+j=1lλjDhjx¯=0T,μigix¯=0,i=1,2,,m.(9.1)

Załóżmy ponadto, że funkcje gi, iI*x¯, oraz hj, j=1,,l, są dwukrotnie różniczkowalne w x¯. Jeśli

dTDx2Lx¯,μ,λd>0

dla każdego dRn0 spełniającego

Dgix¯d=0,iI*x¯,Dgix¯d0,iI0x¯,Dhjx¯d=0,j=1,,l,(9.2)

to x¯ jest ścisłym rozwiązaniem lokalnym.

Zanim przejdziemy do dowodu podkreślmy, iż w powyższym twierdzeniu nie zakłada się regularności punktu ograniczeń.

Dowód twierdzenia 9.3

Przeprowadzimy dowód przez zaprzeczenie. Załóżmy mianowicie, że x¯ nie jest ścisłym rozwiązaniem lokalnym. Istnieje zatem ciąg punktów dopuszczalnych xkW, takich że xkx¯ oraz fxkfx¯. Zdefiniujmy

dk=xk-x¯xk-x¯,orazλk=xk-x¯.

Wówczas xk=x¯+λkdk. Zauważmy, że limkλk=0. Z faktu dk=1 wynika, że istnieje podciąg dkn zbieżny do pewnego d o normie jednostkowej. Aby uprościć notację zakładamy, że od początku dk był zbieżny do d. Oczywiście z definicji λk wynika, że limkλk=0.

W dalszej części dowodu wykażemy dwie własności d: (a) dTDx2Lx¯,μ,λd0 oraz (b) d spełnia warunki (9.2). A to przeczy założeniom twierdzenia.

Rozpocznijmy od dowodu własności (a). Z definicji drugiej pochodnej:

Lx,μ,λ=Lx¯,μ,λ+DxLx¯,μ,λx-x¯+12x-x¯TDx2Lx¯,μ,λx-x¯+ox-x¯2.

Przypomnijmy, że Lxk,μ,λLx¯,μ,λ, bo fxkfx¯ oraz gixkgix¯ dla iIx¯. Z warunku pierwszego rzędu (9.1) wynika również, że DxLx¯,μ,λ=0T. Zatem

xk-x¯TDx2Lx¯,μ,λxk-x¯+oxk-x¯20.

Przypomnijmy, że xk=x¯+λkdk. Wstawiając tą reprezentację do powyższego wzoru dostajemy:

λk2dkTDx2Lx¯,μ,λdk+oλk2dk20.

Dzielimy obie strony przez λk2:

dkTDx2Lx¯,μ,λdk+oλk2dk2λk20.

Przypomnijmy, że dk=1. A zatem w granicy, gdy k, drugi składnik powyższej sumy dąży do 0. Korzystając z faktu, że limkdk=d dostajemy

dTDx2Lx¯,μ,λd0,

co kończy dowód faktu (a).

W dowodzie własności (b) zastosujemy podobne podejście jak powyżej. Z różniczkowalności funkcji f w punkcie x¯ mamy

fxk=fx¯+Dfx¯xk-x¯+oxk-x¯.

Przypomnijmy, że fxkfx¯, co implikuje

Dfx¯xk-x¯+oxk-x¯0.

Korzystając znów z reprezentacji xk=x¯+λkdk dostajemy

Dfx¯dk+oλkdkλk0.

Zatem w granicy, przy k, otrzymujemy Dfx¯d0. Zauważając, że gixkgix¯=0 dla iIx¯ i postępując podobnie jak powyżej dostajemy Dgix¯d0, iIx¯. Analogicznie również dowodzimy, że Dhjx¯d=0 dla j=1,,l.

Pomnóżmy obie strony pierwszej równości w (9.1) przez d:

Dfx¯d+iIx¯μiDgix¯d+j=1lλjDhjx¯d=0.

Suma ta składa się z wyrazów nieujemnych. Ponieważ sumują się one do zera, to wszystkie muszą być zerowe. W szczególności

Dfx¯d=0,orazDgix¯d=0,iI*x¯.

Dowiedliśmy zatem, że d spełnia warunki (9.2).

9.2. Podsumowanie

Opiszemy teraz ogólny algorytm postępowania w przypadku rozwiązywania problemów optymalizacyjnych z ograniczeniami mieszanymi.

Krok 1. Szukamy punktów podejrzanych:

A1={xX:w punkcie x nie zachodzi warunek regularności},
A2={xX:w punkcie x zachodzi warunek regularności
i spełnione są warunki pierwszego rzędu}.

Krok 2. Sprawdzamy, czy w punktach ze zbiorów A1,A2 spełnione są założenia tw. 7.6, tzw. warunki dostateczne pierwszego rzędu. Jeśli tak, to w punktach tych są rozwiązania globalne. Pozostałe kroki podejmujemy, jeśli

  • nie znaleźliśmy żadnego rozwiązania globalnego, lub

  • chcemy znaleźć wszystkie rozwiązania globalne, lub

  • chcemy znaleźć wszystkie rozwiązania lokalne.

Usuwamy ze zbiorów A1,A2 punkty, które są rozwiązaniami globalnymi. Oznaczmy nowe zbiory A1,A2.

Krok 3. Eliminujemy ze zbioru A2 te punkty, gdzie nie zachodzi warunek konieczny drugiego rzędu. Pozostałe punkty oznaczamy A2′′.

Krok 4. W każdym punkcie ze zbioru A1A2′′ sprawdzamy warunek dostateczny drugiego rzędu. Punkty, w których jest spełniony, są rozwiązaniami lokalnymi.

Krok 5. Optymalność punktów ze zbioru A1A2′′, w których nie jest spełniony warunek dostateczny drugiego rzędu sprawdzamy innymi metodami.

9.3. Przykład

W tym podrozdziale opiszemy bardzo dokładnie rozwiązanie następującego problemu optymalizacyjnego:

x1-12+x22min,2kx1-x220,x=x1,x2R2,

gdzie k>0 jest parametrem.

Zauważmy, że w każdym punkcie, gdzie aktywne jest ograniczenie, spełniony jest warunek liniowej niezależności ograniczeń: pierwsza pochodna ograniczenia wynosi 2k,-2x20T. Wynika stąd, że A1=.

Funkcja Lagrange'a dla powyższego problemu ma postać:

Lx1,x2;μ=x1-12+x22+μ2kx1-x22.

Zapiszmy warunek pierwszego rzędu:

2x1-1,2x2+μ2k,-2x2=0T,(9.3)
μ2kx1-x22=0,(9.4)
μ0.

Sprawdźmy, czy możliwe jest μ=0. Wówczas z równania (9.3) dostajemy

2x1-1=0,2x2=0,

co pociąga x1=1, x2=0. Punkt ten nie jest dopuszczalny: nie spełnia warunku nierównościowego dla żadnego k>0. Wnioskujemy zatem, że μ>0 i warunek konieczny pierwszego rzędu może być spełniony tylko w punktach, w których ograniczenie nierównościowe jest aktywne:

2kx1-x22=0.(9.5)

Rozpiszmy równanie (9.3):

x1-1+μk=0,x2-μx2=0.

Z drugiego równania wynika, że albo μ=1 albo x2=0. Jeśli x2=0, to z (9.5) dostajemy x1=0. Punkt 0,0 wraz z mnożnikiem Lagrange'a μ=1/k spełnia warunek pierwszego rzędu.

Rozważmy teraz przypadek μ=1. Wówczas z równania x1-1+μk=0 dostajemy x1=1-k. Jeśli k>1, to x1<0 i równanie (9.5) nie ma rozwiązania. Dla k=1 dostajemy punkt 0,0, zaś dla k0,1 dwa punkty

x1=1-k,x2=±2k1-k.

Podsumowując: A1= oraz

A2=0,0dlak1,
A2=0,0,1-k,2k1-k,1-k,-2k1-kdla0<k<1.

Funkcja g1x1,x2=2kx1-x22 nie jest quasi-wypukła, wiec nie możemy skorzystać z twierdzenia 7.6 stwierdzającego dostateczność warunku pierwszego rzędu. Zatem A2=A2.

Przechodzimy do kroku 3 i sprawdzamy warunek konieczny drugiego rzędu dla punktów z A2. Rozważmy najpierw punkt 0,0. Odpowiada mu mnożnik Lagrange'a μ=1/k. Pierwsza pochodna funkcji Lagrange'a ma postać:

DxL(x1,x2,1/k)=[(2(x1-1)+2,2x2(1-1k)].

Macierz drugich pochodnych to;

Dx2Lx1,x2,1/k=2,00,21-1k.

Na mocy twierdzenia wystarczy sprawdzić, że

dT2,00,21-1kd0

dla wektorów dR20 spełniających Dg10,0d=2k,0d=0, czyli takich że d1=0. Wstawiając do powyższej nierówności dostajemy 1-1kd220. Nierówność ta zachodzi dla k1: w punkcie 0,0 może być rozwiązanie lokalne. Dla k<1 nierówność nie zachodzi, więc w 0,0 nie ma rozwiązania lokalnego.

Załóżmy teraz 0<k<1 i rozważmy dwa pozostałe punkty. W obu przypadkach mnożnik Lagrange'a μ=1. Mamy zatem

DxL(x1,x2,1)=[(2(x1-1)+2k,0],
Dx2Lx1,x2,1=2,00,0.

Macierz drugich pochodnych jest nieujemnie określona, więc warunek konieczny drugiego rzędu jest spełniony w obu punktach. Podsumowując:

A2′′=0,0dlak1,
A2′′=1-k,2k1-k,1-k,-2k1-kdla0<k<1.

Przechodzimy do sprawdzenia warunku dostatecznego drugiego rzędu. W przypadku k>1 macierz drugich pochodnych funkcji Lagrange'a jest dodatnio określona, więc na mocy tw. 9.3 w punkcie 0,0 jest ścisłe rozwiązanie lokalne. Niestety nie możemy nic powiedzieć o punkcie 0,0, gdy k=1.

Rozważmy przypadek 0<k<1. Zajmijmy się punktem x¯=1-k,2k1-k. Musimy sprawdzić warunki tw. 9.3:

dT2,00,0d=2d12>0

dla dR20 spełniającego 2k,-22k1-kd=0, czyli d1=1k2k1-kd2. A zatem jeśli d0, to d10 i w punkcie x¯ spełniony jest warunek dostateczny drugiego rzędu: x¯ jest ścisłym rozwiązaniem lokalnym. Analogicznie dowodzimy, że punkt 1-k,-2k1-k jest również ścisłym rozwiązaniem lokalnym.

Pozostaje jeszcze przypadek k=1. Choć 0,0 jest rozwiązaniem globalnym, to nie udało nam się tego pokazać korzystając z teorii Kuhna-Tuckera. Łatwo można to jednak udowodnić bezpośrednio.

9.4. Zadania

Ćwiczenie 9.1

Rozwiąż geometrycznie i analitycznie zadanie minimalizacji x2 na zbiorze W=x1,x2:x1+x22,x12+x222.

Ćwiczenie 9.2

Niech A będzie macierzą m×n o pełnym rzędzie (tzn. o rzędzie równym minm,n). Udowodnij, że rzut na jądro kerA jest przekształceniem liniowym zadanym wzorem

I-ATAAT-1A.

W dowodzie wykorzystaj fakt, że rzeczony rzut, to taki punkt zbioru kerA, który jest najmniej oddalony od rzutowanego punktu.

Ćwiczenie 9.3
Rys. 9.1. Położenie punktów pomiarowych.

Na brzegu będącym prostym odcinkiem co 500 metrów stoją trzy stacje pomiarowe, patrz rys. 9.1. Każda z nich mierzy kąt między prostą prostopadłą do brzegu a prostą przechodzącą przez punkt pomiarowy i statek. Wyniki obserwacji są następujące:

α~1=0.083,α~2=0.024,α~3=-0.017.

Pomiary te są obarczone małymi błędami. Skoryguj je tak, aby były zgodne tzn. wskazywały na ten sam punkt na płaszczyźnie i korekta była jak najmniejsza w sensie średniokwadratowym (suma kwadratów różnic pomiędzy zmierzonymi kątami i skorygowanymi kątami). Znajdź położenie statku względem punktów pomiarowych. W obliczeniach przyjmij, że tgαα dla małych kątów α.

Ćwiczenie 9.4

Metalowa belka ma przekrój trapezoidalny. Pole tego przekroju ze względów wytrzymałościowych musi wynosić S. Górna i boczna powierzchnia musi zostać zabezpieczona antykorozyjnie. Ustal tak kształt przekroju, aby powierzchnia do zabezpieczenia antykorozyjnego była jak najmniejsza.

Treść automatycznie generowana z plików źródłowych LaTeXa za pomocą oprogramowania wykorzystującego LaTeXML.

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu Społecznego.

Projekt współfinansowany przez Ministerstwo Nauki i Szkolnictwa Wyższego i przez Uniwersytet Warszawski.