Zagadnienia

2. Ekstrema funkcji wielu zmiennych

2.1. Notacja i twierdzenia Taylora w wielu wymiarach

W tym podrozdziale przypomnimy krótko twierdzenia Taylora dla funkcji wielu zmiennych. Wprowadźmy najpierw niezbędną notację.

Niech f:WR, gdzie WRn jest zbiorem otwartym. Przyjmiemy następujące oznaczenia:

  • x=x1,x2,,xnT – wektor kolumnowy,

  • fx=fx1,x2,,xn,

  • Dfx=fx1,fx2,,fxn – gradient funkcji f,

  • D2fx – Hesjan funkcji f:

    D2fx=2fx122fx1x22fx1xn2fx2x12fx222fx2xn2fxnx12fxnx22fxn2.
Definicja 2.1

Funkcja f jest różniczkowalna w punkcie x0W, jeśli istnieje wektor αRn, taki że

fx=fx0+αTx-x0+ox-x0

dla xW.

Funkcja f jest dwukrotnie różniczkowalna w punkcie x0W, jeśli istnieje wektor αRn oraz macierz HRn××n, takie że

fx=fx0+αTx-x0+12x-x0THx-x0+ox-x02

dla xW.

Uwaga 2.1

Możemy założyć, że macierz H w powyższej definicji jest symetryczna. Wystarczy zauważyć, że

x-x0THx-x0=x-x0TH+HT2x-x0.
Twierdzenie 2.1

  • I) Jeśli funkcja f jest różniczkowalna w x0, to Dfx0 istnieje i α=Dfx0T. Odwrotnie, jeśli Dfx istnieje w pewnym otoczeniu x0 i jest ciągłe w x0, to f jest różniczkowalna w x0.

  • II) Jeśli hesjan D2fx istnieje w pewnym otoczeniu x0 i jest ciągły w x0, to f jest dwukrotnie różniczkowalna w x0, D2fx0 jest macierzą symetryczną oraz H=D2fx0.

Dowód powyższego twierdzenia pomijamy. Zainteresowany czytelnik znajdzie go w podręcznikach analizy wielowymiarowej.

Uwaga 2.2

Ilekroć będziemy chcieli wykorzystać drugą pochodną funkcji wielowymiarowej, bedziemy musieli zakładać, że hesjan D2f jest funkcją ciągłą. Jeśli nie poczynimy takiego założenia, nie będziemy mieli dobrego sposobu na policzenie drugiej pochodnej, a zatem taki rezultat będzie miał małą wartość praktyczną.

Uwaga 2.3

Dla funkcji f:WR określonej na zbiorze otwartym WRn mówimy, że f jest klasy C1 (odpowiednio, klasy C2) i piszemy fC1 (fC2), gdy f jest ciągła na W oraz fxi (odpowiednio, fxi i 2fxixj) istnieją i są ciągłe na W. Gdy rozważany zbiór WRn nie jest otwarty, mówimy że f jest klasy C1 (odpowiednio, klasy C2) na W, jeśli istnieje rozszerzenie f~ funkcji f do zbioru otwartego W~ zawierającego W takie, że f~ jest klasy C1 (odpowiednio, klasy C2) na W~. W tym wypadku można więc mówić o pochodnych cząstkowych funkcji f również w punktach brzegowych zbioru W. Pochodne te są jednoznacznie określone przez wartości funkcji na intW, jeśli zachodzi WclintW (wynika to z ciągłości tych pochodnych).

Zapiszemy teraz rozwinięcie Taylora rzędu 2.

Lemat 2.1

Niech WRn otwarty. Dla funkcji f:WR klasy C2 i punktów x,x0W takich, że odcinek łączący x0 z x leży w W zachodzi

fx=fx0+Dfx0x-x0+12x-x0TD2fx~x-x0,

gdzie x~ jest pewnym punktem wewnątrz odcinka łączącego x0 z x.

Dowód

Dowód wynika z zastosowania twierdzenia 1.10 do funkcji gt=fx0+tx-x0, t0,1.

Definicja 2.2

Podzbiór WRn jest wypukły, jeśli

λx+1-λyW

dla każdych x,yW i każdego λ0,1.

Wniosek 2.1

Niech WRn zbiór otwarty, wypukły oraz f:WR klasy C2. Wówczas dla dowolnych x0,xW mamy

fx=fx0+Dfx0x-x0+12x-x0TD2fx~x-x0,

gdzie x~ należy do wnętrza odcinka łączącego x0 i x, tzn. istnieje λ(0,1, taka że x~=λx0+1-λx.

Dowód

Z wypukłości W wynika, że dla każdego x0,xW odcinek łączący te punkty zawarty jest w W. Teza wynika teraz z lematu 2.1.

2.2. Znikanie gradientu

Będziemy rozważać funkcję f:WR, gdzie W jest podzbiorem w Rn mającym niepuste wnętrze intW.

Twierdzenie 2.2 (Warunek konieczny I rzędu)

Jeśli funkcja f:WR jest różniczkowalna w punkcie x0 należącym do wnętrza zbioru W oraz x0 jest lokalnym minimum (maksimum) funkcji f to

Dfx0=0.
Dowód

Z faktu, że x0intW wynika, że funkcja gt=fx0+tei, gdzie ei jest i-tym wersorem (tj. ei ma jedynkę na i-tej współrzędnej i zera poza nią), jest dobrze określona na otoczeniu 0. Ma ona również lokalne ekstremum w punkcie 0. Na mocy tw. 1.4 mamy g0=0. W terminach funkcji f oznacza to, że fxix0=0. Przeprowadzając to rozumowanie dla i=1,2,,n dostajemy tezę..

Warunek znikania gradientu będzie często używany, zatem użyteczna będzie

Definicja 2.3

Punkt x0intW nazywamy punktem krytycznym funkcji f:WR, jeśli f jest różniczkowalna w x0 oraz Dfx0=0.

Oczywiście, warunek znikania gradientu Dfx0 nie jest wystarczający na to, by w x0 znajdowało się lokalne minimum lub maksimum. Do rozstrzygnięcia tego jest potrzebny analog warunku o znaku drugiej pochodnej (tw. 1.6). W przypadku wielowymiarowym ten warunek definiuje się jako dodatnią (ujemną) określoność macierzy drugich pochodnych.

2.3. Dodatnia i ujemna określoność macierzy

Niech A=aiji,j=1n będzie macierzą symetryczną, tzn. aij=aji. Rozważmy formę kwadratową

xTAx=i,j=1naijxixj.
Definicja 2.4

Określoność macierzy A lub formy kwadratowej xTAx definiujemy następująco:

  • A jest nieujemnie określona, co oznaczamy A0, jeśli

    xTAx0xRn.
  • A jest dodatnio określona, co oznaczamy A>0, jeśli

    xTAx>0xRn0.

Odwracając nierówności definiujemy niedodatnią określoność i ujemną określoność.

  • Macierz A nazywamy nieokreśloną, jeśli istnieją wektory x,x~Rn takie, że

    xTAx>0,x~TAx~<0.

Zauważmy, że z definicji określoności macierzy, wyliczając wyrażenie eiTAei=aii na wersorze ei=0,,1,,0T, z jedynką na i-tym miejscu, wynikają następujące warunki konieczne odpowiedniej określoności macierzy A:

  • Jeśli A jest dodatnio określona, to a11>0,,ann>0.

  • Jeśli A jest nieujemnie określona, to a110,,ann0.

  • Jeśli A jest ujemnie określona, to a11<0,,ann<0.

  • Jeśli A jest niedodatnio określona, to a110,,ann0.

  • Jeśli aii>0 i ajj<0, dla pewnych i, j, to A jest nieokreślona.

Warunki konieczne i dostateczne podane są w poniższym twierdzeniu, którego dowód pomijamy.

Twierdzenie 2.3 (Kryterium Sylvestera)

  • I. Forma kwadratowa xTAx jest dodatnio określona wtedy i tylko wtedy, gdy zachodzi:

    D1>0,D2>0,,Dn>0,

    gdzie przez D1,,Dn oznaczamy minory główne macierzy A:

    D1=deta11,D2=deta11a12a21a22,,Dn=deta11a1nan1ann.

    Forma kwadratowa xTAx jest ujemnie określona wtedy i tylko wtedy, gdy xT-Ax jest dodatnio określona, co przekłada się na ciąg warunków:

    -D1>0,D2>0,,-1nDn>0.
  • II. Forma kwadratowa xTAx jest nieujemnie określona wtedy i tylko wtedy, gdy dla dowolnych 1kn oraz 1i1<i2<<ikn zachodzi

    detai1i1ai1i2ai1ikai2i1ai2i2ai2ikaiki1aiki2aikik0

    (jest to minor rzędu k złożony z kolumn i1,,ik i rzędów i1,,ik).

Określoność macierzy symetrycznej jest niezależna od bazy, w której jest reprezentowana. W bazie własnej macierz A jest diagonalna z wartościami własnymi na diagonali. Dostajemy zatem następujące warunki równoważne określoności:

  • Macierz A jest dodatnio określona wtw, gdy wszystkie jej wartości własne są dodatnie.

  • Macierz A jest nieujemnie określona wtw, gdy wszystkie jej wartości własne są nieujemne.

  • Macierz A jest ujemnie określona wtw, gdy wszystkie jej wartości własne są ujemne.

  • Macierz A jest niedodatnio określona wtw, gdy wszystkie jej wartości własne są niedodatnie.

2.4. Warunki II-go rzędu (kryterium drugiej różniczki)

Twierdzenie 2.4 (Warunek konieczny II rzędu)

Jeśli f jest klasy C2 na zbiorze otwartym WRn i x0W jest minimum lokalnym, to macierz D2fx0 jest nieujemnie określona. Podobnie, jeśli x0 jest lokalnym maksimum, to D2fx0 jest niedodatnio określona.

Twierdzenie 2.5 (Warunek dostateczny II rzędu)

Jeśli f jest klasy C2 na zbiorze otwartym WRn, Dfx0=0 oraz D2fx0 jest dodatnio określona (ujemnie określona) to f ma ścisłe lokalne minimum (lokalne maksimum) w x0.

Dowód twierdzenia 2.4

Niech x0W będzie minimum lokalnym f. Ustalmy niezerowy wektor hRn i funkcję

gt=fx0+th,

gdzie tR jest z dostatecznie małego otoczenia zera, aby x0+thW. Wtedy funkcja g ma lokalne minimum w punkcie t=0. Ponieważ f jest klasy C2, funkcja g również jest klasy C2. Z Twierdzenia 1.5 dla przypadku skalarnego wiemy, że skoro t=0 jest lokalnym minimum, to g′′00. Ze wzorów na pochodną funkcji złożonej mamy

g′′0=hTD2fx0h.

Z dowolności wektora h wynika nieujemna określoność macierzy D2fx0.

Dowód twierdzenia 2.5

Załóżmy najpierw, że D2fx0>0. Określmy funkcję α:WR wzorem

αx=infh=1hTD2fxh.

Funkcja ta jest ciągła na mocy ciągłości hesjanu f oraz ćwiczenia 2.2. Istnieje zatem kula Bx0,ε, taka że αx>0 dla xBx0,ε.

Ustalmy dowolny xBx0,ε. Na mocy wzoru Taylora, lemat 2.1, mamy

fx=fx0+Dfx0x-x0+12x-x0TD2fx~x-x0,

dla pewnego punktu x~ leżącego na odcinku łączącym x0 i x, a zatem i należącego do kuli Bx0,ε. Pierwsza pochodna f znika w punkcie x0, zaś

x-x0TD2fx~x-x0=x-x02x-x0Tx-x0D2fx~x-x0x-x0x-x02αx~.

Mamy zatem

fx-fx0x-x02αx~>0,

gdyż funkcja α jest dodatnia na kuli Bx0,ε. Wnioskujemy więc, że x0 jest ścisłym minimum lokalnym.

Dowód przypadku D2fx0<0 jest analogiczny.

2.4.1. Ekstrema globalne i określoność drugiej różniczki

Niech teraz f:WR będzie funkcją klasy C1 na zbiorze wypukłym WRn, oraz klasy C2 na intW.

Twierdzenie 2.6

Jeśli x0intW jest punktem krytycznym f, to:

  • I) D2fx0xintWx0 jest globalnym minimum,

  • II) D2fx0xintWx0 jest globalnym maksimum.

Jeśli dodatkowo D2fx0>0 w pierwszym stwierdzeniu (D2fx0<0 w drugim stwierdzeniu), to x0 jest ścisłym globalnym minimum (maksimum).

Dowód

Jeśli xW, to z wypukłości W cały odcinek łączący x0 z x (poza punktem x) leży w intW i możemy zastosować wzór Taylora, lemat 2.1, który daje

fx=fx0+12x-x0TD2fx~x-x0,

gdzie x~ jest pewnym punktem z odcinka łączącego x0 z x. Nierówność D2fx~0 (odpowiednio, D2fx~0) oznacza, że drugi człon w powyższym wzorze jest nieujemny (niedodatni), co pociąga obie implikacje w twierdzeniu.

W przypadku, gdy w (I) mamy dodatkowo D2fx0>0, odwołamy się do używanej już funkcji gt=fx0+tx-x0, t0,1. Z wypukłości W wynika, że g jest dobrze określona, tzn. x0+tx-x0W dla t0,1. Nasze założenia implikują, że g0=0, g′′0>0 oraz g′′t0. Możemy skorzystać z tw. 1.11, które stwierdza, że g ma ścisłe globalne minimum w t=0. Zatem g1>g0, czyli fx>fx0. Z dowolności x wynika, iż x0 jest ścisłym minimum globalnym.

Przypadek D2fx0<0 w stwierdzeniu (II) dowodzimy analogicznie.

2.5. Zadania

Ćwiczenie 2.1

Wykaż, że hesjan funkcji

fx1,x2=0,x1=x2=0,x1x2x12-x22x12+x22,w p.p.,

nie jest symetryczny w punkcie 0,0.

Ćwiczenie 2.2

Niech WRk, ARn zwarty oraz f:W×AR ciągła. Udowodnij, że funkcja g:WR zadana wzorem

gx=infyAfx,y

jest ciągła.

Ćwiczenie 2.3

Pochodną kierunkową funkcji f w punkcie x¯ i kierunku d nazywamy granicę

Ddfx¯=limh0fx¯+hd-fx¯h.

Udowodnij, że maxd=1Ddfx¯ jest przyjmowane dla d=Dfx¯/Dfx¯.

Ćwiczenie 2.4

Rozważmy następującą funkcję (czasami zwaną funkcją Peano):

fx1,x2=x22-x1x22-2x1.
  1. Udowodnij, że funkcja f ograniczona do każdej prostej przechodzącej przez 0 ma w tym punkcie minimum lokalne.

  2. Wykaż, że f jako funkcja wielu zmiennych nie ma ekstremum lokalnego w 0.

  3. Znajdź wartości własne macierzy drugiej pochodnej f. Co możesz z nich wywnioskować? Czy tłumaczą one zachowanie funkcji f w 0?

Ćwiczenie 2.5

Rozważmy funkcję kwadratową wielu zmiennych:

fx=12xTAx+bTx+c,

gdzie A jest macierzą kwadratową, niekoniecznie symetryczną, b jest wektorem, zaś c stałą. Wyznacz gradient i hesjan (macierz drugiej pochodnej) funkcji f.

Wskazówka: 

Załóż najpierw, że A jest symetryczna. Udowodnij później, że dla każdej macierzy kwadratowej A istnieje macierz symetryczna A, taka że xTAx=xTAx dla każdego x.

Ćwiczenie 2.6

Zbadaj określoność następujących macierzy i porównaj wyniki z ich formą zdiagonalizowaną:

-311-2,311-2,4221,2-20-220003.
Ćwiczenie 2.7

Znajdź ekstrema globalne funkcji

fx=12xT-311-2x+2,1x+17.
Ćwiczenie 2.8

Niech Ω,F,P będzie przestrzenią probabilistyczną, co między innymi oznacza, że PΩ=1. Dana jest zmienna losowa ηL2Ω,F,P, tzn. funkcja mierzalna η:ΩRn o tej własności, że Eη2<. Znajdź wektor x¯Rn, taki że Eη-x2 jest najmniejsza.

Wskazówka: 

Zapisz Eη-x2 jako funkcję kwadratową.

Ćwiczenie 2.9

Niech f:RnR i x¯Rn. Załóżmy, że f jest klasy C2 na otoczeniu x¯ oraz Dfx¯=0T. Udowodnij, że jeśli macierz D2fx¯ jest nieokreślona, to f nie ma ekstremum lokalnego w x¯.

Ćwiczenie 2.10

Udowodnij nierówność średnich rozwiązując zadanie optymalizacyjne:

xytzmax,x+y+t+z=4c,x,y,t,z0,.
Ćwiczenie 2.11

Znajdź minima lokalne funkcji

fx,y=14x4+13x3-2xy+y2+2x-2y+1.

Treść automatycznie generowana z plików źródłowych LaTeXa za pomocą oprogramowania wykorzystującego LaTeXML.

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu Społecznego.

Projekt współfinansowany przez Ministerstwo Nauki i Szkolnictwa Wyższego i przez Uniwersytet Warszawski.