2.1. Notacja i twierdzenia Taylora w wielu wymiarach
W tym podrozdziale przypomnimy krótko twierdzenia Taylora dla funkcji wielu zmiennych.
Wprowadźmy najpierw niezbędną notację.
Niech f:W→R, gdzie W⊂Rn jest zbiorem otwartym. Przyjmiemy następujące oznaczenia:
-
x=x1,x2,…,xnT – wektor kolumnowy,
-
-
Dfx=∂f∂x1,∂f∂x2,⋯,∂f∂xn – gradient funkcji f,
-
D2fx – Hesjan funkcji f:
| D2fx=∂2f∂x12∂2f∂x1∂x2⋯∂2f∂x1∂xn∂2f∂x2∂x1∂2f∂x22⋯∂2f∂x2∂xn⋮⋮⋱∂2f∂xn∂x1∂2f∂xn∂x2⋯∂2f∂xn2. | |
Definicja 2.1
Funkcja f jest różniczkowalna w punkcie x0∈W, jeśli istnieje wektor α∈Rn, taki że
dla x∈W.
Funkcja f jest dwukrotnie różniczkowalna w punkcie x0∈W, jeśli istnieje wektor α∈Rn oraz macierz H∈Rn××n, takie że
| fx=fx0+αTx-x0+12x-x0THx-x0+ox-x02 | |
dla x∈W.
Uwaga 2.1
Możemy założyć, że macierz H w powyższej definicji jest symetryczna. Wystarczy zauważyć, że
| x-x0THx-x0=x-x0TH+HT2x-x0. | |
Twierdzenie 2.1
-
I) Jeśli funkcja f jest różniczkowalna w x0, to Dfx0 istnieje i α=Dfx0T. Odwrotnie, jeśli Dfx istnieje w pewnym otoczeniu x0 i jest ciągłe w x0, to f jest różniczkowalna w x0.
-
II) Jeśli hesjan D2fx istnieje w pewnym otoczeniu x0 i jest ciągły w x0, to f jest dwukrotnie różniczkowalna w x0, D2fx0 jest macierzą symetryczną oraz H=D2fx0.
Dowód powyższego twierdzenia pomijamy. Zainteresowany czytelnik znajdzie go w podręcznikach analizy wielowymiarowej.
Uwaga 2.2
Ilekroć będziemy chcieli wykorzystać drugą pochodną funkcji wielowymiarowej, bedziemy musieli zakładać, że hesjan D2f jest funkcją ciągłą. Jeśli nie poczynimy takiego założenia, nie będziemy mieli dobrego sposobu na policzenie drugiej pochodnej, a zatem taki rezultat będzie miał małą wartość praktyczną.
Uwaga 2.3
Dla funkcji f:W→R określonej na zbiorze otwartym W⊂Rn mówimy, że f jest klasy C1
(odpowiednio, klasy C2) i piszemy f∈C1 (f∈C2), gdy
f jest ciągła na W oraz ∂f∂xi (odpowiednio, ∂f∂xi i ∂2f∂xi∂xj) istnieją
i są ciągłe na W. Gdy rozważany zbiór W⊂Rn nie jest otwarty, mówimy że f jest klasy
C1 (odpowiednio, klasy C2) na W, jeśli istnieje
rozszerzenie f~ funkcji f do zbioru otwartego W~
zawierającego W takie, że f~ jest klasy C1
(odpowiednio, klasy C2) na W~. W tym wypadku można więc mówić o pochodnych cząstkowych funkcji f również w
punktach brzegowych zbioru W. Pochodne te są jednoznacznie określone przez wartości funkcji na intW, jeśli
zachodzi W⊂clintW (wynika to z ciągłości tych pochodnych).
Zapiszemy teraz rozwinięcie Taylora rzędu 2.
Lemat 2.1
Niech W⊂Rn otwarty. Dla funkcji f:W→R klasy C2 i punktów x,x0∈W takich, że odcinek łączący x0 z x leży w W zachodzi
| fx=fx0+Dfx0x-x0+12x-x0TD2fx~x-x0, | |
gdzie x~ jest pewnym punktem wewnątrz odcinka łączącego x0 z x.
Dowód
Dowód wynika z zastosowania twierdzenia 1.10 do funkcji gt=fx0+tx-x0, t∈0,1.
∎
Definicja 2.2
Podzbiór W⊂Rn jest wypukły, jeśli
dla każdych x,y∈W i każdego λ∈0,1.
Wniosek 2.1
Niech W⊂Rn zbiór otwarty, wypukły oraz f:W→R klasy C2. Wówczas dla dowolnych x0,x∈W mamy
| fx=fx0+Dfx0x-x0+12x-x0TD2fx~x-x0, | |
gdzie x~ należy do wnętrza odcinka łączącego x0 i x, tzn. istnieje λ∈(0,1, taka że x~=λx0+1-λx.
Dowód
Z wypukłości W wynika, że dla każdego x0,x∈W odcinek łączący te punkty zawarty jest w W. Teza wynika teraz z lematu 2.1.
∎
2.2. Znikanie gradientu
Będziemy rozważać funkcję f:W→R, gdzie W jest podzbiorem w Rn mającym niepuste wnętrze intW.
Twierdzenie 2.2 (Warunek konieczny I rzędu)
Jeśli funkcja f:W→R jest różniczkowalna w punkcie x0 należącym do wnętrza zbioru W oraz x0 jest lokalnym minimum (maksimum) funkcji f to
Dowód
Z faktu, że x0∈intW wynika, że funkcja gt=fx0+tei, gdzie ei jest i-tym wersorem (tj. ei ma jedynkę na i-tej współrzędnej i zera poza nią), jest dobrze określona na otoczeniu 0. Ma ona również lokalne ekstremum w punkcie 0. Na mocy tw. 1.4 mamy g′0=0. W terminach funkcji f oznacza to, że ∂f∂xix0=0. Przeprowadzając to rozumowanie dla i=1,2,…,n dostajemy tezę..
∎
Warunek znikania gradientu będzie często używany, zatem użyteczna będzie
Definicja 2.3
Punkt x0∈intW nazywamy punktem krytycznym funkcji f:W→R, jeśli f jest różniczkowalna w x0 oraz Dfx0=0.
Oczywiście, warunek znikania gradientu Dfx0 nie jest wystarczający na to, by w x0 znajdowało się lokalne minimum lub maksimum. Do rozstrzygnięcia tego jest potrzebny analog warunku o znaku drugiej pochodnej (tw. 1.6). W przypadku wielowymiarowym ten warunek definiuje się jako dodatnią (ujemną) określoność macierzy drugich pochodnych.
2.3. Dodatnia i ujemna określoność macierzy
Niech A=aiji,j=1n będzie macierzą symetryczną, tzn. aij=aji. Rozważmy formę kwadratową
| xTAx=∑i,j=1naijxixj. | |
Definicja 2.4
Określoność macierzy A lub formy kwadratowej xTAx definiujemy następująco:
-
A jest nieujemnie określona, co oznaczamy A≥0, jeśli
-
A jest dodatnio określona, co oznaczamy A>0, jeśli
Odwracając nierówności definiujemy niedodatnią określoność i ujemną określoność.
-
Macierz A nazywamy nieokreśloną, jeśli istnieją wektory x,x~∈Rn takie, że
Zauważmy, że z definicji określoności macierzy, wyliczając wyrażenie eiTAei=aii na wersorze ei=0,…,1,…,0T, z jedynką na i-tym miejscu, wynikają następujące warunki konieczne odpowiedniej określoności macierzy A:
-
Jeśli A jest dodatnio określona, to
a11>0,…,ann>0.
-
Jeśli A jest nieujemnie określona, to
a11≥0,…,ann≥0.
-
Jeśli A jest ujemnie określona, to
a11<0,…,ann<0.
-
Jeśli A jest niedodatnio określona, to
a11≤0,…,ann≤0.
-
Jeśli aii>0 i ajj<0, dla pewnych i, j, to
A jest nieokreślona.
Warunki konieczne i dostateczne podane są w poniższym twierdzeniu, którego dowód pomijamy.
Twierdzenie 2.3 (Kryterium Sylvestera)
-
I. Forma kwadratowa xTAx jest dodatnio określona wtedy i tylko wtedy, gdy zachodzi:
gdzie przez D1,…,Dn oznaczamy minory główne macierzy A:
| D1=deta11,D2=deta11a12a21a22,…,Dn=deta11…a1n⋮⋱⋮an1…ann. | |
Forma kwadratowa xTAx jest ujemnie określona wtedy i tylko wtedy, gdy xT-Ax jest dodatnio określona, co przekłada się na ciąg warunków:
| -D1>0,D2>0,……,-1nDn>0. | |
-
II. Forma kwadratowa xTAx jest nieujemnie określona wtedy i tylko wtedy, gdy dla dowolnych 1≤k≤n oraz 1≤i1<i2<…<ik≤n zachodzi
| detai1i1ai1i2…ai1ikai2i1ai2i2…ai2ik⋮⋮⋱⋮aiki1aiki2…aikik≥0 | |
(jest to minor rzędu k złożony z kolumn i1,…,ik i rzędów i1,…,ik).
Określoność macierzy symetrycznej jest niezależna od bazy, w której jest reprezentowana. W bazie własnej macierz A jest diagonalna z wartościami własnymi na diagonali. Dostajemy zatem następujące warunki równoważne określoności:
-
Macierz A jest dodatnio określona wtw, gdy wszystkie jej wartości własne są dodatnie.
-
Macierz A jest nieujemnie określona wtw, gdy wszystkie jej wartości własne są nieujemne.
-
Macierz A jest ujemnie określona wtw, gdy wszystkie jej wartości własne są ujemne.
-
Macierz A jest niedodatnio określona wtw, gdy wszystkie jej wartości własne są niedodatnie.
2.4. Warunki II-go rzędu (kryterium drugiej
różniczki)
Twierdzenie 2.4 (Warunek konieczny II rzędu)
Jeśli f jest klasy C2 na zbiorze otwartym W⊂Rn i x0∈W jest
minimum lokalnym, to macierz D2fx0 jest nieujemnie określona. Podobnie, jeśli x0 jest lokalnym maksimum, to D2fx0 jest
niedodatnio określona.
Twierdzenie 2.5 (Warunek dostateczny II rzędu)
Jeśli f jest klasy C2 na zbiorze otwartym W⊂Rn, Dfx0=0 oraz D2fx0 jest dodatnio określona
(ujemnie określona) to f ma ścisłe lokalne minimum (lokalne maksimum) w x0.
Dowód twierdzenia 2.4
Niech x0∈W będzie minimum lokalnym f. Ustalmy niezerowy wektor h∈Rn i funkcję
gdzie t∈R jest z dostatecznie małego otoczenia zera, aby x0+th∈W. Wtedy funkcja g ma lokalne minimum w punkcie t=0. Ponieważ f jest klasy C2, funkcja g również jest klasy C2. Z Twierdzenia 1.5 dla przypadku skalarnego wiemy, że skoro t=0 jest lokalnym minimum, to g′′0≥0. Ze wzorów na pochodną funkcji złożonej mamy
Z dowolności wektora h wynika nieujemna określoność macierzy D2fx0.
∎
Dowód twierdzenia 2.5
Załóżmy najpierw, że D2fx0>0. Określmy funkcję α:W→R wzorem
Funkcja ta jest ciągła na mocy ciągłości hesjanu f oraz ćwiczenia 2.2. Istnieje zatem kula Bx0,ε, taka że αx>0 dla x∈Bx0,ε.
Ustalmy dowolny x∈Bx0,ε. Na mocy wzoru Taylora, lemat 2.1, mamy
| fx=fx0+Dfx0x-x0+12x-x0TD2fx~x-x0, | |
dla pewnego punktu x~ leżącego na odcinku łączącym x0 i x, a zatem i należącego do kuli Bx0,ε. Pierwsza pochodna f znika w punkcie x0, zaś
| x-x0TD2fx~x-x0=x-x02x-x0Tx-x0D2fx~x-x0x-x0≥x-x02αx~. | |
Mamy zatem
gdyż funkcja α jest dodatnia na kuli Bx0,ε. Wnioskujemy więc, że x0 jest ścisłym minimum lokalnym.
Dowód przypadku D2fx0<0 jest analogiczny.
∎
2.4.1. Ekstrema globalne i określoność drugiej
różniczki
Niech teraz f:W→R będzie funkcją klasy C1 na zbiorze wypukłym W∈Rn, oraz klasy C2 na intW.
Twierdzenie 2.6
Jeśli x0∈intW jest punktem krytycznym f, to:
-
I) D2fx≥0∀x∈intW⟹x0 jest globalnym minimum,
-
II) D2fx≤0∀x∈intW⟹x0 jest globalnym maksimum.
Jeśli dodatkowo D2fx0>0 w pierwszym stwierdzeniu (D2fx0<0 w drugim stwierdzeniu), to x0 jest ścisłym globalnym minimum
(maksimum).
Dowód
Jeśli x∈W, to z wypukłości W cały odcinek łączący x0 z x (poza punktem x) leży w intW i możemy zastosować wzór Taylora, lemat 2.1, który daje
| fx=fx0+12x-x0TD2fx~x-x0, | |
gdzie x~ jest pewnym punktem z odcinka łączącego x0 z x. Nierówność D2fx~≥0 (odpowiednio, D2fx~≤0) oznacza, że drugi człon w powyższym wzorze jest nieujemny (niedodatni), co pociąga obie implikacje w twierdzeniu.
W przypadku, gdy w (I) mamy dodatkowo D2fx0>0, odwołamy się do używanej już funkcji gt=fx0+tx-x0, t∈0,1. Z wypukłości W wynika, że g jest dobrze określona, tzn. x0+tx-x0∈W dla t∈0,1. Nasze założenia implikują, że g′0=0, g′′0>0 oraz g′′t≥0. Możemy skorzystać z tw. 1.11, które stwierdza, że g ma ścisłe globalne minimum w t=0. Zatem g1>g0, czyli fx>fx0. Z dowolności x wynika, iż x0 jest ścisłym minimum globalnym.
Przypadek D2fx0<0 w stwierdzeniu (II) dowodzimy analogicznie.
∎
2.5. Zadania
Ćwiczenie 2.1
Wykaż, że hesjan funkcji
| fx1,x2=0,x1=x2=0,x1x2x12-x22x12+x22,w p.p., | |
nie jest symetryczny w punkcie 0,0.
Ćwiczenie 2.2
Niech W⊂Rk, A⊂Rn zwarty oraz f:W×A→R ciągła. Udowodnij, że funkcja g:W→R zadana wzorem
jest ciągła.
Ćwiczenie 2.3
Pochodną kierunkową funkcji f w punkcie x¯ i kierunku d nazywamy granicę
| Ddfx¯=limh→0fx¯+hd-fx¯h. | |
Udowodnij, że maxd=1Ddfx¯ jest przyjmowane dla d=Dfx¯/Dfx¯.
Ćwiczenie 2.4
Rozważmy następującą funkcję (czasami zwaną funkcją Peano):
-
Udowodnij, że funkcja f ograniczona do każdej prostej przechodzącej przez 0 ma w tym punkcie minimum lokalne.
-
Wykaż, że f jako funkcja wielu zmiennych nie ma ekstremum lokalnego w 0.
-
Znajdź wartości własne macierzy drugiej pochodnej f. Co możesz z nich wywnioskować? Czy tłumaczą one zachowanie funkcji f w 0?
Ćwiczenie 2.5
Rozważmy funkcję kwadratową wielu zmiennych:
gdzie A jest macierzą kwadratową, niekoniecznie symetryczną, b jest wektorem, zaś c stałą. Wyznacz gradient i hesjan (macierz drugiej pochodnej) funkcji f.
Wskazówka:
Załóż najpierw, że A jest symetryczna. Udowodnij później, że dla każdej macierzy kwadratowej A istnieje macierz symetryczna A⌃, taka że xTA⌃x=xTAx dla każdego x.
Ćwiczenie 2.6
Zbadaj określoność następujących macierzy i porównaj wyniki z ich formą zdiagonalizowaną:
| -311-2,311-2,4221,2-20-220003. | |
Ćwiczenie 2.7
Znajdź ekstrema globalne funkcji
| fx=12xT-311-2x+2,1x+17. | |
Ćwiczenie 2.8
Niech Ω,F,P będzie przestrzenią probabilistyczną, co między innymi oznacza, że PΩ=1. Dana jest zmienna losowa η∈L2Ω,F,P, tzn. funkcja mierzalna η:Ω→Rn o tej własności, że Eη2<∞. Znajdź wektor x¯∈Rn, taki że Eη-x2 jest najmniejsza.
Wskazówka:
Zapisz Eη-x2 jako funkcję kwadratową.
Ćwiczenie 2.9
Niech f:Rn→R i x¯∈Rn. Załóżmy, że f jest klasy C2 na otoczeniu x¯ oraz Dfx¯=0T. Udowodnij, że jeśli macierz D2fx¯ jest nieokreślona, to f nie ma ekstremum lokalnego w x¯.
Ćwiczenie 2.10
Udowodnij nierówność średnich rozwiązując zadanie optymalizacyjne:
| xytz→max,x+y+t+z=4c,x,y,t,z∈0,∞. | |
Ćwiczenie 2.11
Znajdź minima lokalne funkcji
| fx,y=14x4+13x3-2xy+y2+2x-2y+1. | |