Zagadnienia

2.1 Notacja i twierdzenia Taylora w wielu wymiarach
2.2 Znikanie gradientu
2.3 Dodatnia i ujemna określoność macierzy
2.4 Warunki II-go rzędu (kryterium drugiej różniczki)
- 2.4.1 Ekstrema globalne i określoność drugiej różniczki
2.5 Zadania

2. Ekstrema funkcji wielu zmiennych

2.1. Notacja i twierdzenia Taylora w wielu wymiarach

W tym podrozdziale przypomnimy krótko twierdzenia Taylora dla funkcji wielu zmiennych. Wprowadźmy najpierw niezbędną notację.

Niech $f:W\to\mathbb{R}$ , gdzie $W\subset\mathbb{R}^{n}$ jest zbiorem otwartym. Przyjmiemy następujące oznaczenia:

$\mathbf{x}=(x_{1},x_{2},\ldots,x_{n})^{T}$ – wektor kolumnowy,
$f(\mathbf{x})=f(x_{1},x_{2},\ldots,x_{n})$ ,
$Df(\mathbf{x})=\left(\frac{\partial f}{\partial x_{1}},\frac{\partial f}{\partial x_{2}},\cdots,\frac{\partial f}{\partial x_{n}}\right)$ – gradient funkcji $f$ ,
$D^{2}f(\mathbf{x})$ – Hesjan funkcji $f$ :

$D^{2}f(\mathbf{x})=\left(\begin{array}[]{cccc}\frac{\partial^{2}f}{\partial x_{1}^{2}}&\frac{\partial^{2}f}{\partial x_{1}\partial x_{2}}&\cdots&\frac{\partial^{2}f}{\partial x_{1}\partial x_{n}}\\ \frac{\partial^{2}f}{\partial x_{2}\partial x_{1}}&\frac{\partial^{2}f}{\partial x_{2}^{2}}&\cdots&\frac{\partial^{2}f}{\partial x_{2}\partial x_{n}}\\ \vdots&\vdots&\ddots&\\ \frac{\partial^{2}f}{\partial x_{n}\partial x_{1}}&\frac{\partial^{2}f}{\partial x_{n}\partial x_{2}}&\cdots&\frac{\partial^{2}f}{\partial x_{n}^{2}}\\ \end{array}\right).$

Definicja 2.1

Funkcja $f$ jest różniczkowalna w punkcie $\mathbf{x}_{0}\in W$ , jeśli istnieje wektor $\alpha\in\mathbb{R}^{n}$ , taki że

$f(\mathbf{x})=f(\mathbf{x}_{0})+\alpha^{T}(\mathbf{x}-\mathbf{x}_{0})+o(\|\mathbf{x}-\mathbf{x}_{0}\|)$

dla $\mathbf{x}\in W.$

Funkcja $f$ jest dwukrotnie różniczkowalna w punkcie $\mathbf{x}_{0}\in W$ , jeśli istnieje wektor $\alpha\in\mathbb{R}^{n}$ oraz macierz $H\in\mathbb{R}^{{n\ \times n}}$ , takie że

$f(\mathbf{x})=f(\mathbf{x}_{0})+\alpha^{T}(\mathbf{x}-\mathbf{x}_{0})+\frac{1}{2}(\mathbf{x}-\mathbf{x}_{0})^{T}H(\mathbf{x}-\mathbf{x}_{0})+o(\|\mathbf{x}-\mathbf{x}_{0}\|^{2})$

dla $\mathbf{x}\in W.$

Uwaga 2.1

Możemy założyć, że macierz $H$ w powyższej definicji jest symetryczna. Wystarczy zauważyć, że

$(\mathbf{x}-\mathbf{x}_{0})^{T}H(\mathbf{x}-\mathbf{x}_{0})=(\mathbf{x}-\mathbf{x}_{0})^{T}\frac{H+H^{T}}{2}(\mathbf{x}-\mathbf{x}_{0}).$

Twierdzenie 2.1

$\$

I) Jeśli funkcja $f$ jest różniczkowalna w $\mathbf{x}_{0}$ , to $Df(\mathbf{x}_{0})$ istnieje i $\alpha=Df(\mathbf{x}_{0})^{T}$ . Odwrotnie, jeśli $Df(\mathbf{x})$ istnieje w pewnym otoczeniu $\mathbf{x}_{0}$ i jest ciągłe w $\mathbf{x}_{0}$ , to $f$ jest różniczkowalna w $\mathbf{x}_{0}$ .
II) Jeśli hesjan $D^{2}f(\mathbf{x})$ istnieje w pewnym otoczeniu $\mathbf{x}_{0}$ i jest ciągły w $\mathbf{x}_{0}$ , to $f$ jest dwukrotnie różniczkowalna w $\mathbf{x}_{0}$ , $D^{2}f(\mathbf{x}_{0})$ jest macierzą symetryczną oraz $H=D^{2}f(\mathbf{x}_{0})$ .

Dowód powyższego twierdzenia pomijamy. Zainteresowany czytelnik znajdzie go w podręcznikach analizy wielowymiarowej.

Uwaga 2.2

Ilekroć będziemy chcieli wykorzystać drugą pochodną funkcji wielowymiarowej, bedziemy musieli zakładać, że hesjan $D^{2}f$ jest funkcją ciągłą. Jeśli nie poczynimy takiego założenia, nie będziemy mieli dobrego sposobu na policzenie drugiej pochodnej, a zatem taki rezultat będzie miał małą wartość praktyczną.

Uwaga 2.3

Dla funkcji $f:W\to\mathbb{R}$ określonej na zbiorze otwartym $W\subset\mathbb{R}^{n}$ mówimy, że $f$ jest klasy $C^{1}$ (odpowiednio, klasy $C^{2}$ ) i piszemy $f\in C^{1}$ ( $f\in C^{2}$ ), gdy $f$ jest ciągła na $W$ oraz $\frac{\partial f}{\partial x_{i}}$ (odpowiednio, $\frac{\partial f}{\partial x_{i}}$ i $\frac{\partial^{2}f}{\partial x_{i}\partial x_{j}}$ ) istnieją i są ciągłe na $W$ . Gdy rozważany zbiór $W\subset\mathbb{R}^{n}$ nie jest otwarty, mówimy że $f$ jest klasy $C^{1}$ (odpowiednio, klasy $C^{2}$ ) na $W$ , jeśli istnieje rozszerzenie $\tilde{f}$ funkcji $f$ do zbioru otwartego $\tilde{W}$ zawierającego $W$ takie, że $\tilde{f}$ jest klasy $C^{1}$ (odpowiednio, klasy $C^{2}$ ) na $\tilde{W}$ . W tym wypadku można więc mówić o pochodnych cząstkowych funkcji $f$ również w punktach brzegowych zbioru $W$ . Pochodne te są jednoznacznie określone przez wartości funkcji na $\mathop{\rm int}W$ , jeśli zachodzi $W\subset\mathop{\rm cl}(\mathop{\rm int}W)$ (wynika to z ciągłości tych pochodnych).

Zapiszemy teraz rozwinięcie Taylora rzędu $2$ .

Lemat 2.1

Niech $W\subset\mathbb{R}^{n}$ otwarty. Dla funkcji $f:W\to\mathbb{R}$ klasy $C^{2}$ i punktów $\mathbf{x},\mathbf{x}_{0}\in W$ takich, że odcinek łączący $\mathbf{x}_{0}$ z $\mathbf{x}$ leży w $W$ zachodzi

$f(\mathbf{x})=f(\mathbf{x}_{0})+Df(\mathbf{x}_{0})(\mathbf{x}-\mathbf{x}^{0})+\frac{1}{2}(\mathbf{x}-\mathbf{x}^{0})^{T}D^{2}f(\tilde{\mathbf{x}})(\mathbf{x}-\mathbf{x}_{0}),$

gdzie $\tilde{\mathbf{x}}$ jest pewnym punktem wewnątrz odcinka łączącego $\mathbf{x}_{0}$ z $\mathbf{x}$ .

Dowód

Dowód wynika z zastosowania twierdzenia 1.10 do funkcji $g(t)=f\big(\mathbf{x}_{0}+t(\mathbf{x}-\mathbf{x}_{0})\big)$ , $t\in[0,1]$ .

∎

Definicja 2.2

Podzbiór $W\subset\mathbb{R}^{n}$ jest wypukły, jeśli

$\lambda x+(1-\lambda)y\in W$

dla każdych $x,y\in W$ i każdego $\lambda\in[0,1]$ .

Wniosek 2.1

Niech $W\subset\mathbb{R}^{n}$ zbiór otwarty, wypukły oraz $f:W\to\mathbb{R}$ klasy $C^{2}$ . Wówczas dla dowolnych $\mathbf{x}_{0},\mathbf{x}\in W$ mamy

$f(\mathbf{x})=f(\mathbf{x}_{0})+Df(\mathbf{x}_{0})(\mathbf{x}-\mathbf{x}_{0})+\frac{1}{2}(\mathbf{x}-\mathbf{x}_{0})^{T}D^{2}f(\tilde{\mathbf{x}})(\mathbf{x}-\mathbf{x}_{0}),$

gdzie $\tilde{\mathbf{x}}$ należy do wnętrza odcinka łączącego $\mathbf{x}_{0}$ i $\mathbf{x}$ , tzn. istnieje $\lambda\in(0,1$ , taka że $\tilde{\mathbf{x}}=\lambda\mathbf{x}_{0}+(1-\lambda)\mathbf{x}$ .

Dowód

Z wypukłości $W$ wynika, że dla każdego $\mathbf{x}_{0},\mathbf{x}\in W$ odcinek łączący te punkty zawarty jest w $W$ . Teza wynika teraz z lematu 2.1.

∎

2.2. Znikanie gradientu

Będziemy rozważać funkcję $f:W\to\mathbb{R}$ , gdzie $W$ jest podzbiorem w $\mathbb{R}^{n}$ mającym niepuste wnętrze $\mathop{\rm int}W$ .

Twierdzenie 2.2 (Warunek konieczny I rzędu)

Jeśli funkcja $f:W\to\mathbb{R}$ jest różniczkowalna w punkcie $\mathbf{x}_{0}$ należącym do wnętrza zbioru $W$ oraz $\mathbf{x}_{0}$ jest lokalnym minimum (maksimum) funkcji $f$ to

$Df(\mathbf{x}_{0})=0.$

Dowód

Z faktu, że $\mathbf{x}_{0}\in\mathop{\rm int}W$ wynika, że funkcja $g(t)=f(\mathbf{x}_{0}+t\mathbf{e}_{i})$ , gdzie $\mathbf{e}_{i}$ jest $i$ -tym wersorem (tj. $\mathbf{e}_{i}$ ma jedynkę na $i$ -tej współrzędnej i zera poza nią), jest dobrze określona na otoczeniu $0$ . Ma ona również lokalne ekstremum w punkcie $0$ . Na mocy tw. 1.4 mamy $g^{{\prime}}(0)=0$ . W terminach funkcji $f$ oznacza to, że $\frac{\partial f}{\partial x_{i}}(\mathbf{x}_{0})=0$ . Przeprowadzając to rozumowanie dla $i=1,2,\ldots,n$ dostajemy tezę..

∎

Warunek znikania gradientu będzie często używany, zatem użyteczna będzie

Definicja 2.3

Punkt $\mathbf{x}_{0}\in\mathop{\rm int}W$ nazywamy punktem krytycznym funkcji $f:W\to\mathbb{R}$ , jeśli $f$ jest różniczkowalna w $\mathbf{x}_{0}$ oraz $Df(\mathbf{x}_{0})=0$ .

Oczywiście, warunek znikania gradientu $Df(\mathbf{x}_{0})$ nie jest wystarczający na to, by w $\mathbf{x}_{0}$ znajdowało się lokalne minimum lub maksimum. Do rozstrzygnięcia tego jest potrzebny analog warunku o znaku drugiej pochodnej (tw. 1.6). W przypadku wielowymiarowym ten warunek definiuje się jako dodatnią (ujemną) określoność macierzy drugich pochodnych.

2.3. Dodatnia i ujemna określoność macierzy

Niech $A=\{ a_{{ij}}\} _{{i,j=1}}^{{n}}$ będzie macierzą symetryczną, tzn. $a_{{ij}}=a_{{ji}}$ . Rozważmy formę kwadratową

$\mathbf{x}^{T}A\mathbf{x}=\sum _{{i,j=1}}^{{n}}a_{{ij}}x_{i}x_{j}.$

Definicja 2.4

Określoność macierzy $A$ lub formy kwadratowej $\mathbf{x}^{T}A\mathbf{x}$ definiujemy następująco:

$A$ jest nieujemnie określona, co oznaczamy $A\ge 0$ , jeśli

$\mathbf{x}^{T}A\mathbf{x}\geq 0\qquad\forall\ \mathbf{x}\in\mathbb{R}^{n}.$
$A$ jest dodatnio określona, co oznaczamy $A>0$ , jeśli

$\mathbf{x}^{T}A\mathbf{x}>0\qquad\forall\ \mathbf{x}\in\mathbb{R}^{n}\setminus\{ 0\}.$

Odwracając nierówności definiujemy niedodatnią określoność i ujemną określoność.

Macierz $A$ nazywamy nieokreśloną, jeśli istnieją wektory $\mathbf{x},\ \tilde{\mathbf{x}}\in\mathbb{R}^{n}$ takie, że

$\mathbf{x}^{T}A\mathbf{x}>0,\qquad\tilde{\mathbf{x}}^{T}A\tilde{\mathbf{x}}<0.$

Zauważmy, że z definicji określoności macierzy, wyliczając wyrażenie $\mathbf{e}_{i}^{T}A\mathbf{e}_{i}=a_{{ii}}$ na wersorze $\mathbf{e}_{i}=(0,\dots,1,\dots,0)^{T}$ , z jedynką na $i$ -tym miejscu, wynikają następujące warunki konieczne odpowiedniej określoności macierzy $A$ :

Jeśli $A$ jest dodatnio określona, to $a_{{11}}>0,\dots,a_{{nn}}>0$ .
Jeśli $A$ jest nieujemnie określona, to $a_{{11}}\ge 0,\dots,a_{{nn}}\ge 0$ .
Jeśli $A$ jest ujemnie określona, to $a_{{11}}<0,\dots,a_{{nn}}<0$ .
Jeśli $A$ jest niedodatnio określona, to $a_{{11}}\le 0,\dots,a_{{nn}}\le 0$ .
Jeśli $a_{{ii}}>0$ i $a_{{jj}}<0$ , dla pewnych $i$ , $j$ , to $A$ jest nieokreślona.

Warunki konieczne i dostateczne podane są w poniższym twierdzeniu, którego dowód pomijamy.

Twierdzenie 2.3 (Kryterium Sylvestera)

$\$

I. Forma kwadratowa $\mathbf{x}^{T}A\mathbf{x}$ jest dodatnio określona wtedy i tylko wtedy, gdy zachodzi:

$D_{1}>0,\ D_{2}>0,\ldots\ldots,D_{n}>0,$

gdzie przez $D_{1},\dots,D_{n}$ oznaczamy minory główne macierzy $A$ :

$D_{1}=\det(a_{{11}}),\ D_{2}=\det\left(\begin{array}[]{cc}a_{{11}}&a_{{12}}\\ a_{{21}}&a_{{22}}\end{array}\right),\ldots,D_{n}=\det\left(\begin{array}[]{ccc}a_{{11}}&\ldots&a_{{1n}}\\ \vdots&\ddots&\vdots\\ a_{{n1}}&\ldots&a_{{nn}}\end{array}\right).$

Forma kwadratowa $\mathbf{x}^{T}A\mathbf{x}$ jest ujemnie określona wtedy i tylko wtedy, gdy $\mathbf{x}^{T}(-A)\mathbf{x}$ jest dodatnio określona, co przekłada się na ciąg warunków:

$-D_{1}>0,\ D_{2}>0,\ldots\ldots,(-1)^{n}D_{n}>0.$
II. Forma kwadratowa $x^{T}Ax$ jest nieujemnie określona wtedy i tylko wtedy, gdy dla dowolnych $1\leq k\leq n$ oraz $1\leq i_{1}<i_{2}<\ldots<i_{k}\leq n$ zachodzi

$\det\left(\begin{array}[]{cccc}a_{{i_{1}i_{1}}}&a_{{i_{1}i_{2}}}&\ldots&a_{{i_{1}i_{k}}}\\ a_{{i_{2}i_{1}}}&a_{{i_{2}i_{2}}}&\ldots&a_{{i_{2}i_{k}}}\\ \vdots&\vdots&\ddots&\vdots\\ a_{{i_{k}i_{1}}}&a_{{i_{k}i_{2}}}&\ldots&a_{{i_{k}i_{k}}}\end{array}\right)\geq 0$

(jest to minor rzędu $k$ złożony z kolumn $i_{1},\ldots,i_{k}$ i rzędów $i_{1},\ldots,i_{k}$ ).

Określoność macierzy symetrycznej jest niezależna od bazy, w której jest reprezentowana. W bazie własnej macierz $A$ jest diagonalna z wartościami własnymi na diagonali. Dostajemy zatem następujące warunki równoważne określoności:

Macierz $A$ jest dodatnio określona wtw, gdy wszystkie jej wartości własne są dodatnie.
Macierz $A$ jest nieujemnie określona wtw, gdy wszystkie jej wartości własne są nieujemne.
Macierz $A$ jest ujemnie określona wtw, gdy wszystkie jej wartości własne są ujemne.
Macierz $A$ jest niedodatnio określona wtw, gdy wszystkie jej wartości własne są niedodatnie.

2.4. Warunki II-go rzędu (kryterium drugiej różniczki)

Twierdzenie 2.4 (Warunek konieczny II rzędu)

Jeśli $f$ jest klasy $C^{2}$ na zbiorze otwartym $W\subset\mathbb{R}^{n}$ i $\mathbf{x}_{0}\in W$ jest minimum lokalnym, to macierz $D^{2}f(\mathbf{x}_{0})$ jest nieujemnie określona. Podobnie, jeśli $\mathbf{x}_{0}$ jest lokalnym maksimum, to $D^{2}f(\mathbf{x}_{0})$ jest niedodatnio określona.

Twierdzenie 2.5 (Warunek dostateczny II rzędu)

Jeśli $f$ jest klasy $C^{2}$ na zbiorze otwartym $W\subset\mathbb{R}^{n}$ , $Df(\mathbf{x}_{0})=0$ oraz $D^{2}f(\mathbf{x}_{0})$ jest dodatnio określona (ujemnie określona) to $f$ ma ścisłe lokalne minimum (lokalne maksimum) w $\mathbf{x}_{0}$ .

Dowód twierdzenia 2.4

Niech $\mathbf{x}_{0}\in W$ będzie minimum lokalnym $f$ . Ustalmy niezerowy wektor $\mathbf{h}\in\mathbb{R}^{n}$ i funkcję

$g(t)=f(\mathbf{x}_{0}+t\mathbf{h}),$

gdzie $t\in\mathbb{R}$ jest z dostatecznie małego otoczenia zera, aby $\mathbf{x}_{0}+t\mathbf{h}\in W$ . Wtedy funkcja $g$ ma lokalne minimum w punkcie $t=0$ . Ponieważ $f$ jest klasy $C^{2}$ , funkcja $g$ również jest klasy $C^{2}$ . Z Twierdzenia 1.5 dla przypadku skalarnego wiemy, że skoro $t=0$ jest lokalnym minimum, to $g^{{\prime\prime}}(0)\ge 0$ . Ze wzorów na pochodną funkcji złożonej mamy

$g^{{\prime\prime}}(0)=\mathbf{h}^{T}D^{2}f(\mathbf{x}_{0})\mathbf{h}.$

Z dowolności wektora $\mathbf{h}$ wynika nieujemna określoność macierzy $D^{2}f(\mathbf{x}_{0})$ .

∎

Dowód twierdzenia 2.5

Załóżmy najpierw, że $D^{2}f(\mathbf{x}_{0})>0$ . Określmy funkcję $\alpha:W\to\mathbb{R}$ wzorem

$\alpha(\mathbf{x})=\inf _{{\|\mathbf{h}\|=1}}\mathbf{h}^{T}D^{2}f(\mathbf{x})\mathbf{h}.$

Funkcja ta jest ciągła na mocy ciągłości hesjanu $f$ oraz ćwiczenia 2.2. Istnieje zatem kula $B(\mathbf{x}_{0},\varepsilon)$ , taka że $\alpha(\mathbf{x})>0$ dla $\mathbf{x}\in B(\mathbf{x}_{0},\varepsilon)$ .

Ustalmy dowolny $\mathbf{x}\in B(\mathbf{x}_{0},\varepsilon)$ . Na mocy wzoru Taylora, lemat 2.1, mamy

$f(\mathbf{x})=f(\mathbf{x}_{0})+Df(\mathbf{x}_{0})(\mathbf{x}-\mathbf{x}_{0})+\frac{1}{2}(\mathbf{x}-\mathbf{x}_{0})^{T}D^{2}f(\tilde{\mathbf{x}})(\mathbf{x}-\mathbf{x}_{0}),$

dla pewnego punktu $\tilde{\mathbf{x}}$ leżącego na odcinku łączącym $\mathbf{x}_{0}$ i $\mathbf{x}$ , a zatem i należącego do kuli $B(\mathbf{x}_{0},\varepsilon)$ . Pierwsza pochodna $f$ znika w punkcie $\mathbf{x}_{0}$ , zaś

$(\mathbf{x}-\mathbf{x}_{0})^{T}D^{2}f(\tilde{\mathbf{x}})(\mathbf{x}-\mathbf{x}_{0})=\|\mathbf{x}-\mathbf{x}_{0}\|^{2}\frac{(\mathbf{x}-\mathbf{x}_{0})^{T}}{\|\mathbf{x}-\mathbf{x}_{0}\|}D^{2}f(\tilde{\mathbf{x}})\frac{(\mathbf{x}-\mathbf{x}_{0})}{\|\mathbf{x}-\mathbf{x}_{0}\|}\ge\|\mathbf{x}-\mathbf{x}_{0}\|^{2}\alpha(\tilde{\mathbf{x}}).$

Mamy zatem

$f(\mathbf{x})-f(\mathbf{x}_{0})\ge\|\mathbf{x}-\mathbf{x}_{0}\|^{2}\alpha(\tilde{\mathbf{x}})>0,$

gdyż funkcja $\alpha$ jest dodatnia na kuli $B(\mathbf{x}_{0},\varepsilon)$ . Wnioskujemy więc, że $\mathbf{x}_{0}$ jest ścisłym minimum lokalnym.

Dowód przypadku $D^{2}f(\mathbf{x}_{0})<0$ jest analogiczny.

∎

2.4.1. Ekstrema globalne i określoność drugiej różniczki

Niech teraz $f:W\to\mathbb{R}$ będzie funkcją klasy $C^{1}$ na zbiorze wypukłym $W\in\mathbb{R}^{n}$ , oraz klasy $C^{2}$ na $\mathop{\rm int}W$ .

Twierdzenie 2.6

Jeśli $\mathbf{x}_{0}\in\mathop{\rm int}W$ jest punktem krytycznym $f$ , to:

I) $D^{2}f(\mathbf{x})\geq 0\quad\forall _{{\mathbf{x}\in\mathop{\rm int}W}}\quad\Longrightarrow\quad\mathbf{x}_{0}$ jest globalnym minimum,
II) $D^{2}f(\mathbf{x})\leq 0\quad\forall _{{\mathbf{x}\in\mathop{\rm int}W}}\quad\Longrightarrow\quad\mathbf{x}_{0}$ jest globalnym maksimum.

Jeśli dodatkowo $D^{2}f(\mathbf{x}_{0})>0$ w pierwszym stwierdzeniu ( $D^{2}f(\mathbf{x}_{0})<0$ w drugim stwierdzeniu), to $\mathbf{x}_{0}$ jest ścisłym globalnym minimum (maksimum).

Dowód

Jeśli $\mathbf{x}\in W$ , to z wypukłości $W$ cały odcinek łączący $\mathbf{x}_{0}$ z $\mathbf{x}$ (poza punktem $\mathbf{x}$ ) leży w $\mathop{\rm int}W$ i możemy zastosować wzór Taylora, lemat 2.1, który daje

$f(\mathbf{x})=f(\mathbf{x}_{0})+\frac{1}{2}(\mathbf{x}-\mathbf{x}_{0})^{T}D^{2}f(\tilde{\mathbf{x}})(\mathbf{x}-\mathbf{x}_{0}),$

gdzie $\tilde{\mathbf{x}}$ jest pewnym punktem z odcinka łączącego $\mathbf{x}_{0}$ z $\mathbf{x}$ . Nierówność $D^{2}f(\tilde{\mathbf{x}})\ge 0$ (odpowiednio, $D^{2}f(\tilde{\mathbf{x}})\le 0$ ) oznacza, że drugi człon w powyższym wzorze jest nieujemny (niedodatni), co pociąga obie implikacje w twierdzeniu.

W przypadku, gdy w (I) mamy dodatkowo $D^{2}f(\mathbf{x}_{0})>0$ , odwołamy się do używanej już funkcji $g(t)=f\big(\mathbf{x}_{0}+t(\mathbf{x}-\mathbf{x}_{0})\big)$ , $t\in[0,1]$ . Z wypukłości $W$ wynika, że $g$ jest dobrze określona, tzn. $\mathbf{x}_{0}+t(\mathbf{x}-\mathbf{x}_{0})\in W$ dla $t\in[0,1]$ . Nasze założenia implikują, że $g^{{\prime}}(0)=0$ , $g^{{\prime\prime}}(0)>0$ oraz $g^{{\prime\prime}}(t)\ge 0$ . Możemy skorzystać z tw. 1.11, które stwierdza, że $g$ ma ścisłe globalne minimum w $t=0$ . Zatem $g(1)>g(0)$ , czyli $f(\mathbf{x})>f(\mathbf{x}_{0})$ . Z dowolności $\mathbf{x}$ wynika, iż $\mathbf{x}_{0}$ jest ścisłym minimum globalnym.

Przypadek $D^{2}f(\mathbf{x}_{0})<0$ w stwierdzeniu (II) dowodzimy analogicznie.

∎

2.5. Zadania

Ćwiczenie 2.1

Wykaż, że hesjan funkcji

$f(x_{1},x_{2})=\begin{cases}0,&x_{1}=x_{2}=0,\\ \frac{x_{1}x_{2}(x_{1}^{2}-x_{2}^{2})}{x_{1}^{2}+x_{2}^{2}},&\text{w p.p.},\end{cases}$

nie jest symetryczny w punkcie $(0,0)$ .

Ćwiczenie 2.2

Niech $W\subset\mathbb{R}^{k}$ , $A\subset\mathbb{R}^{n}$ zwarty oraz $f:W\times A\to\mathbb{R}$ ciągła. Udowodnij, że funkcja $g:W\to\mathbb{R}$ zadana wzorem

$g(\mathbf{x})=\inf _{{\mathbf{y}\in A}}f(\mathbf{x},\mathbf{y})$

jest ciągła.

Ćwiczenie 2.3

Pochodną kierunkową funkcji $f$ w punkcie ${\bar{\mathbf{x}}}$ i kierunku $\mathbf{d}$ nazywamy granicę

$D_{\mathbf{d}}f({\bar{\mathbf{x}}})=\lim _{{h\to 0}}\frac{f({\bar{\mathbf{x}}}+h\mathbf{d})-f({\bar{\mathbf{x}}})}{h}.$

Udowodnij, że $\max _{{\|\mathbf{d}\|=1}}\| D_{\mathbf{d}}f({\bar{\mathbf{x}}})\|$ jest przyjmowane dla $\mathbf{d}=Df({\bar{\mathbf{x}}})/\| Df({\bar{\mathbf{x}}})\|$ .

Ćwiczenie 2.4

Rozważmy następującą funkcję (czasami zwaną funkcją Peano):

$f(x_{1},x_{2})=(x_{2}^{2}-x_{1})(x_{2}^{2}-2x_{1}).$

Udowodnij, że funkcja $f$ ograniczona do każdej prostej przechodzącej przez $\mathbf{0}$ ma w tym punkcie minimum lokalne.
Wykaż, że $f$ jako funkcja wielu zmiennych nie ma ekstremum lokalnego w $\mathbf{0}$ .
Znajdź wartości własne macierzy drugiej pochodnej $f$ . Co możesz z nich wywnioskować? Czy tłumaczą one zachowanie funkcji $f$ w $\mathbf{0}$ ?

Ćwiczenie 2.5

Rozważmy funkcję kwadratową wielu zmiennych:

$f(\mathbf{x})=\frac{1}{2}\mathbf{x}^{T}A\mathbf{x}+\mathbf{b}^{T}\mathbf{x}+c,$

gdzie $A$ jest macierzą kwadratową, niekoniecznie symetryczną, $\mathbf{b}$ jest wektorem, zaś $c$ stałą. Wyznacz gradient i hesjan (macierz drugiej pochodnej) funkcji $f$ .

Wskazówka:

Załóż najpierw, że $A$ jest symetryczna. Udowodnij później, że dla każdej macierzy kwadratowej $A$ istnieje macierz symetryczna $\hat{A}$ , taka że $\mathbf{x}^{T}\hat{A}\mathbf{x}=\mathbf{x}^{T}A\mathbf{x}$ dla każdego $\mathbf{x}$ .

Ćwiczenie 2.6

Zbadaj określoność następujących macierzy i porównaj wyniki z ich formą zdiagonalizowaną:

$\begin{bmatrix}-3&1\\ 1&-2\end{bmatrix},\qquad\begin{bmatrix}3&1\\ 1&-2\end{bmatrix},\qquad\begin{bmatrix}4&2\\ 2&1\end{bmatrix},\qquad\begin{bmatrix}2&-2&0\\ -2&2&0\\ 0&0&3\end{bmatrix}.$

Ćwiczenie 2.7

Znajdź ekstrema globalne funkcji

$f(\mathbf{x})=\frac{1}{2}\mathbf{x}^{T}\begin{bmatrix}-3&1\\ 1&-2\end{bmatrix}\mathbf{x}+[2,1]\mathbf{x}+17.$

Ćwiczenie 2.8

Niech $(\Omega,\mathcal{F},\mathbb{P})$ będzie przestrzenią probabilistyczną, co między innymi oznacza, że $\mathbb{P}(\Omega)=1$ . Dana jest zmienna losowa $\eta\in L^{2}(\Omega,\mathcal{F},\mathbb{P})$ , tzn. funkcja mierzalna $\eta:\Omega\to\mathbb{R}^{n}$ o tej własności, że $\mathbb{E}\|\eta\|^{2}<\infty$ . Znajdź wektor ${\bar{\mathbf{x}}}\in\mathbb{R}^{n}$ , taki że $\mathbb{E}\|\eta-\mathbf{x}\|^{2}$ jest najmniejsza.

Wskazówka:

Zapisz $\mathbb{E}\|\eta-\mathbf{x}\|^{2}$ jako funkcję kwadratową.

Ćwiczenie 2.9

Niech $f:\mathbb{R}^{n}\to\mathbb{R}$ i ${\bar{\mathbf{x}}}\in\mathbb{R}^{n}$ . Załóżmy, że $f$ jest klasy $C^{2}$ na otoczeniu ${\bar{\mathbf{x}}}$ oraz $Df({\bar{\mathbf{x}}})=\mathbf{0}^{T}$ . Udowodnij, że jeśli macierz $D^{2}f({\bar{\mathbf{x}}})$ jest nieokreślona, to $f$ nie ma ekstremum lokalnego w ${\bar{\mathbf{x}}}$ .

Ćwiczenie 2.10

Udowodnij nierówność średnich rozwiązując zadanie optymalizacyjne:

$\begin{cases}xytz\to\max,&\\ x+y+t+z=4c,&\\ x,y,t,z\in[0,\infty).&\end{cases}$

Ćwiczenie 2.11

Znajdź minima lokalne funkcji

$f(x,y)=\frac{1}{4}x^{4}+\frac{1}{3}x^{3}-2xy+y^{2}+2x-2y+1.$

Treść automatycznie generowana z plików źródłowych LaTeXa za pomocą oprogramowania wykorzystującego LaTeXML.

Optymalizacja II

Zagadnienia

2. Ekstrema funkcji wielu zmiennych

2.1. Notacja i twierdzenia Taylora w wielu wymiarach

Definicja 2.1

Uwaga 2.1

Twierdzenie 2.1

Uwaga 2.2

Uwaga 2.3

Lemat 2.1

Dowód

Definicja 2.2

Wniosek 2.1

Dowód

2.2. Znikanie gradientu

Twierdzenie 2.2 (Warunek konieczny I rzędu)

Dowód

Definicja 2.3

2.3. Dodatnia i ujemna określoność macierzy

Definicja 2.4

Twierdzenie 2.3 (Kryterium Sylvestera)

2.4. Warunki II-go rzędu (kryterium drugiej różniczki)

Twierdzenie 2.4 (Warunek konieczny II rzędu)

Twierdzenie 2.5 (Warunek dostateczny II rzędu)

Dowód twierdzenia 2.4

Dowód twierdzenia 2.5

2.4.1. Ekstrema globalne i określoność drugiej różniczki

Twierdzenie 2.6

Dowód

2.5. Zadania

Ćwiczenie 2.1

Ćwiczenie 2.2

Ćwiczenie 2.3

Ćwiczenie 2.4

Ćwiczenie 2.5

Ćwiczenie 2.6

Ćwiczenie 2.7

Ćwiczenie 2.8

Ćwiczenie 2.9

Ćwiczenie 2.10

Ćwiczenie 2.11