Notice: Undefined index: mode in /home/misc/mst/public_html/common.php on line 63 Notice: Undefined index: mode in /home/misc/mst/public_html/common.php on line 65 Notice: Undefined index: mode in /home/misc/mst/public_html/common.php on line 67 Notice: Undefined index: mode in /home/misc/mst/public_html/common.php on line 69 Notice: Undefined variable: base in /home/misc/mst/public_html/lecture.php on line 36 Optymalizacja II – 2. Ekstrema funkcji wielu zmiennych – MIM UW

Zagadnienia

2. Ekstrema funkcji wielu zmiennych

2.1. Notacja i twierdzenia Taylora w wielu wymiarach

W tym podrozdziale przypomnimy krótko twierdzenia Taylora dla funkcji wielu zmiennych. Wprowadźmy najpierw niezbędną notację.

Niech f:W\to\mathbb{R}, gdzie W\subset\mathbb{R}^{n} jest zbiorem otwartym. Przyjmiemy następujące oznaczenia:

  • \mathbf{x}=(x_{1},x_{2},\ldots,x_{n})^{T} – wektor kolumnowy,

  • f(\mathbf{x})=f(x_{1},x_{2},\ldots,x_{n}),

  • Df(\mathbf{x})=\left(\frac{\partial f}{\partial x_{1}},\frac{\partial f}{\partial x_{2}},\cdots,\frac{\partial f}{\partial x_{n}}\right) – gradient funkcji f,

  • D^{2}f(\mathbf{x}) – Hesjan funkcji f:

    D^{2}f(\mathbf{x})=\left(\begin{array}[]{cccc}\frac{\partial^{2}f}{\partial x_{1}^{2}}&\frac{\partial^{2}f}{\partial x_{1}\partial x_{2}}&\cdots&\frac{\partial^{2}f}{\partial x_{1}\partial x_{n}}\\
\frac{\partial^{2}f}{\partial x_{2}\partial x_{1}}&\frac{\partial^{2}f}{\partial x_{2}^{2}}&\cdots&\frac{\partial^{2}f}{\partial x_{2}\partial x_{n}}\\
\vdots&\vdots&\ddots&\\
\frac{\partial^{2}f}{\partial x_{n}\partial x_{1}}&\frac{\partial^{2}f}{\partial x_{n}\partial x_{2}}&\cdots&\frac{\partial^{2}f}{\partial x_{n}^{2}}\\
\end{array}\right).
Definicja 2.1

Funkcja f jest różniczkowalna w punkcie \mathbf{x}_{0}\in W, jeśli istnieje wektor \alpha\in\mathbb{R}^{n}, taki że

f(\mathbf{x})=f(\mathbf{x}_{0})+\alpha^{T}(\mathbf{x}-\mathbf{x}_{0})+o(\|\mathbf{x}-\mathbf{x}_{0}\|)

dla \mathbf{x}\in W.

Funkcja f jest dwukrotnie różniczkowalna w punkcie \mathbf{x}_{0}\in W, jeśli istnieje wektor \alpha\in\mathbb{R}^{n} oraz macierz H\in\mathbb{R}^{{n\ \times n}}, takie że

f(\mathbf{x})=f(\mathbf{x}_{0})+\alpha^{T}(\mathbf{x}-\mathbf{x}_{0})+\frac{1}{2}(\mathbf{x}-\mathbf{x}_{0})^{T}H(\mathbf{x}-\mathbf{x}_{0})+o(\|\mathbf{x}-\mathbf{x}_{0}\|^{2})

dla \mathbf{x}\in W.

Uwaga 2.1

Możemy założyć, że macierz H w powyższej definicji jest symetryczna. Wystarczy zauważyć, że

(\mathbf{x}-\mathbf{x}_{0})^{T}H(\mathbf{x}-\mathbf{x}_{0})=(\mathbf{x}-\mathbf{x}_{0})^{T}\frac{H+H^{T}}{2}(\mathbf{x}-\mathbf{x}_{0}).
Twierdzenie 2.1

\

  • I) Jeśli funkcja f jest różniczkowalna w \mathbf{x}_{0}, to Df(\mathbf{x}_{0}) istnieje i \alpha=Df(\mathbf{x}_{0})^{T}. Odwrotnie, jeśli Df(\mathbf{x}) istnieje w pewnym otoczeniu \mathbf{x}_{0} i jest ciągłe w \mathbf{x}_{0}, to f jest różniczkowalna w \mathbf{x}_{0}.

  • II) Jeśli hesjan D^{2}f(\mathbf{x}) istnieje w pewnym otoczeniu \mathbf{x}_{0} i jest ciągły w \mathbf{x}_{0}, to f jest dwukrotnie różniczkowalna w \mathbf{x}_{0}, D^{2}f(\mathbf{x}_{0}) jest macierzą symetryczną oraz H=D^{2}f(\mathbf{x}_{0}).

Dowód powyższego twierdzenia pomijamy. Zainteresowany czytelnik znajdzie go w podręcznikach analizy wielowymiarowej.

Uwaga 2.2

Ilekroć będziemy chcieli wykorzystać drugą pochodną funkcji wielowymiarowej, bedziemy musieli zakładać, że hesjan D^{2}f jest funkcją ciągłą. Jeśli nie poczynimy takiego założenia, nie będziemy mieli dobrego sposobu na policzenie drugiej pochodnej, a zatem taki rezultat będzie miał małą wartość praktyczną.

Uwaga 2.3

Dla funkcji f:W\to\mathbb{R} określonej na zbiorze otwartym W\subset\mathbb{R}^{n} mówimy, że f jest klasy C^{1} (odpowiednio, klasy C^{2}) i piszemy f\in C^{1} (f\in C^{2}), gdy f jest ciągła na W oraz \frac{\partial f}{\partial x_{i}} (odpowiednio, \frac{\partial f}{\partial x_{i}} i \frac{\partial^{2}f}{\partial x_{i}\partial x_{j}}) istnieją i są ciągłe na W. Gdy rozważany zbiór W\subset\mathbb{R}^{n} nie jest otwarty, mówimy że f jest klasy C^{1} (odpowiednio, klasy C^{2}) na W, jeśli istnieje rozszerzenie \tilde{f} funkcji f do zbioru otwartego \tilde{W} zawierającego W takie, że \tilde{f} jest klasy C^{1} (odpowiednio, klasy C^{2}) na \tilde{W}. W tym wypadku można więc mówić o pochodnych cząstkowych funkcji f również w punktach brzegowych zbioru W. Pochodne te są jednoznacznie określone przez wartości funkcji na \mathop{\rm int}W, jeśli zachodzi W\subset\mathop{\rm cl}(\mathop{\rm int}W) (wynika to z ciągłości tych pochodnych).

Zapiszemy teraz rozwinięcie Taylora rzędu 2.

Lemat 2.1

Niech W\subset\mathbb{R}^{n} otwarty. Dla funkcji f:W\to\mathbb{R} klasy C^{2} i punktów \mathbf{x},\mathbf{x}_{0}\in W takich, że odcinek łączący \mathbf{x}_{0} z \mathbf{x} leży w W zachodzi

f(\mathbf{x})=f(\mathbf{x}_{0})+Df(\mathbf{x}_{0})(\mathbf{x}-\mathbf{x}^{0})+\frac{1}{2}(\mathbf{x}-\mathbf{x}^{0})^{T}D^{2}f(\tilde{\mathbf{x}})(\mathbf{x}-\mathbf{x}_{0}),

gdzie \tilde{\mathbf{x}} jest pewnym punktem wewnątrz odcinka łączącego \mathbf{x}_{0} z \mathbf{x}.

Dowód

Dowód wynika z zastosowania twierdzenia 1.10 do funkcji g(t)=f\big(\mathbf{x}_{0}+t(\mathbf{x}-\mathbf{x}_{0})\big), t\in[0,1].

Definicja 2.2

Podzbiór W\subset\mathbb{R}^{n} jest wypukły, jeśli

\lambda x+(1-\lambda)y\in W

dla każdych x,y\in W i każdego \lambda\in[0,1].

Wniosek 2.1

Niech W\subset\mathbb{R}^{n} zbiór otwarty, wypukły oraz f:W\to\mathbb{R} klasy C^{2}. Wówczas dla dowolnych \mathbf{x}_{0},\mathbf{x}\in W mamy

f(\mathbf{x})=f(\mathbf{x}_{0})+Df(\mathbf{x}_{0})(\mathbf{x}-\mathbf{x}_{0})+\frac{1}{2}(\mathbf{x}-\mathbf{x}_{0})^{T}D^{2}f(\tilde{\mathbf{x}})(\mathbf{x}-\mathbf{x}_{0}),

gdzie \tilde{\mathbf{x}} należy do wnętrza odcinka łączącego \mathbf{x}_{0} i \mathbf{x}, tzn. istnieje \lambda\in(0,1, taka że \tilde{\mathbf{x}}=\lambda\mathbf{x}_{0}+(1-\lambda)\mathbf{x}.

Dowód

Z wypukłości W wynika, że dla każdego \mathbf{x}_{0},\mathbf{x}\in W odcinek łączący te punkty zawarty jest w W. Teza wynika teraz z lematu 2.1.

2.2. Znikanie gradientu

Będziemy rozważać funkcję f:W\to\mathbb{R}, gdzie W jest podzbiorem w \mathbb{R}^{n} mającym niepuste wnętrze \mathop{\rm int}W.

Twierdzenie 2.2 (Warunek konieczny I rzędu)

Jeśli funkcja f:W\to\mathbb{R} jest różniczkowalna w punkcie \mathbf{x}_{0} należącym do wnętrza zbioru W oraz \mathbf{x}_{0} jest lokalnym minimum (maksimum) funkcji f to

Df(\mathbf{x}_{0})=0.
Dowód

Z faktu, że \mathbf{x}_{0}\in\mathop{\rm int}W wynika, że funkcja g(t)=f(\mathbf{x}_{0}+t\mathbf{e}_{i}), gdzie \mathbf{e}_{i} jest i-tym wersorem (tj. \mathbf{e}_{i} ma jedynkę na i-tej współrzędnej i zera poza nią), jest dobrze określona na otoczeniu 0. Ma ona również lokalne ekstremum w punkcie 0. Na mocy tw. 1.4 mamy g^{{\prime}}(0)=0. W terminach funkcji f oznacza to, że \frac{\partial f}{\partial x_{i}}(\mathbf{x}_{0})=0. Przeprowadzając to rozumowanie dla i=1,2,\ldots,n dostajemy tezę..

Warunek znikania gradientu będzie często używany, zatem użyteczna będzie

Definicja 2.3

Punkt \mathbf{x}_{0}\in\mathop{\rm int}W nazywamy punktem krytycznym funkcji f:W\to\mathbb{R}, jeśli f jest różniczkowalna w \mathbf{x}_{0} oraz Df(\mathbf{x}_{0})=0.

Oczywiście, warunek znikania gradientu Df(\mathbf{x}_{0}) nie jest wystarczający na to, by w \mathbf{x}_{0} znajdowało się lokalne minimum lub maksimum. Do rozstrzygnięcia tego jest potrzebny analog warunku o znaku drugiej pochodnej (tw. 1.6). W przypadku wielowymiarowym ten warunek definiuje się jako dodatnią (ujemną) określoność macierzy drugich pochodnych.

2.3. Dodatnia i ujemna określoność macierzy

Niech A=\{ a_{{ij}}\} _{{i,j=1}}^{{n}} będzie macierzą symetryczną, tzn. a_{{ij}}=a_{{ji}}. Rozważmy formę kwadratową

\mathbf{x}^{T}A\mathbf{x}=\sum _{{i,j=1}}^{{n}}a_{{ij}}x_{i}x_{j}.
Definicja 2.4

Określoność macierzy A lub formy kwadratowej \mathbf{x}^{T}A\mathbf{x} definiujemy następująco:

  • A jest nieujemnie określona, co oznaczamy A\ge 0, jeśli

    \mathbf{x}^{T}A\mathbf{x}\geq 0\qquad\forall\ \mathbf{x}\in\mathbb{R}^{n}.
  • A jest dodatnio określona, co oznaczamy A>0, jeśli

    \mathbf{x}^{T}A\mathbf{x}>0\qquad\forall\ \mathbf{x}\in\mathbb{R}^{n}\setminus\{ 0\}.

Odwracając nierówności definiujemy niedodatnią określoność i ujemną określoność.

  • Macierz A nazywamy nieokreśloną, jeśli istnieją wektory \mathbf{x},\ \tilde{\mathbf{x}}\in\mathbb{R}^{n} takie, że

    \mathbf{x}^{T}A\mathbf{x}>0,\qquad\tilde{\mathbf{x}}^{T}A\tilde{\mathbf{x}}<0.

Zauważmy, że z definicji określoności macierzy, wyliczając wyrażenie \mathbf{e}_{i}^{T}A\mathbf{e}_{i}=a_{{ii}} na wersorze \mathbf{e}_{i}=(0,\dots,1,\dots,0)^{T}, z jedynką na i-tym miejscu, wynikają następujące warunki konieczne odpowiedniej określoności macierzy A:

  • Jeśli A jest dodatnio określona, to a_{{11}}>0,\dots,a_{{nn}}>0.

  • Jeśli A jest nieujemnie określona, to a_{{11}}\ge 0,\dots,a_{{nn}}\ge 0.

  • Jeśli A jest ujemnie określona, to a_{{11}}<0,\dots,a_{{nn}}<0.

  • Jeśli A jest niedodatnio określona, to a_{{11}}\le 0,\dots,a_{{nn}}\le 0.

  • Jeśli a_{{ii}}>0 i a_{{jj}}<0, dla pewnych i, j, to A jest nieokreślona.

Warunki konieczne i dostateczne podane są w poniższym twierdzeniu, którego dowód pomijamy.

Twierdzenie 2.3 (Kryterium Sylvestera)

\

  • I. Forma kwadratowa \mathbf{x}^{T}A\mathbf{x} jest dodatnio określona wtedy i tylko wtedy, gdy zachodzi:

    D_{1}>0,\  D_{2}>0,\ldots\ldots,D_{n}>0,

    gdzie przez D_{1},\dots,D_{n} oznaczamy minory główne macierzy A:

    D_{1}=\det(a_{{11}}),\  D_{2}=\det\left(\begin{array}[]{cc}a_{{11}}&a_{{12}}\\
a_{{21}}&a_{{22}}\end{array}\right),\ldots,D_{n}=\det\left(\begin{array}[]{ccc}a_{{11}}&\ldots&a_{{1n}}\\
\vdots&\ddots&\vdots\\
a_{{n1}}&\ldots&a_{{nn}}\end{array}\right).

    Forma kwadratowa \mathbf{x}^{T}A\mathbf{x} jest ujemnie określona wtedy i tylko wtedy, gdy \mathbf{x}^{T}(-A)\mathbf{x} jest dodatnio określona, co przekłada się na ciąg warunków:

    -D_{1}>0,\  D_{2}>0,\ldots\ldots,(-1)^{n}D_{n}>0.
  • II. Forma kwadratowa x^{T}Ax jest nieujemnie określona wtedy i tylko wtedy, gdy dla dowolnych 1\leq k\leq n oraz 1\leq i_{1}<i_{2}<\ldots<i_{k}\leq n zachodzi

    \det\left(\begin{array}[]{cccc}a_{{i_{1}i_{1}}}&a_{{i_{1}i_{2}}}&\ldots&a_{{i_{1}i_{k}}}\\
a_{{i_{2}i_{1}}}&a_{{i_{2}i_{2}}}&\ldots&a_{{i_{2}i_{k}}}\\
\vdots&\vdots&\ddots&\vdots\\
a_{{i_{k}i_{1}}}&a_{{i_{k}i_{2}}}&\ldots&a_{{i_{k}i_{k}}}\end{array}\right)\geq 0

    (jest to minor rzędu k złożony z kolumn i_{1},\ldots,i_{k} i rzędów i_{1},\ldots,i_{k}).

Określoność macierzy symetrycznej jest niezależna od bazy, w której jest reprezentowana. W bazie własnej macierz A jest diagonalna z wartościami własnymi na diagonali. Dostajemy zatem następujące warunki równoważne określoności:

  • Macierz A jest dodatnio określona wtw, gdy wszystkie jej wartości własne są dodatnie.

  • Macierz A jest nieujemnie określona wtw, gdy wszystkie jej wartości własne są nieujemne.

  • Macierz A jest ujemnie określona wtw, gdy wszystkie jej wartości własne są ujemne.

  • Macierz A jest niedodatnio określona wtw, gdy wszystkie jej wartości własne są niedodatnie.

2.4. Warunki II-go rzędu (kryterium drugiej różniczki)

Twierdzenie 2.4 (Warunek konieczny II rzędu)

Jeśli f jest klasy C^{2} na zbiorze otwartym W\subset\mathbb{R}^{n} i \mathbf{x}_{0}\in W jest minimum lokalnym, to macierz D^{2}f(\mathbf{x}_{0}) jest nieujemnie określona. Podobnie, jeśli \mathbf{x}_{0} jest lokalnym maksimum, to D^{2}f(\mathbf{x}_{0}) jest niedodatnio określona.

Twierdzenie 2.5 (Warunek dostateczny II rzędu)

Jeśli f jest klasy C^{2} na zbiorze otwartym W\subset\mathbb{R}^{n}, Df(\mathbf{x}_{0})=0 oraz D^{2}f(\mathbf{x}_{0}) jest dodatnio określona (ujemnie określona) to f ma ścisłe lokalne minimum (lokalne maksimum) w \mathbf{x}_{0}.

Dowód twierdzenia 2.4

Niech \mathbf{x}_{0}\in W będzie minimum lokalnym f. Ustalmy niezerowy wektor \mathbf{h}\in\mathbb{R}^{n} i funkcję

g(t)=f(\mathbf{x}_{0}+t\mathbf{h}),

gdzie t\in\mathbb{R} jest z dostatecznie małego otoczenia zera, aby \mathbf{x}_{0}+t\mathbf{h}\in W. Wtedy funkcja g ma lokalne minimum w punkcie t=0. Ponieważ f jest klasy C^{2}, funkcja g również jest klasy C^{2}. Z Twierdzenia 1.5 dla przypadku skalarnego wiemy, że skoro t=0 jest lokalnym minimum, to g^{{\prime\prime}}(0)\ge 0. Ze wzorów na pochodną funkcji złożonej mamy

g^{{\prime\prime}}(0)=\mathbf{h}^{T}D^{2}f(\mathbf{x}_{0})\mathbf{h}.

Z dowolności wektora \mathbf{h} wynika nieujemna określoność macierzy D^{2}f(\mathbf{x}_{0}).

Dowód twierdzenia 2.5

Załóżmy najpierw, że D^{2}f(\mathbf{x}_{0})>0. Określmy funkcję \alpha:W\to\mathbb{R} wzorem

\alpha(\mathbf{x})=\inf _{{\|\mathbf{h}\|=1}}\mathbf{h}^{T}D^{2}f(\mathbf{x})\mathbf{h}.

Funkcja ta jest ciągła na mocy ciągłości hesjanu f oraz ćwiczenia 2.2. Istnieje zatem kula B(\mathbf{x}_{0},\varepsilon), taka że \alpha(\mathbf{x})>0 dla \mathbf{x}\in B(\mathbf{x}_{0},\varepsilon).

Ustalmy dowolny \mathbf{x}\in B(\mathbf{x}_{0},\varepsilon). Na mocy wzoru Taylora, lemat 2.1, mamy

f(\mathbf{x})=f(\mathbf{x}_{0})+Df(\mathbf{x}_{0})(\mathbf{x}-\mathbf{x}_{0})+\frac{1}{2}(\mathbf{x}-\mathbf{x}_{0})^{T}D^{2}f(\tilde{\mathbf{x}})(\mathbf{x}-\mathbf{x}_{0}),

dla pewnego punktu \tilde{\mathbf{x}} leżącego na odcinku łączącym \mathbf{x}_{0} i \mathbf{x}, a zatem i należącego do kuli B(\mathbf{x}_{0},\varepsilon). Pierwsza pochodna f znika w punkcie \mathbf{x}_{0}, zaś

(\mathbf{x}-\mathbf{x}_{0})^{T}D^{2}f(\tilde{\mathbf{x}})(\mathbf{x}-\mathbf{x}_{0})=\|\mathbf{x}-\mathbf{x}_{0}\|^{2}\frac{(\mathbf{x}-\mathbf{x}_{0})^{T}}{\|\mathbf{x}-\mathbf{x}_{0}\|}D^{2}f(\tilde{\mathbf{x}})\frac{(\mathbf{x}-\mathbf{x}_{0})}{\|\mathbf{x}-\mathbf{x}_{0}\|}\ge\|\mathbf{x}-\mathbf{x}_{0}\|^{2}\alpha(\tilde{\mathbf{x}}).

Mamy zatem

f(\mathbf{x})-f(\mathbf{x}_{0})\ge\|\mathbf{x}-\mathbf{x}_{0}\|^{2}\alpha(\tilde{\mathbf{x}})>0,

gdyż funkcja \alpha jest dodatnia na kuli B(\mathbf{x}_{0},\varepsilon). Wnioskujemy więc, że \mathbf{x}_{0} jest ścisłym minimum lokalnym.

Dowód przypadku D^{2}f(\mathbf{x}_{0})<0 jest analogiczny.

2.4.1. Ekstrema globalne i określoność drugiej różniczki

Niech teraz f:W\to\mathbb{R} będzie funkcją klasy C^{1} na zbiorze wypukłym W\in\mathbb{R}^{n}, oraz klasy C^{2} na \mathop{\rm int}W.

Twierdzenie 2.6

Jeśli \mathbf{x}_{0}\in\mathop{\rm int}W jest punktem krytycznym f, to:

  • I) D^{2}f(\mathbf{x})\geq 0\quad\forall _{{\mathbf{x}\in\mathop{\rm int}W}}\quad\Longrightarrow\quad\mathbf{x}_{0} jest globalnym minimum,

  • II) D^{2}f(\mathbf{x})\leq 0\quad\forall _{{\mathbf{x}\in\mathop{\rm int}W}}\quad\Longrightarrow\quad\mathbf{x}_{0} jest globalnym maksimum.

Jeśli dodatkowo D^{2}f(\mathbf{x}_{0})>0 w pierwszym stwierdzeniu (D^{2}f(\mathbf{x}_{0})<0 w drugim stwierdzeniu), to \mathbf{x}_{0} jest ścisłym globalnym minimum (maksimum).

Dowód

Jeśli \mathbf{x}\in W, to z wypukłości W cały odcinek łączący \mathbf{x}_{0} z \mathbf{x} (poza punktem \mathbf{x}) leży w \mathop{\rm int}W i możemy zastosować wzór Taylora, lemat 2.1, który daje

f(\mathbf{x})=f(\mathbf{x}_{0})+\frac{1}{2}(\mathbf{x}-\mathbf{x}_{0})^{T}D^{2}f(\tilde{\mathbf{x}})(\mathbf{x}-\mathbf{x}_{0}),

gdzie \tilde{\mathbf{x}} jest pewnym punktem z odcinka łączącego \mathbf{x}_{0} z \mathbf{x}. Nierówność D^{2}f(\tilde{\mathbf{x}})\ge 0 (odpowiednio, D^{2}f(\tilde{\mathbf{x}})\le 0) oznacza, że drugi człon w powyższym wzorze jest nieujemny (niedodatni), co pociąga obie implikacje w twierdzeniu.

W przypadku, gdy w (I) mamy dodatkowo D^{2}f(\mathbf{x}_{0})>0, odwołamy się do używanej już funkcji g(t)=f\big(\mathbf{x}_{0}+t(\mathbf{x}-\mathbf{x}_{0})\big), t\in[0,1]. Z wypukłości W wynika, że g jest dobrze określona, tzn. \mathbf{x}_{0}+t(\mathbf{x}-\mathbf{x}_{0})\in W dla t\in[0,1]. Nasze założenia implikują, że g^{{\prime}}(0)=0, g^{{\prime\prime}}(0)>0 oraz g^{{\prime\prime}}(t)\ge 0. Możemy skorzystać z tw. 1.11, które stwierdza, że g ma ścisłe globalne minimum w t=0. Zatem g(1)>g(0), czyli f(\mathbf{x})>f(\mathbf{x}_{0}). Z dowolności \mathbf{x} wynika, iż \mathbf{x}_{0} jest ścisłym minimum globalnym.

Przypadek D^{2}f(\mathbf{x}_{0})<0 w stwierdzeniu (II) dowodzimy analogicznie.

2.5. Zadania

Ćwiczenie 2.1

Wykaż, że hesjan funkcji

f(x_{1},x_{2})=\begin{cases}0,&x_{1}=x_{2}=0,\\
\frac{x_{1}x_{2}(x_{1}^{2}-x_{2}^{2})}{x_{1}^{2}+x_{2}^{2}},&\text{w p.p.},\end{cases}

nie jest symetryczny w punkcie (0,0).

Ćwiczenie 2.2

Niech W\subset\mathbb{R}^{k}, A\subset\mathbb{R}^{n} zwarty oraz f:W\times A\to\mathbb{R} ciągła. Udowodnij, że funkcja g:W\to\mathbb{R} zadana wzorem

g(\mathbf{x})=\inf _{{\mathbf{y}\in A}}f(\mathbf{x},\mathbf{y})

jest ciągła.

Ćwiczenie 2.3

Pochodną kierunkową funkcji f w punkcie {\bar{\mathbf{x}}} i kierunku \mathbf{d} nazywamy granicę

D_{\mathbf{d}}f({\bar{\mathbf{x}}})=\lim _{{h\to 0}}\frac{f({\bar{\mathbf{x}}}+h\mathbf{d})-f({\bar{\mathbf{x}}})}{h}.

Udowodnij, że \max _{{\|\mathbf{d}\|=1}}\| D_{\mathbf{d}}f({\bar{\mathbf{x}}})\| jest przyjmowane dla \mathbf{d}=Df({\bar{\mathbf{x}}})/\| Df({\bar{\mathbf{x}}})\|.

Ćwiczenie 2.4

Rozważmy następującą funkcję (czasami zwaną funkcją Peano):

f(x_{1},x_{2})=(x_{2}^{2}-x_{1})(x_{2}^{2}-2x_{1}).
  1. Udowodnij, że funkcja f ograniczona do każdej prostej przechodzącej przez \mathbf{0} ma w tym punkcie minimum lokalne.

  2. Wykaż, że f jako funkcja wielu zmiennych nie ma ekstremum lokalnego w \mathbf{0}.

  3. Znajdź wartości własne macierzy drugiej pochodnej f. Co możesz z nich wywnioskować? Czy tłumaczą one zachowanie funkcji f w \mathbf{0}?

Ćwiczenie 2.5

Rozważmy funkcję kwadratową wielu zmiennych:

f(\mathbf{x})=\frac{1}{2}\mathbf{x}^{T}A\mathbf{x}+\mathbf{b}^{T}\mathbf{x}+c,

gdzie A jest macierzą kwadratową, niekoniecznie symetryczną, \mathbf{b} jest wektorem, zaś c stałą. Wyznacz gradient i hesjan (macierz drugiej pochodnej) funkcji f.

Wskazówka: 

Załóż najpierw, że A jest symetryczna. Udowodnij później, że dla każdej macierzy kwadratowej A istnieje macierz symetryczna \hat{A}, taka że \mathbf{x}^{T}\hat{A}\mathbf{x}=\mathbf{x}^{T}A\mathbf{x} dla każdego \mathbf{x}.

Ćwiczenie 2.6

Zbadaj określoność następujących macierzy i porównaj wyniki z ich formą zdiagonalizowaną:

\begin{bmatrix}-3&1\\
1&-2\end{bmatrix},\qquad\begin{bmatrix}3&1\\
1&-2\end{bmatrix},\qquad\begin{bmatrix}4&2\\
2&1\end{bmatrix},\qquad\begin{bmatrix}2&-2&0\\
-2&2&0\\
0&0&3\end{bmatrix}.
Ćwiczenie 2.7

Znajdź ekstrema globalne funkcji

f(\mathbf{x})=\frac{1}{2}\mathbf{x}^{T}\begin{bmatrix}-3&1\\
1&-2\end{bmatrix}\mathbf{x}+[2,1]\mathbf{x}+17.
Ćwiczenie 2.8

Niech (\Omega,\mathcal{F},\mathbb{P}) będzie przestrzenią probabilistyczną, co między innymi oznacza, że \mathbb{P}(\Omega)=1. Dana jest zmienna losowa \eta\in L^{2}(\Omega,\mathcal{F},\mathbb{P}), tzn. funkcja mierzalna \eta:\Omega\to\mathbb{R}^{n} o tej własności, że \mathbb{E}\|\eta\|^{2}<\infty. Znajdź wektor {\bar{\mathbf{x}}}\in\mathbb{R}^{n}, taki że \mathbb{E}\|\eta-\mathbf{x}\|^{2} jest najmniejsza.

Wskazówka: 

Zapisz \mathbb{E}\|\eta-\mathbf{x}\|^{2} jako funkcję kwadratową.

Ćwiczenie 2.9

Niech f:\mathbb{R}^{n}\to\mathbb{R} i {\bar{\mathbf{x}}}\in\mathbb{R}^{n}. Załóżmy, że f jest klasy C^{2} na otoczeniu {\bar{\mathbf{x}}} oraz Df({\bar{\mathbf{x}}})=\mathbf{0}^{T}. Udowodnij, że jeśli macierz D^{2}f({\bar{\mathbf{x}}}) jest nieokreślona, to f nie ma ekstremum lokalnego w {\bar{\mathbf{x}}}.

Ćwiczenie 2.10

Udowodnij nierówność średnich rozwiązując zadanie optymalizacyjne:

\begin{cases}xytz\to\max,&\\
x+y+t+z=4c,&\\
x,y,t,z\in[0,\infty).&\end{cases}
Ćwiczenie 2.11

Znajdź minima lokalne funkcji

f(x,y)=\frac{1}{4}x^{4}+\frac{1}{3}x^{3}-2xy+y^{2}+2x-2y+1.

Treść automatycznie generowana z plików źródłowych LaTeXa za pomocą oprogramowania wykorzystującego LaTeXML.

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu Społecznego.

Projekt współfinansowany przez Ministerstwo Nauki i Szkolnictwa Wyższego i przez Uniwersytet Warszawski.