3.1. Zbiory wypukłe i twierdzenia o oddzielaniu
Przypomnijmy, za def. 2.2, definicję zbioru wypukłego: zbiór W⊂Rn jest wypukły, jeśli
dla każdych x,y∈W i każdego λ∈0,1. Równoważnie można wypukłość zdefiniować za pomocą m-tek punktów:
Lemat 3.1
Zbiór W⊂Rn jest wypukły wtw, gdy dla dowolnego m≥2, punktów x1,…,xm∈W oraz liczb a1,…,am≥0, takich że a1+…+am=1 mamy
Dowód tego lematu pozostawiamy jako ćwiczenie (patrz ćw. 3.3). Udowodnimy natomiast geometryczną własność zbiorów wypukłych, która przyda nam się wielokrotnie.
Lemat 3.2
Niech W⊂Rn będzie zbiorem wypukłym o niepustym wnętrzu. Wówczas:
-
I) Dla dowolnego x∈W oraz x0∈intW odcinek łączący x0 z x, z pominięciem punktu x, należy do wnętrza W:
| λx0+1-λx∈intW,∀ 0≤λ<1. | |
-
Dowód
Weźmy punkty x0 i x jak w założeniach lematu. Z otwartości intW wynika, że istnieje kula Bx0,ε⊂intW. Połączmy punkty tej kuli z punktem x. Dostaniemy ,,stożek” o wierzchołku x i podstawie Bx0,ε (patrz rys. 3.1). Stożek ten leży w całości w W. Jego wnętrze zawiera odcinek od x0 do x bez końca x. Kończy to zatem dowód (I). Dowód (II) wynika natychmiast z (I).
∎
Przypomnijmy bez dowodu twierdzenia o oddzielaniu zbiorów wypukłych w przestrzeniach Rn (dowody tych twierdzeń można znaleźć np. w rozdziale 2.4 monografii Bazaraa, Sherali, Shetty [3] lub w rozdziale 11 monografii Rockafellar'a [11]).
Twierdzenie 3.1 (Słabe twierdzenie o oddzielaniu)
Niech U,V⊂Rn będą niespustymi zbiorami wypukłymi, takimi że U∩V=∅. Wówczas istnieje hiperpłaszczyzna rozdzielająca U od V, tzn. istnieje niezerowy wektor a∈Rn spełniający
Korzystając z ciągłości odwzorowania liniowego x↦aTx dostajemy bardzo przydatny wniosek, który również będziemy nazywać słabym twierdzeniem o oddzielaniu.
Wniosek 3.1
Niech U,V⊂Rn będą niepustymi zbiorami wypukłymi, takimi że intU≠∅ i intU∩V=∅. Wówczas istnieje hiperpłaszczyzna rozdzielająca U od V, tzn. istnieje niezerowy wektor a∈Rn spełniający
Twierdzenie 3.2 (Mocne twierdzenie o oddzielaniu)
Niech U,V⊂Rn będą niepustymi zbiorami wypukłymi domkniętymi, U zwarty i U∩V=∅. Wówczas istnieje hiperpłaszczyzna ściśle rozdzielająca U od V, tzn. istnieje niezerowy wektor a∈Rn spełniający
Uwaga 3.1
Powyższe twierdzenia mają intuicyjną geometryczną interpretację. Dwa rozłączne zbiory wypukłe mogą być rozdzielone hiperpłaszczyzną w ten sposób, iż jeden z nich leży w domkniętej półprzestrzeni po jednej stronie hiperpłaszczyzny, podczas gdy drugi leży po przeciwnej stronie tejże hiperpłaszczyzny. W słabym twierdzeniu nie możemy zagwarantować, iż któryś ze zbiorów leży we wnętrzu półprzestrzeni, tzn. ma puste przecięcie z hiperpłaszczyzną. Silna wersja właśnie to gwarantuje.
Hiperpłaszczyzna, o której mowa w twierdzeniach zadana jest wzorem:
gdzie α=supx∈UaTx. Nie musi to być jedyna hiperpłaszczyzna spełniająca warunki słabego/mocnego rozdzielania.
Twierdzenia o oddzielaniu będziemy dowodzić w przeciwnej kolejności niż są podane. Okazuje się bowiem, że łatwiej udowodnić twierdzenie mocne. Później w dowodzie twierdzenia słabego skorzystamy z mocnego oddzielania zbiorów wypukłych.
Dowód twierdzenia 3.2
Określmy funkcję d:U×V→R wzorem dx,y=x-y. Z ograniczoności zbioru U wynika, że d jest funkcją koercywną; zbieżność do nieskończoności może się tylko odbywać po argumencie ze zbioru V. Na mocy tw. 1.2 funkcja d jako ciągła i koercywna określona na zbiorze domkniętym U×V osiąga swoje minimum w pewnym punkcie x0,y0∈U×V. Z faktu, że U∩V=∅ wynika, że x0≠y0. Połóżmy a=y0-x0. Pokażemy, że jest to szukany wektor z tezy twierdzenia.
Udowodnimy, że aTy≥aTy0. Niech y∈V, y≠y0. Zdefiniujmy funkcję
| gt=dx0,y0+ty-y02,t∈R. | |
Rozwijając dostajemy
| gt=y0-x02+2ty0-x0Ty-y0+t2y-y0Ty-y0. | |
Funkcja ta jest różniczkowalna dla t∈R i g0≤gt dla t∈0,1 (na mocy wypukłości V i definicji y0). Zatem g′0≥0, czyli
Nierówność ta jest równoważna aTy≥aTy0.
Podobnie pokazujemy, że aTx≤aTx0 dla x∈U. Do zakończenia dowodu wystarczy sprawdzić, że aTy0>aTx0. Ta nierówność jest równoważna a2>0, co zachodzi, gdyż x0≠y0.
∎
Dowód twierdzenia 3.1
Rozważmy zbiór C=V-U=y-x:x∈U,y∈V. Zbiór ten jest wypukły i 0∉C. Równoważne tezie twierdzenia jest znalezienie wektora niezerowego a∈Rn oddzielającego C od 0, tzn. takiego że aTx≥0 dla x∈C.
Zdefiniujmy zbiory
Wystarczy pokazać, że ⋂x∈CAx≠∅. Będziemy rozumować przez sprzeczność. Załóżmy więc, że ⋂x∈CAx=∅. Niech Bx=S∖Ax, gdzie S jest sferą jednostkową S=a∈Rn:a=1. Zbiory Bx, x∈C, są otwartymi podzbiorami zbioru zwartego S. Z założenia, że przecięcie ich dopełnień w S jest puste, wynika, że rodzina Bxx∈C jest pokryciem otwartym S. Na mocy zwartości S istnieje podpokrycie skończone Bx1,…,Bxk, czyli
Połóżmy
| C⌃=convx1,…,xk=∑i=1kλixi:λ1,…,λk≥0,∑i=1kλi=1. | |
Zbiór C⌃ jest wypukły i domknięty oraz C⌃⊂C. Stąd 0∉C⌃ i na mocy mocnego twierdzenia o oddzielaniu zastosowanego do C⌃ i 0 istnieje wektor a∈Rn∖0, taki że
W szczególności, aTx1>0,…,aTxk>0, czyli aa∈Axi, i=1,…,k, co przeczy założeniu, że przecięcie ⋂i=1kAxi=∅.
∎
3.2. Definicja funkcji wypukłej
Definicja 3.1
Funkcję f:W→R, gdzie W⊂Rn wypukły, nazwiemy:
-
wypukłą, jeśli dla każdego x,y∈W i λ∈0,1 zachodzi
| fλx+1-λy≤λfx+1-λfy. | |
-
ściśle wypukłą, jeśli dla każdego x,y∈W, x≠y i λ∈0,1 zachodzi
| fλx+1-λy<λfx+1-λfy. | |
Funkcja f jest (ściśle) wklęsła, jeśli -f jest (ściśle) wypukła.
Okazuje się, że wystarczy rozważać λ=1/2 w definicji wypukłości. Zacytujemy najpierw silny wynik noszący nazwisko Sierpińskiego, a później łatwiejszy, który dowiedziemy:
Twierdzenie 3.3
Jeśli funkcja f:W→R, gdzie W⊂Rn wypukły, jest mierzalna w sensie Lebesgue'a oraz spełnia
to jest wypukła.
Dowód
Patrz dowód tw. Sierpińskiego w [7, str. 12].
∎
My udowodnimy słabszy wynik; założymy mianowicie ciągłość f.
Twierdzenie 3.4
Jeśli funkcja f:W→R, gdzie W⊂Rn wypukły, jest ciągła oraz spełnia
to jest wypukła.
Dowód
Pokażemy najpierw, przez indukcję po k, że nierówność wypukłości zachodzi dla λ postaci p/2k, p=0,1,…,2k. Własność ta jest spełniona dla k=1 z założenia twierdzenia. Przeprowadźmy teraz krok indukcyjny. Załóżmy, że nierówność jest prawdziwa dla k. Weźmy p,q>0 całkowite, o sumie p+q=2k+1. Załóżmy p≤q. Wówczas p≤2k≤q i możemy napisać:
| z=p2k+1x+q2k+1y=12p2kx+q-2k2ky+y. | |
Mamy zatem
| fz≤12fp2kx+q-2k2ky+12fy≤12p2kfx+12q-2k2kfy+12fy=p2k+1fx+q2k+1fy. | |
Pierwsza nierówność wynika z założenia twierdzenia, zaś druga – z założenia indukcyjnego. Dowód w przypadku p≥q jest symetryczny, ze zmienioną rolą x i y.
Zbiór punktów postaci p/2k, k=1,2,…, jest gęsty w odcinku 0,1. Z ciągłości funkcji f otrzymujemy nierówność wypukłości dla dowolnego λ∈0,1.
∎
Przykład 3.1
-
Funkcja afiniczna fx=aTx+b jest wypukła i wklęsła.
-
Norma w Rn jest funkcją wypukłą. Wystarczy skorzystać z nierówności trójkąta.
-
Odległość punktu od zbioru definiujmy następująco dx,W=infy∈Wx-y. Odległość punktu od zbioru wypukłego jest funkcją wypukłą: fx=dx,W dla pewnego zbioru wypukłego W⊂Rn.
3.3. Własności funkcji wypukłych
W tym rozdziale zakładamy, iż funkcja f:W→R jest określona na niepustym wypukłym podzbiorze W⊂Rn.
Definicja 3.2
Epigrafem funkcji f:W→R nazywamy zbiór
Definicja 3.3
Zbiorem poziomicowym funkcji f:W→R nazywamy
Twierdzenie 3.5 (Twierdzenie o epigrafie)
Funkcja f jest wypukła wtedy i tylko wtedy, gdy jej epigraf epif jest wypukłym podzbiorem Rn+1.
Twierdzenie 3.6
Jeśli funkcja f jest wypukła, to zbiór poziomicowy Wαf jest wypukły dla dowolnego α.
Dowód powyższych twierdzeń pozostawiamy czytelnikowi.
Uwaga 3.2
Twierdzenie odwrotne do tw. 3.6 nie jest prawdziwe. Połóżmy W=Rn i weźmy dowolny niepusty wypukły zbiór A⊂Rn. Rozważmy funkcję
Każdy zbiór poziomicowy tej funkcji jest wypukły, zaś funkcja nie jest wypukła.
Okazuje się, że wypukłość gwarantuje ciągłość we wnętrzu intW. Rezultat ten nie może być rozszerzony na brzeg W.
Twierdzenie 3.7
Jeśli funkcja f jest wypukła, to jest również ciągła na intW.
Dowód powyższego twierdzenia wykracza poza ramy tego wykładu. Zainteresowany czytelnik może go znaleźć w monografii [10] w rozdziale IV.41.
Twierdzenie 3.8 (Twierdzenie o hiperpłaszczyźnie podpierającej)
Jeśli f jest wypukła, to w każdym punkcie x¯∈intW istnieje hiperpłaszczyzna podpierająca, tzn. istnieje ξ∈Rn takie że
Jeśli f jest ściśle wypukła, to
| fx>fx¯+ξTx-x¯,∀x∈W∖x¯. | |
Jeśli f jest różniczkowalna w x¯, to w obu powyższych nierównościach możemy przyjąć ξ=Dfx¯T.
Dowód tw. 3.8
Na mocy twierdzenia 3.5, epigraf epif jest zbiorem wypukłym. Zastosujemy słabe twierdzenie o oddzielaniu do zbiorów U=epif i V=x¯,fx¯. Istnieje niezerowy wektor a=ξ,α∈Rn×R, takie że
| ξTx+αy≤ξTx¯+αfx¯ | | (3.1) |
dla x,y∈epif. Nierówność ta musi być prawdziwa dla wszystkich y≥fx. Zatem α≤0. Okazuje się, że α≠0. Dowiedziemy tego przez sprzeczność: załóżmy α=0. Wówczas dla dowolnego x∈W mamy ξTx-x¯≤0. Korzystając z tego, że x¯ jest we wnętrzu W, wiemy, że x¯+εξ∈W dla dostatecznie małego ε>0. Połóżmy x=x¯+εξ. Wtedy 0≥ξTx-x¯=εξTξ=εξ2, a zatem ξ=0. Przeczy to niezerowości wektora ξ,α. Wnioskujemy więc, że α<0.
Możemy założyć, że α=-1 w nierówności (3.1) (wystarczy podzielić obie strony przez α). Dla dowolnego x∈W dostajemy zatem
co przepisujemy następująco
Kończy to dowód pierwszej części twierdzenia.
Załóżmy teraz, że f jest różniczkowalna w x¯. Dla dowolnego x∈W, x≠x¯ i λ∈0,1, z wypukłości mamy
| fx-fx¯ | =1-λfx¯+λfx-fx¯λ | |
| | ≥f1-λx¯+λx-fx¯λ | | (3.2) |
| | =fx¯+λx-x¯-fx¯λ. | |
Policzmy granicę, gdy λ dąży do zera:
| fx-fx¯≥limλ↓0fx¯+λx-x¯-fx¯λ=Dfx¯x-x¯, | |
gdzie istnieje granicy i ostatnia równość wynika z różniczkowalności f w punkcie x¯.
Przypuśćmy, że f jest ściśle wypukła. Ustalmy x¯∈intW. Na mocy pierwszej części twierdzenia fx≥fx¯+ξTx-x¯ dla dowolnego x∈W. Przypuśćmy, że dla pewnego x∈W, x≠x¯, ta nierówność nie jest ścisła, tj. fx=fx¯+ξTx-x¯.
Ze ścisłej wypukłości dostajemy
| fx¯+x2<12fx+12fx¯=fx¯+12ξTx-x¯. | | (3.3) |
Z drugiej strony, z istnienia płaszczyzny podpierającej w x¯ mamy
| fx¯+x2≥fx¯+ξTx+x¯2-x¯=fx¯+ξTx-x¯2. | |
Dostajemy sprzeczność z nierównością (3.3). Pokazuje to, że dla funkcji ściśle wypukłej f musi być spełniona ścisła nierówność fx<fx¯+ξTx-x¯ jeśli tylko x≠x¯.
∎
Prawdziwe jest twierdzenie odwrotne do twierdzenia 3.8 (patrz tw. 3.9).
Wniosek 3.2
Jeśli f wypukła i różniczkowalna w x¯∈intW, to w x¯ jest minimum globalne wtw, gdy Dfx¯=0.
Dowód
Implikacja w prawą stronę wynika z tw. 1.4. Aby dowieść implikacji przeciwnej, załóżmy Dfx¯=0 dla pewnego x¯=0. Na mocy tw. 3.8 dla dowolnego x∈W mamy
| fx≥fx¯+Dfx¯x-x¯=fx¯, | |
co dowodzi, że w punkcie x¯ jest minimum globalne.
∎
Poniżej wymieniamy pozostałe własności funkcji wypukłych. Ich dowody pozostawione są jako ćwiczenia.
-
Niech W⊂Rn, wypukły, zaś I dowolny zbiór. Jeśli funkcje fi:W→R, i∈I, są wypukłe, to fx=supi∈Ifix jest wypukła ze zbiorem wartości R∪∞.
-
Niech W⊂Rn, wypukły. Jeśli funkcje fi:W→R, i=1,2,…,m, są wypukłe i αi>0 dla i=1,2,…,m, to
funkcja f=∑i=1mαifi jest wypukła. Jeśli jedna z funkcji fi jest ściśle wypukła, to f jest również ściśle wypukła.
-
Niech W⊂Rn, A⊂Rm wypukłe zbiory. Jeśli funkcja h:W×A→R jest wypukła i ograniczona z dołu, to
jest wypukła.
-
Niech f:Rn→R wypukła. Jeśli h:Rm→Rn afiniczna, to złożenie f∘h jest funkcją wypukłą.
-
Niech W⊂Rn wypukły. Jeśli f:W→R jest funkcją wypukłą i g:R→R jest wypukła i niemalejąca, to g∘f jest funkcją wypukłą. Jeśli dodatkowo g jest rosnąca, zaś f ściśle wypukła, to g∘f jest ściśle wypukła.
-
Niech W⊂Rn wypukły. Jeśli f:W→R jest funkcją (ściśle) wklęsłą i f>0, to funkcja 1/f jest (ściśle) wypukła.
3.4. Charakteryzacje funkcji wypukłej
Twierdzenie 3.9
Niech W⊂Rn wypukły o niepustym wnętrzu. Jeśli w każdym punkcie x¯∈intW istnieje wektor ξ∈Rn, taki że
to funkcja f jest wypukła. Jeśli nierówność jest ostra dla x≠x¯, to f jest ściśle wypukła.
Dowód
Weźmy x∈intW, y∈W i λ∈0,1. Oznaczmy xλ=λx+1-λy. Chcemy wykazać, że fxλ≤λfx+1-λfy. Na mocy Lematu 3.2 punkt xλ należy do wnętrza W. Stosując założenie do tego punktu dostajemy ξ∈Rn, takie że
| fx≥fxλ+ξTx-xλ,fy≥fxλ+ξTy-xλ. | | (3.4) |
Stąd
| λfx+1-λfy≥fxλ+ξTλx-xλ+1-λy-xλ=fxλ, | |
gdyż wielkości w nawiasie kwadratowym zerują się. Kończy to dowód twierdzenia. Jeśli nierówność w założeniu jest ostra i x≠y, to nierówności (3.4) są ostre i dostajemy warunek ścisłej wypukłości.
∎
Twierdzenie 3.10
Niech W⊂Rn niepusty, otwarty i wypukły, zaś f:W→R dwukrotnie różniczkowalna. Wówczas:
-
I) f jest wypukła wtw, gdy hesjan D2fx jest nieujemnie określony dla każdego x∈W.
-
II) Jeśli hesjan D2fx jest dodatnio określony dla każdego x∈W, to f jest ściśle wypukła.
Analogiczna teza zachodzi w przypadku wklęsłości.
Dowód
Załóżmy najpierw, że hesjan jest nieujemnie określony dla każdego x∈W. Wówczas, na mocy wniosku 2.1, dla dowolnych x¯,x∈W mamy
| fx=fx¯+Dfx¯x-x¯+12x-x¯TD2fx~x-x¯, | |
gdzie x~ jest punktem leżącym na odcinku łączącym x¯ z x. Założenie o nieujemnej określoności hesjanu pociąga nieujemność ostatniego składnika powyższej sumy. Stąd
| fx≥fx¯+Dfx¯x-x¯. | | (3.5) |
Ponieważ powyższa nierówność zachodzi dla dowolnych x¯,x∈W, to f jest wypukła na mocy twierdzenia 3.9.
Jeśli założymy, że hesjan jest dodatnio określony dla każdego punktu W, to nierówność (3.5) jest ostra i twierdzenie 3.9 implikuje ścisłą wypukłość f.
Przejdźmy teraz do dowodu implikacji przeciwnej. Załóżmy, że funkcja f jest wypukła. Ustalmy x¯∈W i h∈Rn, h≠0. Z otwartości W wynika, że istnieje δ>0, dla której x¯+th∈W, t∈-δ,δ. Zdefiniujmy funkcję gt=fx¯+th, t∈-δ,δ. Jest to funkcja jednej zmiennej, dwukrotnie różniczkowalna oraz wypukła. Stosując twierdzenie 3.8 dostajemy
Na mocy twierdzenie Taylora z resztą w postaci Peano, tw. 1.9, mamy
| gt=g0+g′0t+12g′′0t2+ot2,t∈-δ,δ. | |
Powyższa nierówność i wzór Taylora dają następujące oszacowanie na drugą pochodną
Dzielimy obie strony przez t2:
W granicy przy t dążącym do zera, drugi składnik zanika i pozostaje g′′0≥0. Co ta nierówność znaczy w terminach funkcji f? Liczymy:
| g′t=Dfx¯+thh,g′′t=hTD2fx¯+thh. | |
Stąd g′′0=hTD2fx¯h.
Powyższe rozumowanie możemy przeprowadzić dla dowolnego h∈Rn. Wykazaliśmy więc nieujemną określoność D2fx¯.
∎
3.5. Subróżniczka
Zajmiemy się teraz uogólnieniem pojęcia pochodnej na nieróżniczkowalne funkcje wypukłe. Niech W⊆Rn będzie zbiorem wypukłym, zaś f:W→R funkcją wypukłą.
Definicja 3.4
Wektor ξ∈Rn nazywamy subgradientem funkcji f w punkcie x0∈W, jeśli
Zbiór wszystkich subgradientów f w punkcie x0 nazywamy subróżniczką i oznaczamy ∂fx0.
Wniosek 3.3
Jeśli W∈Rn jest zbiorem wypukłym o niepustym wnętrzu, to f:W→R jest wypukła wtw, gdy w każdym punkcie zbioru intW istnieje subgradient:
Dowód
Implikacja w prawą stronę wynika z twierdzenia 3.8, zaś implikacja w stronę lewą – z tw. 3.9.
∎
Lemat 3.3
Niech W⊂Rn będzie zbiorem wypukłym, zaś f:W→R funkcją wypukłą. Wówczas subróżniczka ∂fx jest zbiorem wypukłym i domkniętym. Jeśli x jest wewnętrzym punktem W, x∈intW, to zbiór ∂fx jest ograniczony.
Dowód
Dowód wypukłości i domkniętości pozostawiamy jako ćwiczenie (patrz ćw. 3.24). Ustalmy x¯∈intW. Wówczas istnieje ε>0, taki że kula domknięta Bx¯,ε jest zawarta w intW. Dla dowolnego ξ∈∂fx¯
A zatem
| supx∈Bx¯,εfx≥fx¯+supx∈Bx¯,εξTx-x¯. | |
Lewa strona jest niezależna od ξ oraz, z ciągłości f na intW, skończona. Supremum po prawej stronie jest przyjmowane dla
x=x¯+εξ/ξ i wynosi εξ. Dostajemy zatem
| εξ≤supx∈Bx¯,εfx-fx¯, | |
co dowodzi ograniczoności zbioru ∂fx¯.
∎
Pokażemy teraz związek subróżniczki z pochodnymi kierunkowymi funkcji. Związek ten przyda nam się w dalszych dowodach.
Definicja 3.5
Pochodną kierunkową funkcji f w punkcie x¯ w kierunku d nazywamy granicę
| f′x¯;d=limλ↓0fx¯+λd-fx¯λ. | |
Z własności pochodnych jednostronnych dla skalarnych funkcji wypukłych wynikają następujące własności pochodnych kierunkowych:
Lemat 3.4
Niech W⊂Rn będzie zbiorem wypukłym otwartym, zaś f:W→R funkcją wypukłą. Wówczas dla każdego d∈Rn i x∈W
-
I) istnieje pochodna kierunkowa f′x;d.
-
II) f′x;d=infλ>0fx¯+λd-fx¯λ.
-
Dowód
Zdefiniujmy funkcję skalarną gt=fx+td dla t, takich że x+td∈W. Z otwartości W wynika, że g jest określona na pewnym otoczeniu zera -δ,δ. Jest ona także wypukła. Wówczas iloraz różnicowy jest monotoniczny, tzn. dla -δ<t1<t2<δ mamy
| gt1-g0t1≤gt2-g0t2. | | (3.6) |
Z monotoniczności ilorazu różnicowego wynika, że istnieją pochodne lewostronna g′0- i prawostronna g′0+, g′0-≤g′0+ oraz
Wystarczy teraz zauważyć, że f′x;d=g′0+, zaś f′x;-d=-g′0-.
Pozostał nam jeszcze dowód monotoniczności ilorazu różnicowego. Weźmy najpierw 0<t1<t2<δ i zauważmy, że nierówność (3.6) jest równoważna
gdzie λ=t1/t2∈0,1 oraz λt2+1-λ0=t1. Prawdziwość ostatniej nierówności wynika z wypukłości funkcji g. Przypadek -δ<t1<t2<0 dowodzimy analogicznie. Dla
-δ<t1<0<t2<δ nierówność (3.6) jest równoważna
| g0≤11+λgt1+λ1+λgt2,λ=-t1t2, | |
która wynika z wypukłości g, gdyż 1/1+λ∈0,1 oraz
∎
Pochodne kierunkowe pozwalają na nową charakteryzację subróżniczki.
Lemat 3.5
Niech W⊂Rn będzie zbiorem wypukłym otwartym, zaś f:W→R funkcją wypukłą. Prawdziwa jest następująca równoważność: ξ∈∂fx¯ wtw, gdy
Dowód
Ustalmy x¯∈W i ξ∈∂fx¯. Wówczas dla λ>0 i d∈Rn (oczywiście takich, że x¯+λd∈W) mamy
Zatem
co implikuje f′x¯;d≥ξTd.
Weźmy teraz wektor ξ∈Rn spełniający warunek f′x¯;d≥ξTd dla każdego d∈Rn. Na mocy lematu 3.4(II) dla λ>0 mamy
A zatem
Z dowolności λ i d wynika, iż ξ jest subgradientem.
∎
Poniższe twierdzenie precyzuje związek pomiędzy subróżniczką i pochodną kierunkową funkcji. Zwróć uwagę na wykorzystanie twierdzenia o oddzielaniu w dowodzie. Metoda polegająca na sprytnym dobraniu rozłącznych zbiorów wypukłych, które można rozdzielić hiperpowierzchnią, będzie wielokrotnie wykorzystywana w dowodzeniu twierdzeń dotyczących funkcji wypukłych.
Twierdzenie 3.11
Niech f:W→R będzie funkcją wypukłą zadaną na wypukłym otwartym zbiorze W⊂Rn. Dla dowolnego x¯∈W i d∈Rn zachodzi
| f′x¯;d=maxξ∈∂fx¯ξTd. | |
Ponadto, funkcja f jest różniczkowalna w x¯ wtw, gdy subróżniczka ∂fx¯ składa się z jednego subgradientu. Tym subgradientem jest wówczas Dfx¯T.
Dowód
Z lematu 3.5 wynika, że f′x¯;d≥ξTd dla ξ∈∂fx¯. Stąd
| f′x¯;d≥maxξ∈∂fx¯ξTd. | |
Udowodnienie przeciwnej nierówności wymaga skorzystania z twierdzenia o oddzielaniu. Zdefiniujmy dwa zbiory:
| C1 | =x,z∈W×R:z>fx, | |
| C2 | =x,z∈W×R:x=x¯+λd,z=fx¯+λf′x¯;d,λ≥0. | |
Zauważmy, że C1 różni się od epigrafu f tylko brzegiem x,z∈W×R:z=fx. Możemy zatem zastosować podobne rozumowanie jak w dowodzie tw. 3.5, aby wykazać, że C1 jest zbiorem wypukłym. Zbiór C2 jest odcinkiem o początku w punkcie x¯,fx¯ i o kierunku d,f′x¯;d, więc jest wypukły. Można zauważyć, że jest on wykresem liniowego przybliżenia funkcji f wokół punktu x¯ wzdłuż odcinka x¯+λd:λ≥0∩W.
Na mocy lematu 3.4(II) mamy f′x;d≤fx¯+λd-fx¯λ, czyli
Wniskujemy stąd, że zbiory C1 i C2 są rozłączne. Stosujemy słabe twierdzenie o oddzialniu, tw. 3.1: istnieje niezerowy wektor μ,γ∈Rn×R, taki że
| μTx+γz≥μTx¯+λd+γfx¯+λf′x¯;d,x,z∈C1,λ∈0,L, | | (3.7) |
gdzie L=supλ≥0:x¯+λd∈W. Zauważmy, że γ nie może być ujemna, gdyż wtedy lewa strona mogłaby być dowolnie mała (z może być dowolnie duże). Nie może także być γ=0, gdyż wówczas dla każdego x∈W musiałoby zachodzić μTx-x¯≥λμTd. Jest to możliwe tylko, gdy μ=0 (korzystamy tutaj z faktu, że W jest otwarty). A to przeczy niezerowości wektora μ,γ. Dowiedliśmy zatem, że γ>0. Dzieląc obie strony nierówności (3.7) przez γ możemy założyć, że γ=1, czyli
| μTx+z≥μTx¯+λd+fx¯+λf′x¯;d,x,z∈C1,λ∈0,L. | |
Zbiegając z z do fx otrzymujemy
| μTx+fx≥μTx¯+λd+fx¯+λf′x¯;d,x∈W,λ∈0,L. | | (3.8) |
Kładąc λ=0 dostajemy
co po przekształeceniu daje
A zatem -μ∈∂fx¯. Biorąc w nierówności (3.8) λ>0 i x=x¯ dostajemy
czyli
| supξ∈∂fx¯ξTd≥f′x¯;d. | |
To kończy dowód pierwszej części twierdzenia.
Dowód drugiej części twierdzenia opiera się na dwóch prostych równoważnościach:
Funkcja f jest różniczkowalna w punkcie x¯ wtw, gdy istnieje wektor α∈Rn, taki że f′x¯;d=αTd dla każdego d∈Rn.
Odwzorowanie Rn∋d↦supξ∈∂fx¯ξTd jest liniowe wtw, gdy subróżniczka ∂fx¯ jest jednoelementowa.
Równoważność pierwsza wynika wprost z definicji pochodnej (patrz roz. 2). Jeśli f jest różniczowalna w x¯, jedynym wektorem spełniającym f′x¯;d=αTd jest α=Dfx¯T.
Przypuśćmy więc, że funkcja f jest różniczkowalna w x¯. Wówczas f′x¯;d=Dfx¯d, czyli pochodna kierunkowa jest funkcją liniową d. Na mocy drugiej równoważności subróżniczka jest jednoelementowa. Łatwo już zauważyć, że ∂fx¯=Dfx¯T. Do dowodu w przeciwną stronę załóżmy, że subróżniczka ∂fx¯ składa się z jednego wektora α∈Rn. Wówczas f′x¯;d=αTd. Na mocy pierwszej równoważności funkcja f jest różniczkowalna w x¯.
∎
Twierdzenie 3.11 wykorzystamy kilkukrotnie w dowodzie poniższego twierdzenia, które będzie użyteczne w znajdowaniu subróżniczek.
Twierdzenie 3.12
Niech W⊂Rn będzie zbiorem wypukłym otwartym, zaś f1,f2:W→R funkcjami wypukłymi.
-
I) Niech f=f1+f2. Wówczas ∂f1x+∂f2x=∂fx, gdzie
| ∂f1x+∂f2x=ξ1+ξ2:ξ1∈∂f1x,ξ2∈∂f2x. | |
-
II) Niech f=maxf1,f2. Wówczas
| ∂fx=∂f1x,f1x>f2x,conv∂f1x∪∂f2x,f1x=f2x,∂f2x,f1x<f2x, | |
gdzie conv∂f1x∪f2x jest zbiorem kombinacji wypukłych elementów zbiorów ∂f1x i ∂f2x.
Dowód
Zaczniemy od dowodu (I). Ustalmy x¯∈W. Niech ξ1∈∂f1x¯ i ξ2∈∂f2x¯. Wówczas dla x∈W zachodzi
| f1x | ≥f1x¯+ξ1Tx-x¯, | |
| f2x | ≥f2x¯+ξ2Tx-x¯. | |
Dodając te nierówności stronami otrzymujemy
czyli ξ1+ξ2∈∂fx¯. Dowiedliśmy zawierania ∂f1x¯+∂f2x¯⊂∂fx¯. Przypuśćmy, że inkluzja ta jest ostra, tzn. istnieje ξ∈∂fx¯, taki że ξ∉∂f1x¯+∂f2x¯. Na mocy lematu 3.3 subróżniczki ∂f1x¯ i ∂f2x¯ są zwartymi zbiorami wypukłymi. A zatem ich suma algebraiczna jest również zbiorem zwartym i wypukłym (patrz ćw. 3.25). Stosujemy silne twierdzenie o oddzielaniu do zbiorów ξ oraz ∂f1x¯+∂f2x¯. Dostajemy μ∈Rn i stałą b∈R, takie że
| μTξ1+μTξ2<b<μTξ,∀ξ1∈∂f1x¯,ξ2∈∂f2x¯. | |
Bierzemy maksimum po ξ1,ξ2 po lewej stronie i stosujemy twierdzenie 3.11:
| f1′x¯;μ+f2′x¯;μ<ξTμ≤f′x¯;μ. | |
Z drugiej strony, z własności pochodnych kierunkowych mamy
| f1′x¯;μ+f2′x¯;μ=f′x¯;μ. | |
Doprowadziliśmy do sprzeczności: ξ o żądanych własnościach nie może istnieć. Kończy to dowód (I).
Dowód (II). Postać subróżniczki ∂f na zbiorach x∈W:f1x>f2x i x∈W:f1x<f2x jest oczywista. Jedynie przypadek x∈W:f1x=f2x wymaga dokładnego dowodu. Ustalmy x¯∈W, dla którego f1x¯=f2x¯. Oznaczmy A=conv∂f1x¯∪∂f2x¯. Dla i=1,2 oraz x∈W mamy
| fx-fx¯≥fix-fx¯=fix-fix¯≥ξiTx-x¯,∀ξi∈∂fix¯. | |
Stąd dostajemy ∂f1x¯∪∂f1x¯⊂∂fx¯. Z wypukłości subróżniczki (patrz lemat 3.3) wynika, że A⊂∂fx¯. Załóżmy teraz, że istnieje ξ∈∂fx¯∖A. Zbiór A jest wypukły i zwarty. Stosujemy silne twierdzenie o oddzielaniu do zbiorów A i ξ. Dostajemy μ∈Rn i stałą b∈R, takie że
W szczególności μTξi<b dla ξi∈∂fix¯, i=1,2, czyli, na mocy tw. 3.11,
Podobnie, b<ξTμ≤f′x¯;μ. Podsumowując:
| maxf1′x¯;μ,f2′x¯;μ<f′x¯;μ. | | (3.9) |
Z drugiej strony, definicja pochodnej kierunkowej daje nam następującą równość (przypomnijmy, że fx¯=f1x¯=f2x¯):
| fx¯+λd-fx¯λ=maxf1x¯+λd-fx¯λ,f2x¯+λd-fx¯λ,λ>0. | |
Przechodząc z λ do zera dostajemy
| f′x¯;d=maxf1′x¯;d,f2′x¯;d. | |
Biorąc d=μ dostajemy sprzeczność z (3.9), a więc nie może istnieć ξ∈∂fx¯∖A.
∎
Twierdzenie 3.13
Niech W⊂Rn będzie zbiorem wypukłym otwartym, f:W→R funkcją wypukłą, zaś A będzie macierzą n×m. Zdefiniujmy W~=x∈Rm:Ax∈W. Wówczas W~ jest zbiorem wypukłym otwartym oraz funkcja F:W~→R zadana wzorem Fx=fAx ma w punkcie x∈W~ subróżniczkę zadaną wzorem
Dowód
Dowód będzie przebiegał podobnie jak dowód poprzedniego twierdzenia. Ustalmy x¯∈W~. Weźmy ξ∈∂fAx¯. Wówczas
| fAx≥fAx¯+ξTAx-Ax¯=fAx¯+ATξTx-x¯, | |
czyli ATξ∈∂Fx¯. Stąd mamy zawieranie AT∂fAx¯⊂∂Fx¯. Równości tych dwóch zbiorów dowiedziemy przez sprzeczność. Załóżmy, że istnieje ξ∈∂Fx¯∖AT∂fAx¯. Zbiór AT∂fAx¯ jest wypukły i domknięty, jako liniowy obraz zbioru wypukłego i domkniętego. Zastosujemy silne twierdzenie o oddzielaniu, aby oddzielić go od zbioru jednoelementowego ξ. Dostajemy μ∈Rm oraz b∈R, takie że
| μTATξ~<b<μTξ,∀ξ~∈∂fAx¯. | |
Biorąc supremum po ξ~∈∂fAx¯ po lewej stronie i stosując tw. 3.11 otrzymujemy f′Ax¯;Aμ≤b. Prawą stronę możemy również oszacować przez pochodną kierunkową: μTξ≤F′x¯;μ. Podsumowując:
Jednak z własności pochodnych kierunkowych natychmiast wnioskujemy, że F′x¯;d=f′Ax¯;Ad dla dowolnego d∈Rm. Mamy zatem sprzeczność. Dowodzi to, iż zbiór ∂Fx¯∖AT∂fAx¯ jest pusty.
∎
3.6. Zadania
Ćwiczenie 3.1
Niech U,V⊂Rn będą zbiorami wypukłymi. Wykaż, że
-
U∩V jest zbiorem wypukłym.
-
U∪V może nie być zbiorem wypukłym.
Ćwiczenie 3.2
Czy zbiór x1,x2,x3∈R3:x16+x12+x2x3+x32≤1 jest zbiorem wypukłym?
Ćwiczenie 3.3
Udowodnij lemat 3.1.
Ćwiczenie 3.4
Niech
| W1=x1,x2:x2≥e-x1,W2=x1,x2:x2≤-e-x1. | |
Wykaż, że zbiory W1,W2 są wypukłe i rozłączne. Znajdź prostą (hiperpłaszczyznę) je dzielącą. Czy istnieje hiperpłaszczyzna dzieląca ściśle te zbiory (w sensie mocnego twierdzenia o oddzielaniu)?
Ćwiczenie 3.5
Niech W1,W2⊂Rn będą zbiorami wypukłymi. Udowodnij, że infx-y:x∈W1,y∈W2>0 wtw, gdy istnieje hiperpłaszczyzna ściśle (w sensie mocnego tw. o oddzielaniu) oddzielająca te zbiory.
Ćwiczenie 3.6
Niech X⊂Rn będzie dowolnym zbiorem. Zdefiniujmy zbiór X~ jako zbiór takich punktów x∈Rn, dla których istnieje
liczba naturalna m∈N, zależna od punktu, wektor λ1,…,λm∈0,1m o tej własności, że ∑i=1mλi=1, oraz x1,…,xm∈X i
Udowodnij, że
-
X~ jest zbiorem wypukłym.
-
X~ jest najmniejszym zbiorem wypukłym zawierającym X.
-
W definicji zbioru X~ można założyć, że m≤n+1, gdzie n jest wymiarem przestrzeni (Tw. Caratheodory'ego).
Zbiór X~ nazywa się otoczką wypukłą zbioru X i oznaczane jest convX.
Ćwiczenie 3.7
Udowodnij twierdzenie 3.5.
Ćwiczenie 3.8
Udowodnij twierdzenie 3.6.
Ćwiczenie 3.9
Znajdź przykład zbioru W⊆Rn i funkcji wypukłej f:W→R, która nie jest ciągła na całym zbiorze W.
Wskazówka:
Twierdzenie 3.7 pomoże w wyborze zbioru W.
Ćwiczenie 3.10
Niech W⊆Rn będzie zbiorem wypukłym i otwartym, zaś f:W→R funkcją różniczkowalną. Udowodnij następującą równoważność: f jest wypukła wtw, gdy
| Dfy-Dfxy-x≥0,∀x,y∈W. | |
Ćwiczenie 3.11
Udowodnij: Niech W⊂Rn, wypukły, zaś I dowolny zbiór. Jeśli funkcje fi:W→R, i∈I, są wypukłe, to fx=supi∈Ifix jest wypukła ze zbiorem wartości R∪∞.
Ćwiczenie 3.12
Udowodnij: Niech W⊂Rn, wypukły. Jeśli funkcje fi:W→R, i=1,2,…,m, są wypukłe i αi>0 dla i=1,2,…,m, to
funkcja f=∑i=1mαifi jest wypukła. Jeśli jedna z funkcji fi jest ściśle wypukła, to f jest również ściśle wypukła.
Ćwiczenie 3.13
Udowodnij: Niech W⊂Rn, wypukły, zaś A⊂Rm wypukły, zwarty. Jeśli funkcja h:W×A→R jest wypukła i ciągła, to
jest wypukła.
Wskazówka:
Korzystając ze zwartości A i ciągłości h, dla każdego x istnieje ax∈A realizujący infimum. Dowodzimy teraz z definicji funkcji wypukłej.
Ćwiczenie 3.14
Udowodnij uogólnienie twierdzenia z ćwiczenia 3.13: opuścimy zwartość A i ciągłość h. Niech W⊂Rn, A⊂Rm wypukłe zbiory. Jeśli funkcja h:W×A→R jest wypukła i ograniczona z dołu, to
jest wypukła.
Ćwiczenie 3.15
Skonstruuj przykład, który pokaże, że założenie o ograniczoności z dołu nie może być pominięte w twierdzeniu z ćw. 3.14.
Ćwiczenie 3.16
Udowodnij, że funkcja odległości od zbioru wypukłego jest funkcją wypukłą. Podaj przykład wskazujący na konieczność wypukłości zbioru.
Ćwiczenie 3.17
Udowodnij: Niech f:Rn→R wypukła. Jeśli h:Rm→Rn afiniczna, to złożenie f∘h jest funkcją wypukłą.
Ćwiczenie 3.18
Udowodnij: Niech W⊂Rn, wypukły. Jeśli f:W→R jest funkcją wypukłą i g:R→R jest wypukła i niemalejąca, to g∘f jest funkcją wypukłą. Kiedy g∘f jest ściśle wypukła?
Stwórz analog powyższego twierdzenia dla funkcji wklęsłych.
Ćwiczenie 3.19
Udowodnij: Niech W⊂Rn wypukły. Jeśli f:W→R jest funkcją (ściśle) wklęsłą i f>0, to funkcja 1/f jest (ściśle) wypukła.
Ćwiczenie 3.20
Czy jeśli f:Rn→R i g:R→R wypukłe, to g∘f:Rn→R jest wypukła?
Ćwiczenie 3.21
Udowodnij, że funkcja fx1,x2=ex12-x2 jest wypukła.
Ćwiczenie 3.22
Niech W⊂Rn i funkcja f:W→R klasy C2. Załóżmy ponadto, że D2fx≥0 dla każdego x∈W (tzn. Hesjan jest nieujemnie określony). Rozstrzygnij, który z następujących warunków jest wystarczający, by zdanie
| Dfx¯=0⟹w x¯ jest globalne minimum | |
było prawdziwe:
-
-
W jest wypukły i otwarty,
-
-
Ćwiczenie 3.23
Znajdź przykład zbioru X⊂Rn oraz funkcji f:X→R klasy C2, takiej że
-
D2fx≥0 (tzn. hesjan jest nieujemnie określony) dla każdego x∈X,
-
istnieje punkt x¯∈X, w którym jest minimum lokalne funkcji f, ale nie jest ono globalne.
Ćwiczenie 3.24
Niech W⊂Rn będzie zbiorem wypukłym, zaś f:W→R funkcją wypukłą. Udowodnij, że ∂fx jest zbiorem wypukłym i domkniętym.
Ćwiczenie 3.25
Niech A,B⊂Rn będą zbiorami wypukłymi zwartymi. Udowodnij, że suma algebraiczna tych zbiorów
jest zbiorem zwartym i wypukłym.
Ćwiczenie 3.26
Niech W⊂Rn wypukły otwarty i f:W→R wypukła. Wykaż, że ξ∈Rn jest subgradientem f w x¯∈W wtw, gdy odwzorowanie x↦ξTx-fx osiąga swoje maksimum w x¯.
Ćwiczenie 3.27
Znajdź subróżniczkę funkcji Rn∋x↦x.
Ćwiczenie 3.28
Niech A będzie macierzą n×n symetryczną i nieujemnie określoną. Udowodnij, że fx=xTAx, x∈Rn, jest funkcją wypukłą i znajdź jej subróżniczkę.
Ćwiczenie 3.29
Wykaż, że dla skalarnej funkcji wypukłej f:a,b→R mamy
gdzie f′x± oznaczają prawo- i lewo-stronne pochodne w punkcie x∈a,b.
Ćwiczenie 3.30
Niech f:Rn→R wypukła, x,y∈Rn ustalone wektory. Zdefiniujmy gt=ftx+1-ty, t∈R. Wykaż, że g jest wypukła oraz
| ∂gt=x-yT∂ftx+1-ty. | |
Ćwiczenie 3.31
Wykaż, że funkcja fx=max-2x+5,3x2-1 jest wypukła na R i znajdź jej subróżniczkę.
Ćwiczenie 3.32
Niech fWx=infy∈Wx-y, x∈Rn, gdzie W⊂Rn jest zbiorem wypukłym. Znajdź subróżniczkę w następujących przypadkach:
-
-
W=conv0,0,1,0⊂R2, tzn. W jest odcinkiem,
-
W=conv0,0,1,0,0,1,1,1⊂R2, tzn. W jest kwadratem.