Zagadnienia

1. Zagadnienie własne I

Cztery początkowe wykłady poświęcimy zagadnieniu własnemu. Naszym zadaniem będzie obliczenie, a raczej numeryczna aproksymacja wartości własnych danej macierzy kwadratowej (jednej, kilku, lub wszystkich). W ogólniejszym sformułowaniu możemy chcieć obliczyć również odpowiednie wektory własne.

Pierwszy wykład będzie dotyczyć przede wszystkim wrażliwości wartości i wektorów własnych na zaburzenia macierzy. Jak wiemy z podstawowego wykładu analizy numerycznej, jest to istotne z punktu widzenia numerycznej jakości algorytmów.

1.1. Podstawy teoretyczne

Zaczniemy od przypomnienia podstawowych pojęć i faktów z algebry liniowej dotyczących zagadnienia własnego, z których skorzystamy w dalszej części wykładu.

Definicja 1.1

Liczbę λC (zespoloną) nazywamy wartością własną macierzy kwadratowej ACn,n jeśli istnieje niezerowy wektor xCn taki, że

Ax=λx.

Wektor x nazywamy wektorem własnym odpowiadającym wartości własnej λ.

Równoważnie, λ jest wartością własną macierzy A gdy jest zerem jej wielomianu charakterystycznego, tzn. gdy wyznacznik

detA-λI= 0,

gdzie I jest macierzą identycznościową n×n. Krotnością algebraiczną wartości własnej λ nazywamy jej krotność jako zera wielomianu charakterystycznego.

Zbiór wszystkich wektorów własnych odpowiadających danej wartości własnej λ, uzupełniony o wektor zerowy, czyli zbiór xCn:Ax=λx, jest podprzestrzenią liniową Cn zwaną podprzestrzenią własną odpowiadającą λ. Wymiar tej podprzestrzeni to krotność geometryczna wartości własnej λ.

Wektory własne odpowiadające różnym wartościom własnym są liniowo niezależne.

Macierze A,BCn,npodobne gdy istnieje nieosobliwa macierz CCn,n taka, że B=C-1AC. Oczywiście, relacja ,,bycia macierzami podobnymi” jest symetryczna.

Macierze podobne mają te same wartości własne. Jeśli bowiem Ax=λx to BCx=λCx, tzn. λ jest wartością własną B, a odpowiadający jej wektor własny to y=Cx.

Macierz ACn,n jest diagonalizowalna gdy jest podobna do macierzy diagonalnej, czyli gdy istnieje nieosobliwa V=v1,,vnCn,n taka, że

V-1AV=Λ=diagλ1,λ2,,λn.

Zauważmy, że wtedy możemy równoważnie zapisać AV=VΛ, albo Avj=λjvj dla 1jn. Stąd elementy diagonalne macierzy Λ są wartościami własnymi macierzy A (gdzie ta sama wartość własna powtarza się tyle razy ile wynosi jej krotność), a kolumny macierzy V są odpowiednimi wektorami własnymi.

Szczególne własności mają macierze hermitowskie albo, w przypadku rzeczywistym, macierze symetryczne, bowiem dla nich istnieją bazy ortonormalne (odpowiednio w Cn lub Rn) wektorów własnych. Odpowiednie twierdzenie przypominamy jedynie w przypadku rzeczywistym, który ma zasadnicze znaczenie w obliczeniach praktycznych.

Twierdzenie 1.1

Niech A będzie macierzą symetryczną o współczynnikach rzeczywistych,

A=ATRn,n.

Wtedy istnieje w Rn baza ortonormalna wektorów własnych macierzy A, tzn. istnieje układ wektorów własnych q1,q2,,qnRn taki, że

qi,qj2=qjTqi=0,ij,1,i=j.

Oczywiście, odpowiednie wartości własne λj, 1jn, są też rzeczywiste.

Powyższa własność macierzy symetrycznych oznacza tyle, że są one diagonalizowalne przy pomocy macierzy ortogonalnych. Rzeczywiście, oznaczając

Q:=q1,q2,,qn,Λ=diagλ1,λ2,,λn

mamy QTQ=I=QQT oraz

QTAQ=Λ,A=QΛQT.

1.2. Teoria zaburzeń dla macierzy niesymetrycznych

Zobaczmy najpierw, czy mamy w ogóle szansę numerycznego rozwiązania zadania znalezienia wartości własnych macierzy. W tym celu zbadamy jego uwarunkowanie, czyli wrażliwość na małe względne zaburzenia współczynników macierzy.

1.2.1. Wstępny przykład

W ogólności, uwarunkowanie naszego zadania może być niestety dowolnie duże.

Przykład 1.1

Niech macierz

Jε:=μ1000μ100μ1ε00μCn,n.

Dla ε=0, macierz J=J0 jest pojedynczą klatką Jordana, której jedyną wartością własną jest μ (o krotności algebraicznej n i krotności geometrycznej 1). Jeśli teraz zaburzymy wyraz w lewym dolnym rogu o ε>0 to otrzymana macierz Jε ma już n różnych wartości własnych. Rzeczywiście, jej wielomian charakterystyczny

detJε-λI=μ-λn+-1n+1ε

ma pierwiastki

μk=μ+ε1/ne2πık/n,0kn-1ı=-1.

Względne zaburzenie macierzy na poziomie ε powoduje więc względne zaburzenie wartości własnych na poziomie ε1/n. Stąd, dla n2, uwarunkowanie rośnie do + gdy ε0+.

Oczywiście, otrzymane oszacowanie nie oznacza, że w powyższym przykładzie w ogóle nie potrafimy aproksymować wartości własnej. Tracimy jednak na liczbie poprawnie obliczonych cyfr znaczących wyniku. Niech n=2. Wtedy przy dokładności arytmetyki 10-8 możemy spodziewać się jedynie wyniku z dokładnością do czterech cyfr znaczących, a przy dokładności 10-16 z dokładnością do ośmiu cyfr znaczących. Co więcej, im większy format n klatki Jordana tym gorzej.

Powyższy przykład pokazuje również, że praktycznie niemożliwe jest numeryczne wyznaczenie struktury macierzy. Nawet drobne zaburzenie macierzy powoduje bowiem, że pojedyncza klatka Jordana staje się macierzą diagonalizowalną.

1.2.2. Wrażliwość wartości własnych

Dalej będziemy już zakładać, że macierz A jest diagonalizowalna, czyli że jej postać Jordana jest macierzą diagonalną. Wtedy mamy następujące oszacowanie Bauera-Fike'a.

Twierdzenie 1.2

Niech ACn,n będzie macierzą diagonalizowalną o wartościach własnych λk, 1kn,

A=VΛV-1.

Niech dalej μ będzie dowolną wartością własną macierzy `sąsiedniej' A+E. Wtedy

min1knλk-μcondVE,

gdzie condV=VV-1 oraz jest normą macierzy indukowaną przez dowolną normę p-tą wektora.

Dowód

Załóżmy bez zmniejszenia ogólności, że μ jest różne od każdej wartości własnej λk. Niech x będzie wektorem własnym odpowiadającym wartości własnej μ macierzy A+E. Wtedy

VΛ+V-1EVV-1x=μx.(1.1)

Oznaczając y=V-1x0 mamy dalej

Λ-μIy=-V-1EVy,(1.2)

czyli

yΛ-1V-1VEy.

Ponieważ Λ-1=diagλ1-μ-1,,λn-μ-1 to ostatecznie

min1knλk-μcondVE.

Dla macierzy diagonalizowalnych zaburzenia wartości własnych są więc lipschitzowską funkcją zaburzeń macierzy, przy czym stała Lipschitza wynosi condV.

Podane oszacowanie jest globalne dla wszystkich wartości własnych. Zaburzenia macierzy A mogą jednak w różny sposób przenosić się na zaburzenia różnych wartości własnych. Od czego to zależy? Tak jak w dowodzie twierdzenia Bauera-Fike'a, niech

A+Ex=μx,x22=xHx=1.

Biorąc jedynie i-tą współrzędną po obu stronach równania (1.2) dostajemy

λi-μziHx=-ziHEx,(1.3)

gdzie zi jest znormalizowaną i-tą kolumną macierzy

V-1H=w1,w2,,wn,

tzn. zi=wi/wi2. W szczególności, zi2=1 oraz

zispanv1,,vi-1,vi+1,,vn

(ortogonalność ze względu na zwykły iloczyn skalarny). Stąd, jeśli zi i x nie są ortogonalne to

λi-μEziHx.

Dla ustalenia uwagi załóżmy teraz, że minimum w twierdzeniu 1.2 jest osiągane dla k=1, a podprzestrzenią własną wartości własnej λ1 jest

V=spanv1,v2,,vs,

gdzie wektory własne v1,,vs tworzą bazę ortonormalną w V. Jeśli wektor x jest `dostatecznie blisko' podprzestrzeni własnej V (co, jak pokażemy w następnym podrozdziale, jest prawdą dla dostatecznie małego zaburzenia E) to λ1-μ można w przybliżeniu oszacować z góry przez maksymalną wartość wyrażenia

Emax1isziHy

po wszystkich yV takich, że y2=1. Niech więc y=i=1saiviV, przy czym i=1sai2=1. Wobec tego, że dla każdego i mamy

ziHy=aiziHvi=ai/wi2,

interesujące nas `max' jest najmniejsze gdy ai=wi2j=1swj2-1/2. Stąd dostajemy

λ1-μi=1swi221/2EE0+.

Ponieważ wi=1/ziHvi oraz zi jest ortogonalny do spanvj:ji, otrzymana nierówność sugeruje, że wartość własna λ1 może być bardzo wrażliwa na zaburzenia macierzy gdy odpowiadająca jej podprzestrzeń własna spanv1,,vs jest `prawie ortogonalna' do spanvs+1,,vn. Dobrze ilustruje to następujący przykład.

Przykład 1.2

Rozpatrzmy macierz

A=2-1/δ01,

gdzie δ>0 jest `małe'. Wartości własne A wynoszą 1 i 2, natomiast wektory własne 1,0T i 1,δT są prawie liniowo zależne. Zaburzając macierz przez dodanie ε=-2δ do wyrazu w lewym dolnym rogu dostajemy macierz o wartościach własnych 0 i 3, a odpowiadające im wektory własne wynoszą 1,2δT i 1,-2δT. Dodajmy, że w tym przypadku condV jest proporcjonalne do 1/δ.

1.2.3. Wrażliwość wektorów własnych

Przez zaburzenie wektora własnego będziemy rozumieć odległość wektora x od podprzestrzeni własnej V, tzn.

distx,V:=minx-v2:vV,

albo, równoważnie, długość rzutu ortogonalnego Px wektora x na podprzestrzeń

V=spanzs+1,,zn.

Pokażemy, że podobnie jak przypadku wartości własnych, zaburzenie wektorów własnych jest lipszitzowską funkcją E. W tym celu, wybierzmy w V dowolną bazę ortonormalną

Y=ys+1,,ynCn,n-s.

Niech BHCn-s,n-s będzie macierzą przejścia z bazy Z=zs+1,,zn do Y,

Y=ZBH.

Wtedy

Px2=YHPx2=BZHPx2.

Wobec równości (1.3) mamy

ZHPx=-diagλs+1-μ-1,,λn-μ-1B-1YHEx.

Ponieważ na podstawie twierdzenia Bauera-Fike'a mamy

λ1-μλi-λ1-λ1-μλi-λ1-condVE,

otrzymujemy następującą przybliżoną nierówność

distx,V=Px2B2B-12mins+1inλi-λ1EE0+.(1.4)

Uwaga. W przykładzie 1.2 istotnemu zaburzeniu uległy wartości własne, natomiast wektory własne nie. Jest to zrozumiałe w świetle ostatniego wyniku. W przypadku macierzy 2×2 mamy bowiem B=1C1,1 i w konsekwencji wrażliwość wektorów własnych zależy tylko od różnicy λ1-λ2.

Poniższy przykład dla macierzy symetrycznej (!) pokazuje jak ważne dla wrażliwości wektorów własnych jest odseparowanie różnych wartości własnych.

Przykład 1.3

Wartościami własnymi macierzy symetrycznej

A=1+ε001

1+ε i 1, a odpowiadająca baza wektorów własnych to e1 i e2. Dla macierzy zaburzonej na poziomie ε (czyli różnicy wartości własnych),

A+E=1+ε001+ε-1110,

wartościami własnymi są 1+ε i 1-ε, a bazę wektorów własnych tworzą e1+e2 i e1-e2. Baza wektorów własnych została obrócona o możliwie maksymalny kąt π/4.

1.3. Teoria zaburzeń dla macierzy symetrycznych

W tej części będziemy zakładać, że macierz jest rzeczywista i symetryczna,

A=ATRn,n.

Ponieważ elementy ai,j i aj,i macierzy A są w praktycznych obliczeniach reprezentowane przez tą samą zmienną, zasadne jest założenie, że macierz zaburzona A+E jest również symetryczna, E=ETRn,n.

1.3.1. Wrażliwość wartości własnych

Przypomnijmy twierdzenie 1.1, które mówi, że dla macierzy symetrycznej istnieje baza ortonormalna Q jej wektorów własnych. Ponieważ dla macierzy ortogonanych mamy Q2=1,

cond2Q=Q2QT2= 1.

To zaś, razem z twierdzeniem 1.2 implikuje, że każda watość własna μ macierzy sąsiedniej A+E spełnia nierówność

min1inλi-μE2.

Możemy jednak pokazać dużo więcej. Zachodzi bowiem następujące twierdzenie Weyla.

Twierdzenie 1.3

Niech λ1λ2λn będą wartościami własnymi macierzy A=ATRn,n, a μ1μ2μn wartościami własnymi macierzy sąsiedniej A+E, gdzie E=ETRn,n. Wtedy dla wszystkich 1kn mamy

λk-μkE2.

Dowód twierdzenia opiera się na następującej pożytecznej nierówności.

Lemat 1.1

Dla dowolnej rzeczywistej macierzy symetrycznej A mamy

maxdimV=kmin0xVxTAxxTx=λk=mindimW=n-k+1max0yWxTAxxTx,(1.5)

przy czym odpowiednie maksimum i minimum osiągane są dla V*=spanvk,vk+1,,vn oraz W*=spanv1,v2,,vk.

Dowód

Niech V i W będą dowolnymi podprzestrzeniami o wskazanych wymiarach. Ponieważ suma wymiarów wynosi n+1 to istnieje wektor niezerowy zVW. W konsekwencji

min0xVxTAxxTxzTAzzTzmax0yWxTAxxTx.

Biorąc maximum po V i minimum po W dostajemy, że w (1.5) lewa strona nie jest większa od prawej. Aby pokazać odwrotną nierówność, zauważmy, że dla V* i W* mamy odpowiednio

min0xV*xTAxxTxmin0jkajvjjkaj2λjjkaj2=λk,
max0yW*yTAyyTymax0jkbjvjjkbj2λjjkbj2=λk.

Dla dowodu twierdzenia 1.3 zastosujemy lemat 1.5 najpierw do macierzy A+E, a potem do macierzy A=A+E-E. Otrzymujemy odpowiednio

μk=mindimW=n-k+1max0yWxTA+ExxTx
mindimW=n-k+1max0yWxTAxxTx+E2
=λk+E2,

oraz podobnie nierówność odwrotną λkμk+E2, czyli ostatecznie

λk-μkE2.

Zanotujmy jeszcze, że wielkość

xTAxxTx

znana jest pod nazwą ilorazu Rayleigh'a.

1.3.2. Wrażliwość wektorów własnych

Niech VkRn będzie podprzestrzenią własną odpowiadającą wartości własnej λk macierzy A, a xk wektorem własnym odpowiadającym wartości własnej μk macierzy sąsiedniej A+E. Niech dalej θk będzie kątem pomiędzy xk i podprzestrzenią Vk. Wtedy

sinθkE2minλjλkλk-λjE20+.

Rzeczywiście, to wynika bezpośrednio z twierdzenia 1.3, nierówności (1.4) oraz faktu, że macierz B w (1.4) jest identycznością. Pokażemy teraz nierówność dokładną.

Twierdzenie 1.4
12sin2θkE2minλjλkλk-λj.
Dowód

Dla ustalenia uwagi załóżmy, że k=1 oraz odpowiednia podprzestrzeń własna V1=spanv1,,vs. Przedstawmy wektor własny x1, x2=1, w jednoznaczny sposób w postaci

x1=v+d,

gdzie vV1 i dV1,

d=j=s+1nbjvj.

Możemy też założyć, bez straty ogólności, że d0 i x1V1, tzn. 0<θ<π/2.

Przekształcając równanie A+Ev+d=μ1v+d dostajemy

z:=A-λ1Id=μ1-λ1I-Ev+d.

Ponieważ każdy z wektorów vi dla 1is należy do jądra macierzy symetrycznej A-λ1I to wektor A-λ1Id jest ortogonalny do V1 i tym samym możemy zapisać

z=j=s+1najvj.

Mamy dalej

A-λ1Id=A-λ1Ij=s+1nbjvj=j=s+1nλj-λ1bjvj,

a stąd aj=λj-λ1bj i

d2=j=s+1naj2λj-λ121/2z2mins+1jnλj-λ1.

Z kolei z równości vTμ1-λ1I-Ev+d=0 dostajemy

μ1-λ1v22=vTEv+d,

skąd

z=1v22v+dvTEv+d-Ev+d=1v22v+dvT-IEv+d.

Gdybyśmy teraz wiedzieli, że

1v22v+dvT-I2=1v2(1.6)

to moglibyśmy napisać

z2v+d22v2E2=E2v2

i ostatecznie

12sin2θ1=sinθ1cosθ1=d2v2z2v2mins+1jnλj-λ1E2mins+1jnλj-λ1.

Pozostaje więc do pokazania równość (1.6). W tym celu, weźmy y=αv/v2+βh, gdzie h2=1, hv i y2=α2+β21/2=1. Wtedy

v+dvTv22y-y=αdv2-βh.

Dla danych α i β, wektor po prawej stronie ma największą normę gdy h=±d/d2, przy czym bierzemy plus wtedy i tylko wtedy gdy α i β mają różne znaki. Dlatego poszukiwana norma wynosi

maxα2+β2=1αd2v2+β.

Zamieniając zmienne na α=cosϕ, β=sinϕ łatwo dostajemy, że optymalne ϕ0,π/2 spełnia sinϕ=d2, cosϕ=v2, a stąd dostajemy wynik

d2v2d2+v2=d22+v22v2=1v2.

Pokazaliśmy, że wektory własne są mało wrażliwe na zaburzenia macierzy o ile wartości własne są odseparowane od siebie na poziomie dużo większym niż E2. W szczególności, jeśli dodatkowo λiλj, ij, to mamy jednolite oszacowanie

12sin2θkE2minijλi-λj.

Przypomnijmy jeszcze przykład 1.3 pokazujący, że warunek odseparowania wartości własnych jest konieczny.

Treść automatycznie generowana z plików źródłowych LaTeXa za pomocą oprogramowania wykorzystującego LaTeXML.

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu Społecznego.

Projekt współfinansowany przez Ministerstwo Nauki i Szkolnictwa Wyższego i przez Uniwersytet Warszawski.