Zagadnienia

3. Analiza Składowych Głównych

3.1. Analiza danych wielowymiarowych

Oznaczenia:

  • X będzie oznaczał wektor losowy w przestrzeni Rp: X=X1Xp.

  • Przez t oznaczymy wektor liczb, tRp.

  • C to macierz liczb: CRr×p.

  • Σ będzie oznaczać macierz kowariancji wektora losowego X, czyli:

    Σ=EXi-EXiXj-EXji,j=1p.

    Oznaczeń Σ=VarX=CovX będziemy używać zamiennie.

Stwierdzenie 3.1

Proste własności wprowadzonych pojęć:

  1. EtTX=tTEX, EXTt=EXTt.

  2. ECX=C EX, gdzie:

    C=C1TCrT,ECX=1C1TCrTEX

    .

  3. Macierz kowariancji jest równa:

    Σ=EX-EXX-EXT.
  4. Macierz kowariancji ma następującą własność:

    VarCX=ECX-ECXCX-ECXT=
    =ECX-EXX-EXTCT=
    =C EX-EXX-EXTCT=
    =CVarXCT.
  5. Ponadto, macierz VarX jest symetryczna i nieujemnie określona:

    symetryczność wynika z symetryczności kowariancji dwóch zmiennych losowych;

    nieujemna określoność wynika z nieujemności wariancji dla zmiennej losowej. Dla CT o wymiarach 1×p:

    0VarCTXzm losowa=4CTVarXC=CTΣC.
  6. Jeżeli VarX=σ2Ip, a macierz C jest ortonormlna o wymiarach p×p (CTC=CCT=Ip), to:

    VarCX=CVarXCT=σ2CCT=σ2Ip , czyli się nie zmienia.

3.2. Redukcja Wymiaru danych

Wygodną postacią macierzy wariancji Σ=VarX jest postać diagonalna. Wtedy korelacje pomiędzy różnymi elementami wektora losowego są zerowe.

Problem 3.1

Jak przekształcić wektor losowy X żeby zdiagonalizować Σ?

Twierdzenie 3.1

Rozkład spektralny macierzy symetrycznej A. Dla symetrycznej macierzy A o wymiarze p×p istnieją:

  • ortonormalna (czyli VVT=Ip) macierz kwadratowa V o wymiarze p×p, oznaczmy V=v1,,vp;

  • diagonalna macierz Λ o wyrazach na przekątnych λ1,,λp, że

Avi=λivi , czyli 

vi to wektory własne macierzy A, a λi to wartości własne, które dla macierzy symetrycznej są rzeczywiste. Wtedy:

Av1,,vp=λ1v1,,λpvp;
AV=VΛ;
A=VΛVT;
Λ=VTAV.

Ponieważ macierz kowariancji Σ wektora losowego X jest symetryczna, możemy zastosować do niej rozkład spektralny: Σ=VΛVT. Pomnóżmy wektor X przez macierz VT: VTX. Macierz kowariancji dla takiego wektora to:

VarVTX=VTVarXV=VTΣXV=Λ.

Ponieważ macierz Σ jest nieujemnie określona, wszystkie jej wartości własne są nieujemne: λi0. Uporządkujmy wartości własne λi i odpowiadające im wektory własne vi tak, żeby λ1λ2λp0. Oznaczmy dla tak ustawionych wektorów własnych:

Y=VTX.

3.2.1. Analiza składowych głównych – wersja populacyjna

Definicja 3.1

Mamy wektor losowy XRp oraz macierz kowariancji VarX=Σ=VΛVT.

Składowymi głównymi (principal components) nazywamy elementy wektora Y1,,YpT=Y=VTX.

Kierunkami głównymi (rotations) nazywamy kolumny macierzy V=v1,,vp.

Stwierdzenie 3.2

Własności składowych głównych:

  • wsółrzędne wektora Y są nieskorelowane;

  • wariancje poszczególnych Yi równe są λi;

  • Yi ustawione są od 1 do p w kolejności nierosnących wariancji;

  • Yi to kombinacje liniowe zmiennych losowych X1,,Xp;

Stwierdzenie 3.3

Kierunki główne to unormowane wektory, w kierunku których obserwujemy największą wariancję danych, będące wzajemnie do siebie prostopadłe:

  1. jeżeli t1Rp, t1Tt1=1 Vart1TX osiąga maksimum=λ1 dla t1=v1.

  2. jeżeli t2Rp, t2Tt2=1, t2Tt1=0 Vart2TX osiąga maksimum=λ2 dla t2=v2.

V=v1,,vp jest bazą ortonormalną przestrzeni Rp.

  1. Zapiszmy t1 w tej bazie: t1=i=1pcivi, gdzie ciR współczynniki. Z założeń wynika:

    t1Tt1=i=1pci2=1.

    Zauważmy, że:

    Vart1TX=t1TVarXt1=c1v1T++cpvpTΣc1v1++cpvp=

    z własności wektorów własnych macierzy,

    =(c1v1T++cpvpT)(λ1c1v1++λpcpvp)=i=1pλici2λ1.

    Jeżeli przyjmiemy t1=v1, czyli c1=1, c2=0, otrzymujemy kombinację liniową o maksymalnej wariancji równej λ1.

  2. Ponieważ t2Tv1=0, możemy zapisać:

    Vart2TX=t2TVarXt2=c2v2T++cpvpTΣc2v2++cpvp=
    =i=2pλici2λ2.

    Analogicznie, t2=v2.

Stwierdzenie 3.4

Ponieważ V jest macierzą ortonormalną, możemy interpretować VTX jako współrzędne dla obróconego układu. Dla p=2 obrócone osie byłyby wyznaczone przez v1 i v2, przy czym v1 byłby kierunkiem, w którym mamy największą zmienność danych, a v2 prostopadłym do niego (rysunek 3.1).

\par
Rys. 3.1. Kierunki główne wyznaczją obrócone osie układu współrzędnych.
Definicja 3.2

Całkowity rozrzut danych dla wektora losowego X to suma wariancji jego współrzędnych: i=1pVarXi. Wariancje poszczególnych Xi można interpretować jako ilość informacji, jaką przechowuje dana zmienna: im większa wariancja, tym lepiej możemy różnicować obserwowane wielkości.

Uwaga 3.1

Ślady macierzy Σ i Λ równają się sobie, czyli całkowite rozrzuty danych dla X i Y są równe:

i=1pλi=trΛ=trVTΣV=trVTVΣ=trΣ

.

Istotnym parametrem diagnostycznym przy rozważaniu analizy składowych głównych jest:

λ1++λkλ1++λp,

czyli część całkowitego rozrzutu danych wyjaśniona przez k pierwszych składowych głównych. Na jego podstawie dokonuje się redukcji wymiaru danych: z p zmiennych zostaje utworzone k kombinacji liniowych tych zmiennych, które wyjaśniają np. 90% zmienności wyjściowych danych.

3.2.2. Analiza składowych głównych – wersja próbkowa

Podejście próbkowe do analizy danych różni się od populacyjnego tym, że w podejściu populacyjnym do analizy brana jest zmienna losowa, a w podejściu próbkowym jej realizacje. Dlatego teraz zamiast wektora zmiennych losowych X będziemy rozpatrywać macierz jego n realizacji:

X=X11X1pX21X2pXn1Xnp=X1TX2TXnT.

Do analizy potrzebna będzie macierz kowariancji próbkowej. Zdefiniujmy scentrowaną macierz X jako:

Xc=X11-X¯.1X1p-X¯.pX21-X¯.1X2p-X¯.pXn1-X¯.1Xnp-X¯.p=Xc1TXc2TXcnT,

gdzie X¯.i=1nj=1nXji, i=1,,p.

Zauważmy, że macierz kowariancji próbkowej możemy wyrazić za pomocą macierzy:

S=varX=1n-1XcTXc=1n-1i=1nXciXciT,

która jest nieobciążonym estymatorem macierzy kowariancji:

Σ=EX-EXX-EXT.

Macierz S jest symetryczna i nieujemnie określona. Znajdźmy składowe główne dla podejścia próbkowego tą samą metodą jak dla podejścia populacyjnego:

VTSV=Λ=1n-1VTXcTXcV=1n-1XcVTXcV=1n-1YTY.
Wniosek 3.1

Składowe główne dla problemu próbkowego równe są wektorom Y1,,Yp=Y=XcV, macierz kowariancji próbkowej dla Y jest równa Λ.

3.2.3. Rozkład na wartości szczególne (Singular Value Decomposition)

Rozkład SVD posłuży nam do tańszej obliczeniowo konstrukcji składowych głównych w wersji próbkowej.

Twierdzenie 3.2

Rozkład na wartości szczególne Dla dowolnej macierzy ARm×n mn, U macierz ortonormalna Rm×n oraz V macierz ortonormalna Rn×n takie, że A=UΣVT, gdzie ΣRm×n jest macierzą diagonalną:

Σ=Σ000,Σ=diagσi Rk×k,
σ1σk>σk+1==σn=0,

gdzie k jest rzędem macierzy A. Rozkład taki nazywamy szerokim rozkładem SVD, w odróżnieniu od wąskiego rozkładu SVD, w którym skracamy macierze do istotnych obliczeniowo:

Am×n=Um×mΣm×nVn×nT=
=(|U1m×k|U2m×m-k|)(Σ000)(V1n×kTV2n×n-kT)=
=U1ΣV1T.

Zauważmy, że macierz ATA jest symetryczna i nieujemnie określona:

tRntTATAt=AttAt0.

Zatem, korzystając z rozkładu spektralnego dla ATA otrzymujemy:

VTATAV=diagλi=diagσ12,,σn2, (3.1)

gdzie założymy, że σi to nieujemne pierwiastki z λi:

σ1σk>σk+1==σn=0.

Zauważmy, że V1TATAV1 jest podmacierzą VTATAV o niezerowych wyrazach na przekątnej:

V1TATAV1=σ1200σk2

Zdefiniujmy U1 jako:

U1=AV1 diagσ1-1,,σk-1,

skąd otrzymujemy:

U1 diagσ1,,σk=AV1.
U1TU1=σ1-100σk-1V1TATAV1diagσ12,,σk2σ1-100σk-1=Ik.

Uzupełniamy dowolnie U1 do ortonormalnej macierzy n×n : U=U1|U2. Wtedy:

UTAV=U1TU2TAV1|V2=U1TAV1U1TAV2U2TAV1U2TAV2=

ponieważ ze wzoru (3.1) wynika, że i takiego, że viV2, viTATAvi=AviTAvi=σi2=0, a norma euklidesowa wektora jest równa zero wtedy i tylko wtedy gdy wektor jest równy zero, otrzymujemy:

=(diagσ1-1,,σk-1V1TATAV1=diagσ12,,σk2|0U2TU1 diagσ1,,σk|0)=
=(diagσ1,,σk|0k×n-k0m-k×k|0m-k×n-k)=Σ.

Z równości UTAV=Σ, ponieważ U i V są macierzami ortonormalnymi, wynika:

A=UΣVT=U1ΣV1T.
Stwierdzenie 3.5

Wróćmy do analizy składowych głównych. Do scentrowanej macierzy danych Xc o wymiarze n×p użyjmy wąskiego rozkładu SVD i oznaczmy:

Xc=UΛVT;

wtedy:

varXc=S=1n-1XcTXc=1n-1VΛTUTU=IpΛVT=
=1n-1VΛ2VT=VDVT.
Wniosek 3.2

Zauważmy, że:

  1. Składowe główne w wersji próbkowej przy użyciu rozkładu SVD:

    Y=XcV=UΛVTV=UΛ=λ1U1,,λpUp.

    Obliczanie składowych głównych z tego wzoru jest tańsze obliczeniowo.

  2. Widać związek pomiędzy rozkładem SVD dla X=UΣVT oraz rozkładem spektralnym dla XTX=VΣ2VT.

  3. Podobnie jest dla XXT=UΣVTV=IΣUT=UΣ2UT.

3.2.4. Kolejna zaleta analizy składowych głównych

Wróćmy do analizy składowych głównych w wersji populacyjnej.

Stwierdzenie 3.6

Przy założeniu, że wektor losowy XRp jest scentrowany EX=0, możemy zapisać VarX=EXXT. Korzystając z rozkładu spektralnego, oznaczmy VarX=Σ=VΛVT. Wtedy:

kpukład v1,,vkminimalizujeEX-i=1kXTaiai2
wśród wszystkich układów ortonormalnych a1,,ak.

Czyli w sensie minimalizacji błędu średniokwadratowego najlepszym k-wymiarowym przybliżeniem X jest rzut ortogonalny X na k pierwszych kierunków głównych.

EX-jXTajajTX-iXTaiai=
=EXTX-Ei(XTai)(aiTX)-Ei(XTai)(XTai)+EXTajajTiXTaiaia1,,aksą ortonormalne=
=EXTX-Ei(XTai)2-Ei(XTai)2+Ej(XTaj)2=
=EXTX-Ej=1k(XTaj)2.To wyrażenie chcemy zminimalizować.

Czyli maksymalizujemy po a1,,ak:

Ej=1kXTaj2=j=1kajTEXXTaj=
=j=1kajT[i=1pλiviviT]aj=j=1ki=1pλi(viTaj)2=

Przyjrzyjmy się współczynnikom przy λi, są to kwadraty współczynników aj w bazie ortonormalnej vi, więc sumują się do jedynki:

a1Tv12+a1Tv22++a1Tvp2=1
+++
a2Tv12+a2Tv22++a2Tvp2=1
 
+++
akTv12=h1+akTv22=h2++akTvp2=hp=1
 
+++
apTv12=1+apTv22=1++apTvp2=1=1
w każdej kolumnie można uzupełnić do bazy, wtedy suma=1;

Czyli otrzymujemy:

i=1,,phi1; jednocześnie i=1khi=k;
=i=1pλihiλ1+λ2+λk.

Jeśli podstawimy a1=v1,a2=v2,,ak=vk, otrzymujemy h1=1,,hk=1,hk+1=0,,hp=0, dla których osiągane jest wyliczone maksimum.

3.3. Przykłady w programie R

Treść automatycznie generowana z plików źródłowych LaTeXa za pomocą oprogramowania wykorzystującego LaTeXML.

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu Społecznego.

Projekt współfinansowany przez Ministerstwo Nauki i Szkolnictwa Wyższego i przez Uniwersytet Warszawski.