Oznaczenia:
będzie oznaczał wektor losowy w przestrzeni
:
.
Przez oznaczymy wektor liczb,
.
to macierz liczb:
.
będzie oznaczać macierz kowariancji wektora losowego
, czyli:
![]() |
Oznaczeń będziemy używać zamiennie.
Proste własności wprowadzonych pojęć:
,
.
, gdzie:
![]() |
.
Macierz kowariancji jest równa:
![]() |
Macierz kowariancji ma następującą własność:
![]() |
![]() |
||
![]() |
![]() |
||
![]() |
![]() |
||
![]() |
![]() |
Ponadto, macierz jest symetryczna i nieujemnie określona:
symetryczność wynika z symetryczności kowariancji dwóch zmiennych losowych;
nieujemna określoność wynika z nieujemności wariancji dla zmiennej losowej. Dla o wymiarach
:
![]() |
Jeżeli , a macierz
jest ortonormlna o wymiarach
(
), to:
![]() |
Wygodną postacią macierzy wariancji jest postać diagonalna. Wtedy korelacje pomiędzy różnymi elementami wektora losowego są zerowe.
Jak przekształcić wektor losowy żeby zdiagonalizować
?
Rozkład spektralny macierzy symetrycznej .
Dla symetrycznej macierzy
o wymiarze
istnieją:
ortonormalna (czyli ) macierz kwadratowa
o wymiarze
, oznaczmy
;
diagonalna macierz o wyrazach na przekątnych
, że
![]() |
to wektory własne macierzy
, a
to wartości własne, które dla macierzy symetrycznej są rzeczywiste. Wtedy:
![]() |
![]() |
||
![]() |
![]() |
||
![]() |
![]() |
||
![]() |
![]() |
Ponieważ macierz kowariancji wektora losowego
jest symetryczna, możemy zastosować do niej rozkład spektralny:
.
Pomnóżmy wektor
przez macierz
:
. Macierz kowariancji dla takiego wektora to:
![]() |
Ponieważ macierz jest nieujemnie określona, wszystkie jej wartości własne są nieujemne:
. Uporządkujmy wartości własne
i odpowiadające im wektory własne
tak, żeby
. Oznaczmy dla tak ustawionych wektorów własnych:
![]() |
Mamy wektor losowy oraz macierz kowariancji
.
Składowymi głównymi (principal components) nazywamy elementy wektora .
Kierunkami głównymi (rotations) nazywamy kolumny macierzy .
Własności składowych głównych:
wsółrzędne wektora są nieskorelowane;
wariancje poszczególnych równe są
;
ustawione są od
do
w kolejności nierosnących wariancji;
to kombinacje liniowe zmiennych losowych
;
Kierunki główne to unormowane wektory, w kierunku których obserwujemy największą wariancję danych, będące wzajemnie do siebie prostopadłe:
jeżeli ,
osiąga maksimum
dla
.
jeżeli ,
,
osiąga maksimum
dla
.
jest bazą ortonormalną przestrzeni
.
Zapiszmy w tej bazie:
, gdzie
współczynniki. Z założeń wynika:
![]() |
Zauważmy, że:
![]() |
z własności wektorów własnych macierzy,
![]() |
Jeżeli przyjmiemy , czyli
,
, otrzymujemy kombinację liniową o maksymalnej wariancji równej
.
Ponieważ , możemy zapisać:
![]() |
![]() |
Analogicznie, .
Ponieważ jest macierzą ortonormalną, możemy interpretować
jako współrzędne dla obróconego układu. Dla
obrócone osie byłyby wyznaczone przez
i
, przy czym
byłby kierunkiem, w którym mamy największą zmienność danych, a
prostopadłym do niego (rysunek 3.1).
Całkowity rozrzut danych dla wektora losowego to suma wariancji jego współrzędnych:
. Wariancje poszczególnych
można interpretować jako ilość informacji, jaką przechowuje dana zmienna: im większa wariancja, tym lepiej możemy różnicować obserwowane wielkości.
Ślady macierzy i
równają się sobie, czyli całkowite rozrzuty danych dla
i
są równe:
![]() |
.
Istotnym parametrem diagnostycznym przy rozważaniu analizy składowych głównych jest:
![]() |
czyli część całkowitego rozrzutu danych wyjaśniona przez pierwszych składowych głównych. Na jego podstawie dokonuje się redukcji wymiaru danych: z
zmiennych zostaje utworzone
kombinacji liniowych tych zmiennych, które wyjaśniają np.
zmienności wyjściowych danych.
Podejście próbkowe do analizy danych różni się od populacyjnego tym, że w podejściu populacyjnym do analizy brana jest zmienna losowa, a w podejściu próbkowym jej realizacje. Dlatego teraz zamiast wektora zmiennych losowych będziemy rozpatrywać macierz jego
realizacji:
![]() |
Do analizy potrzebna będzie macierz kowariancji próbkowej. Zdefiniujmy scentrowaną macierz jako:
![]() |
gdzie ,
.
Zauważmy, że macierz kowariancji próbkowej możemy wyrazić za pomocą macierzy:
![]() |
która jest nieobciążonym estymatorem macierzy kowariancji:
![]() |
Macierz jest symetryczna i nieujemnie określona. Znajdźmy składowe główne dla podejścia próbkowego tą samą metodą jak dla podejścia populacyjnego:
![]() |
Składowe główne dla problemu próbkowego równe są wektorom , macierz kowariancji próbkowej dla
jest równa
.
Rozkład SVD posłuży nam do tańszej obliczeniowo konstrukcji składowych głównych w wersji próbkowej.
Rozkład na wartości szczególne
Dla dowolnej macierzy
,
macierz ortonormalna
oraz
macierz ortonormalna
takie, że
, gdzie
jest macierzą diagonalną:
![]() |
![]() |
gdzie jest rzędem macierzy
. Rozkład taki nazywamy szerokim rozkładem SVD, w odróżnieniu od wąskiego rozkładu SVD, w którym skracamy macierze do istotnych obliczeniowo:
![]() |
![]() |
![]() |
Zauważmy, że macierz jest symetryczna i nieujemnie określona:
![]() |
Zatem, korzystając z rozkładu spektralnego dla otrzymujemy:
![]() |
(3.1) |
gdzie założymy, że to nieujemne pierwiastki z
:
![]() |
Zauważmy, że jest podmacierzą
o niezerowych wyrazach na przekątnej:
![]() |
Zdefiniujmy jako:
![]() |
skąd otrzymujemy:
![]() |
![]() |
Uzupełniamy dowolnie do ortonormalnej macierzy
:
Wtedy:
![]() |
ponieważ ze wzoru (3.1) wynika, że
takiego, że
,
, a norma euklidesowa wektora jest równa zero wtedy i tylko wtedy gdy wektor jest równy zero, otrzymujemy:
![]() |
![]() |
Z równości , ponieważ
i
są macierzami ortonormalnymi, wynika:
![]() |
Wróćmy do analizy składowych głównych. Do scentrowanej macierzy danych o wymiarze
użyjmy wąskiego rozkładu SVD i oznaczmy:
![]() |
wtedy:
![]() |
![]() |
Zauważmy, że:
Składowe główne w wersji próbkowej przy użyciu rozkładu SVD:
![]() |
Obliczanie składowych głównych z tego wzoru jest tańsze obliczeniowo.
Widać związek pomiędzy rozkładem SVD dla oraz rozkładem spektralnym dla
.
Podobnie jest dla .
Wróćmy do analizy składowych głównych w wersji populacyjnej.
Przy założeniu, że wektor losowy jest scentrowany
, możemy zapisać
. Korzystając z rozkładu spektralnego, oznaczmy
. Wtedy:
![]() |
wśród wszystkich układów ortonormalnych ![]() |
Czyli w sensie minimalizacji błędu średniokwadratowego najlepszym -wymiarowym przybliżeniem
jest rzut ortogonalny
na
pierwszych kierunków głównych.
![]() |
![]() |
![]() |
![]() |
Czyli maksymalizujemy po :
![]() |
![]() |
Przyjrzyjmy się współczynnikom przy , są to kwadraty współczynników
w bazie ortonormalnej
, więc sumują się do jedynki:
![]() |
|||
![]() |
|||
![]() |
|||
![]() |
|||
![]() |
|||
![]() |
|||
![]() |
|||
![]() |
|||
![]() |
|||
![]() |
Czyli otrzymujemy:
![]() |
![]() |
Jeśli podstawimy , otrzymujemy
, dla których osiągane jest wyliczone maksimum.
Analiza składowych głównych:
dla danych Pima: http://www.mimuw.edu.pl/~pokar/StatystykaII/EKSPLORACJA/pca.R
dla danych Iris i Kraby: http://www.mimuw.edu.pl/~pokar/StatystykaII/EKSPLORACJA/rzutDanych.R
Treść automatycznie generowana z plików źródłowych LaTeXa za pomocą oprogramowania wykorzystującego LaTeXML.
strona główna | webmaster | o portalu | pomoc
© Wydział Matematyki, Informatyki i
Mechaniki UW, 2009-2010. Niniejsze materiały są udostępnione bezpłatnie na licencji Creative Commons Uznanie autorstwa-Użycie niekomercyjne-Bez utworów zależnych 3.0 Polska.
Projekt współfinansowany przez Unię Europejską w ramach
Europejskiego Funduszu Społecznego.
Projekt współfinansowany przez Ministerstwo Nauki i Szkolnictwa Wyższego i przez Uniwersytet Warszawski.