Oznaczenia:
będzie oznaczał wektor losowy w przestrzeni : .
Przez oznaczymy wektor liczb, .
to macierz liczb: .
będzie oznaczać macierz kowariancji wektora losowego , czyli:
Oznaczeń będziemy używać zamiennie.
Proste własności wprowadzonych pojęć:
, .
, gdzie:
.
Macierz kowariancji jest równa:
Macierz kowariancji ma następującą własność:
Ponadto, macierz jest symetryczna i nieujemnie określona:
symetryczność wynika z symetryczności kowariancji dwóch zmiennych losowych;
nieujemna określoność wynika z nieujemności wariancji dla zmiennej losowej. Dla o wymiarach :
Jeżeli , a macierz jest ortonormlna o wymiarach (), to:
Wygodną postacią macierzy wariancji jest postać diagonalna. Wtedy korelacje pomiędzy różnymi elementami wektora losowego są zerowe.
Jak przekształcić wektor losowy żeby zdiagonalizować ?
Rozkład spektralny macierzy symetrycznej . Dla symetrycznej macierzy o wymiarze istnieją:
ortonormalna (czyli ) macierz kwadratowa o wymiarze , oznaczmy ;
diagonalna macierz o wyrazach na przekątnych , że
to wektory własne macierzy , a to wartości własne, które dla macierzy symetrycznej są rzeczywiste. Wtedy:
Ponieważ macierz kowariancji wektora losowego jest symetryczna, możemy zastosować do niej rozkład spektralny: . Pomnóżmy wektor przez macierz : . Macierz kowariancji dla takiego wektora to:
Ponieważ macierz jest nieujemnie określona, wszystkie jej wartości własne są nieujemne: . Uporządkujmy wartości własne i odpowiadające im wektory własne tak, żeby . Oznaczmy dla tak ustawionych wektorów własnych:
Mamy wektor losowy oraz macierz kowariancji .
Składowymi głównymi (principal components) nazywamy elementy wektora .
Kierunkami głównymi (rotations) nazywamy kolumny macierzy .
Własności składowych głównych:
wsółrzędne wektora są nieskorelowane;
wariancje poszczególnych równe są ;
ustawione są od do w kolejności nierosnących wariancji;
to kombinacje liniowe zmiennych losowych ;
Kierunki główne to unormowane wektory, w kierunku których obserwujemy największą wariancję danych, będące wzajemnie do siebie prostopadłe:
jeżeli , osiąga maksimum dla .
jeżeli , , osiąga maksimum dla .
jest bazą ortonormalną przestrzeni .
Zapiszmy w tej bazie: , gdzie współczynniki. Z założeń wynika:
Zauważmy, że:
z własności wektorów własnych macierzy,
Jeżeli przyjmiemy , czyli , , otrzymujemy kombinację liniową o maksymalnej wariancji równej .
Ponieważ , możemy zapisać:
Analogicznie, .
Ponieważ jest macierzą ortonormalną, możemy interpretować jako współrzędne dla obróconego układu. Dla obrócone osie byłyby wyznaczone przez i , przy czym byłby kierunkiem, w którym mamy największą zmienność danych, a prostopadłym do niego (rysunek 3.1).
Całkowity rozrzut danych dla wektora losowego to suma wariancji jego współrzędnych: . Wariancje poszczególnych można interpretować jako ilość informacji, jaką przechowuje dana zmienna: im większa wariancja, tym lepiej możemy różnicować obserwowane wielkości.
Ślady macierzy i równają się sobie, czyli całkowite rozrzuty danych dla i są równe:
.
Istotnym parametrem diagnostycznym przy rozważaniu analizy składowych głównych jest:
czyli część całkowitego rozrzutu danych wyjaśniona przez pierwszych składowych głównych. Na jego podstawie dokonuje się redukcji wymiaru danych: z zmiennych zostaje utworzone kombinacji liniowych tych zmiennych, które wyjaśniają np. zmienności wyjściowych danych.
Podejście próbkowe do analizy danych różni się od populacyjnego tym, że w podejściu populacyjnym do analizy brana jest zmienna losowa, a w podejściu próbkowym jej realizacje. Dlatego teraz zamiast wektora zmiennych losowych będziemy rozpatrywać macierz jego realizacji:
Do analizy potrzebna będzie macierz kowariancji próbkowej. Zdefiniujmy scentrowaną macierz jako:
gdzie , .
Zauważmy, że macierz kowariancji próbkowej możemy wyrazić za pomocą macierzy:
która jest nieobciążonym estymatorem macierzy kowariancji:
Macierz jest symetryczna i nieujemnie określona. Znajdźmy składowe główne dla podejścia próbkowego tą samą metodą jak dla podejścia populacyjnego:
Składowe główne dla problemu próbkowego równe są wektorom , macierz kowariancji próbkowej dla jest równa .
Rozkład SVD posłuży nam do tańszej obliczeniowo konstrukcji składowych głównych w wersji próbkowej.
Rozkład na wartości szczególne Dla dowolnej macierzy , macierz ortonormalna oraz macierz ortonormalna takie, że , gdzie jest macierzą diagonalną:
gdzie jest rzędem macierzy . Rozkład taki nazywamy szerokim rozkładem SVD, w odróżnieniu od wąskiego rozkładu SVD, w którym skracamy macierze do istotnych obliczeniowo:
Zauważmy, że macierz jest symetryczna i nieujemnie określona:
Zatem, korzystając z rozkładu spektralnego dla otrzymujemy:
(3.1) |
gdzie założymy, że to nieujemne pierwiastki z :
Zauważmy, że jest podmacierzą o niezerowych wyrazach na przekątnej:
Zdefiniujmy jako:
skąd otrzymujemy:
Uzupełniamy dowolnie do ortonormalnej macierzy : Wtedy:
ponieważ ze wzoru (3.1) wynika, że takiego, że , , a norma euklidesowa wektora jest równa zero wtedy i tylko wtedy gdy wektor jest równy zero, otrzymujemy:
Z równości , ponieważ i są macierzami ortonormalnymi, wynika:
Wróćmy do analizy składowych głównych. Do scentrowanej macierzy danych o wymiarze użyjmy wąskiego rozkładu SVD i oznaczmy:
wtedy:
Zauważmy, że:
Składowe główne w wersji próbkowej przy użyciu rozkładu SVD:
Obliczanie składowych głównych z tego wzoru jest tańsze obliczeniowo.
Widać związek pomiędzy rozkładem SVD dla oraz rozkładem spektralnym dla .
Podobnie jest dla .
Wróćmy do analizy składowych głównych w wersji populacyjnej.
Przy założeniu, że wektor losowy jest scentrowany , możemy zapisać . Korzystając z rozkładu spektralnego, oznaczmy . Wtedy:
wśród wszystkich układów ortonormalnych . |
Czyli w sensie minimalizacji błędu średniokwadratowego najlepszym -wymiarowym przybliżeniem jest rzut ortogonalny na pierwszych kierunków głównych.
Czyli maksymalizujemy po :
Przyjrzyjmy się współczynnikom przy , są to kwadraty współczynników w bazie ortonormalnej , więc sumują się do jedynki:
Czyli otrzymujemy:
Jeśli podstawimy , otrzymujemy , dla których osiągane jest wyliczone maksimum.
∎Analiza składowych głównych:
dla danych Pima: http://www.mimuw.edu.pl/~pokar/StatystykaII/EKSPLORACJA/pca.R
dla danych Iris i Kraby: http://www.mimuw.edu.pl/~pokar/StatystykaII/EKSPLORACJA/rzutDanych.R
Treść automatycznie generowana z plików źródłowych LaTeXa za pomocą oprogramowania wykorzystującego LaTeXML.
strona główna | webmaster | o portalu | pomoc
© Wydział Matematyki, Informatyki i Mechaniki UW, 2009-2010. Niniejsze materiały są udostępnione bezpłatnie na licencji Creative Commons Uznanie autorstwa-Użycie niekomercyjne-Bez utworów zależnych 3.0 Polska.
Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu Społecznego.
Projekt współfinansowany przez Ministerstwo Nauki i Szkolnictwa Wyższego i przez Uniwersytet Warszawski.