Oznaczenia:
Przez
Oznaczeń
Proste własności wprowadzonych pojęć:
.
Macierz kowariancji jest równa:
Macierz kowariancji ma następującą własność:
Ponadto, macierz
symetryczność wynika z symetryczności kowariancji dwóch zmiennych losowych;
nieujemna określoność wynika z nieujemności wariancji dla zmiennej losowej. Dla
Jeżeli
Wygodną postacią macierzy wariancji
Jak przekształcić wektor losowy
Rozkład spektralny macierzy symetrycznej
ortonormalna (czyli
diagonalna macierz
Ponieważ macierz kowariancji
Ponieważ macierz
Mamy wektor losowy
Składowymi głównymi (principal components) nazywamy elementy wektora
Kierunkami głównymi (rotations) nazywamy kolumny macierzy
Własności składowych głównych:
wsółrzędne wektora
wariancje poszczególnych
Kierunki główne to unormowane wektory, w kierunku których obserwujemy największą wariancję danych, będące wzajemnie do siebie prostopadłe:
jeżeli
jeżeli
Zapiszmy
Zauważmy, że:
z własności wektorów własnych macierzy,
Jeżeli przyjmiemy
Ponieważ
Analogicznie,
Ponieważ
Całkowity rozrzut danych dla wektora losowego
Ślady macierzy
.
Istotnym parametrem diagnostycznym przy rozważaniu analizy składowych głównych jest:
czyli część całkowitego rozrzutu danych wyjaśniona przez
Podejście próbkowe do analizy danych różni się od populacyjnego tym, że w podejściu populacyjnym do analizy brana jest zmienna losowa, a w podejściu próbkowym jej realizacje. Dlatego teraz zamiast wektora zmiennych losowych
Do analizy potrzebna będzie macierz kowariancji próbkowej. Zdefiniujmy scentrowaną macierz
gdzie
Zauważmy, że macierz kowariancji próbkowej możemy wyrazić za pomocą macierzy:
która jest nieobciążonym estymatorem macierzy kowariancji:
Macierz
Składowe główne dla problemu próbkowego równe są wektorom
Rozkład SVD posłuży nam do tańszej obliczeniowo konstrukcji składowych głównych w wersji próbkowej.
Rozkład na wartości szczególne
Dla dowolnej macierzy
gdzie
Zauważmy, że macierz
Zatem, korzystając z rozkładu spektralnego dla
(3.1) |
gdzie założymy, że
Zauważmy, że
Zdefiniujmy
skąd otrzymujemy:
Uzupełniamy dowolnie
ponieważ ze wzoru (3.1) wynika, że
Z równości
Wróćmy do analizy składowych głównych. Do scentrowanej macierzy danych
wtedy:
Zauważmy, że:
Składowe główne w wersji próbkowej przy użyciu rozkładu SVD:
Obliczanie składowych głównych z tego wzoru jest tańsze obliczeniowo.
Widać związek pomiędzy rozkładem SVD dla
Podobnie jest dla
Wróćmy do analizy składowych głównych w wersji populacyjnej.
Przy założeniu, że wektor losowy
wśród wszystkich układów ortonormalnych |
Czyli w sensie minimalizacji błędu średniokwadratowego najlepszym
Czyli maksymalizujemy po
Przyjrzyjmy się współczynnikom przy
Czyli otrzymujemy:
Jeśli podstawimy
Analiza składowych głównych:
dla danych Pima: http://www.mimuw.edu.pl/~pokar/StatystykaII/EKSPLORACJA/pca.R
dla danych Iris i Kraby: http://www.mimuw.edu.pl/~pokar/StatystykaII/EKSPLORACJA/rzutDanych.R
Treść automatycznie generowana z plików źródłowych LaTeXa za pomocą oprogramowania wykorzystującego LaTeXML.
strona główna | webmaster | o portalu | pomoc
© Wydział Matematyki, Informatyki i
Mechaniki UW, 2009-2010. Niniejsze materiały są udostępnione bezpłatnie na licencji Creative Commons Uznanie autorstwa-Użycie niekomercyjne-Bez utworów zależnych 3.0 Polska.
Projekt współfinansowany przez Unię Europejską w ramach
Europejskiego Funduszu Społecznego.
Projekt współfinansowany przez Ministerstwo Nauki i Szkolnictwa Wyższego i przez Uniwersytet Warszawski.