Zadanie klasyfikacji polega na konstrukcji funkcji (klasyfikatora), która na podstawie zaobserwowanych cech będzie przydzielała obserwację do którejś z wcześniej zdefiniowanych grup. Do estymacji funkcji potrzebne są obserwacje, które już zostały sklasyfikowane, będziemy je nazywać próbą uczącą:
![]() |
Dane oznaczają zaobserwowane cechy,
grupę, do której obserwacja została zaklasyfikowana.
oznaczaja zbiór tych indeksów
, że
;
są rozłączne o licznościach odpowiednio
Funkcja wiarygodności dla opisanych danych wyraża się wzorem:
![]() |
![]() |
Logwiarygodność to logarytm funkcji wiarygodności:
![]() |
![]() |
Zadanie klasyfikacji dzielimy na dwa kroki:
Estymujemy parametry oraz
na podstawie zaobserwowanych par
przy użyciu metody największej wiarygodności. Parametry
możemy interpretować jako prawdopodobieństwa przynależności do danej grupy danych, a
jako parametry rozkładu w danej grupie (na przykład dla wielowymiarowego rozkładu normalnego, byłyby to średnia
i macierz kowariancji
).
Obserwujemy nowe cechy i przyporządkowujemy im
na podstawie zbudowanego przez nas klasyfikatora. Będziemy go także nazywać regułą decyzyjną.
Maksymalizujemy funkcję wiarygodności pod warunkiem przy użyciu metody mnożników Lagrange'a:
![]() |
![]() |
![]() |
Liczymy estymatory :
![]() |
(7.1) |
![]() |
(7.2) |
Z równań 7.1 otrzymujemy:
![]() |
Sumujemy po korzystając z równania 7.2 :
![]() |
Estymację parametrów odłożymy do dalszej części wykładu.
Zobaczmy teraz, jak można zdefiniować optymalny klasyfikator w zależności od funkcji straty karzącej za błędne sklasyfikowanie danych.
Funkcja straty to funkcja przyporządkowująca nieujemną wielkość kary poprzez porównanie prawdy (założymy chwilowo, że ją znamy) do podjętej decyzji (wyliczonego estymatora):
![]() |
Przykładową funkcją kary dla ciągłego jest
.
Mając wyestymowaną regułę decyzyjną sensownym jest rozpatrywanie średniej straty dla naszego klasyfikatora:
Ryzyko reguły decyzyjnej dla :
![]() |
![]() |
gdzie jest gęstością łącznego rozkładu danych. Z twierdzenia o prawdopodobieństwie całkowitym:
![]() |
Optymalna reguła decyzyjna to taka reguła decyzyjna, że
![]() |
Reguła bayesowska to reguła decyzyjna, która lokalnie dla danego
spełnia warunek:
![]() |
![]() |
ze wzoru Bayesa:
![]() |
![]() |
![]() |
Reguła bayesowska jest optymalną regułą decyzyjną.
Dla dowolnej reguły decyzyjnej zachodzi:
![]() |
![]() |
![]() |
![]() |
W dalszej części wykładu będziemy zakładać, że mają rozkłady normalne. Dlatego przyjrzyjmy się bliżej własnościom wielowymiarowego rozkładu normalnego i estymacji jego parametrów metodą najwiękzej wiarygodności.
Wektor losowy ma rozkład wielowymiarowy normalny w
jeśli
ma rozkład normalny w
. Oznaczmy ten rozkład poprzez
, gdzie
,
.
Jeżeli ma rokład normalny w
, to
i macierzy
wymiaru
,
ma rozkład normalny w
.
![]() |
Rozkłady brzegowe wielowymiarowego rozkładu normalnego są normalne w odpowiednich podprzestrzeniach .
Fcja charakterystyczna zmiennej losowej o rozkładzie normalnym w
jest postaci:
![]() |
(7.3) |
Także na odwrót: jeżeli jest symetryczną macierzą dodatnio określoną o wymiarach
, to
określona w równaniu 7.3 jest funkcją charakterystyczną wektora losowego o rozkładzie normalnym w
.
Dowolna macierz symetryczna dodatnio określona o wymiarach jest macierzą kowariancji wektora losowego o rokładzie normalnym w
.
Gęstość wielowymiarowego rozkładu normalnego :
![]() |
Jeżeli ma rozkład normalny w
:
, to współrzędne wektora
są niezależne
jest diagonalna. Dla rozkładu normalnego brak korelacji oznacza niezależność.
Jeżeli ,
jest macierzą ortonormalną o wymiarach
, to:
![]() |
Niech będą niezależnymi wektorami losowymi z
-wymiarowego rozkładu
. Znajdziemy estymatory dla parametrów
i
. Łączna funkcja wiarygodności dla
wektorów losowych:
![]() |
Najpierw szukamy estymatora ; w tym celu opuszczamy wszystkie wyrazy nie zalezeżące od
, które by się wyzerowały po policzeniu pochodnej. Dla prostoty obliczeń maksymalizujemy podwojoną logwiarygodność:
![]() |
gdzie .
Przypomnijmy fakt:
Oznaczmy: – wektory tej samej długości p,
macierz o wymiarach
.
![]() |
![]() |
Skorzystajmy z lematu 7.1 żeby obliczyć pochodną logwiarygodności:
![]() |
stąd
![]() |
czyli estymatorem największej wiarygodności dla średniej rozkładu normalnego jest średnia arytmetyczna obserwacji.
Ponieważ optymalne nie zależy od
, przy obliczaniu
możemy wstawić
za
. Maksymalizujemy po
wyrażenie:
![]() |
Symbol oznacza proporcjonalność, możemy opuścić wszystkie stałe, które nie wpływają na wynik optymalizacji.
Ponieważ ( jest liczbą, a
, oraz
, otrzymujemy:
![]() |
ślad macierzy jest funkcją liniową argumentu, więc zachodzi:
![]() |
pomnóżmy i podzielmy przez
![]() |
Ponieważ nie zależy od
, możemy to wyrażenie opuścić. Podstawmy
:
![]() |
Dla macierzy kwadratowej o wymiarach
zachodzi:
![]() |
![]() |
gdzie to wartości własne macierzy.
Korzystając z lematu 7.2:
![]() |
Zmaksymalizujmy to wyrażenie po każdej wartości własnej , co sprowadza się do maksymalizacji po
funkcji:
![]() |
![]() |
![]() |
skąd .
Macierzą o wszystkich wartościach własnych równych jest
:
![]() |
skąd:
![]() |
czyli estymatorem największej wiarygodności dla macierzy kowariancji rozkładu normalnego jest obciążony estymator próbkowy macierzy kowariancji.
Zrobimy dwa założenia dotyczące rozważanego wcześniej klasyfikatora:
Funkcja straty jest postaci:
![]() |
W każdej z grup dane pochodzą z rozkładu normalnego, czyli to gęstość rozkładu normalnego,
.
Dal zadanej funkcji straty optymalna (bayesowska) reguła decyzyjna będzie miała postać:
![]() |
![]() |
Znamy już postać szukanego klasyfikatora, potrzebujemy jeszcze estymatorów dla występujących w nim parametrów. Wiemy jak wyglądają estymatory :
![]() |
Estymatory największej wiarygodności dla parametrów przy założeniu normalności rozkładów w grupach są postaci:
![]() |
![]() |
gdzie oznacza wektor średnich obserwacji dla
.
Dla niezależnego od próby uczącej:
estymator reguły decyzyjnej ma postać:
![]() |
W zależności od założeń dotyczących parametrów, możemy otrzymać klasyfikator będący różną funkcją swojego argumentu : albo kwadratową albo liniową.
Kwadratowa funkcja klasyfikacyjna (qda) nie wymaga dodatkowych założeń o parametrach:
![]() |
![]() |
po opuszczeniu wyrażeń niezależnych od i zlogarytmowaniu:
![]() |
czyli kwadratowa funkcja argumentu .
Liniowa funkcja klasyfikacyjna (lda) wymaga założenia:
![]() |
Dzięki niemu mamy podwójny zysk obliczeniowy: o parametrów mniej do wyestymowania i liniową funkcję optymalizowaną:
![]() |
ponieważ oraz
nie zależy od
,
![]() |
Chcemy znaleźć taką metodę porónywania, żeby każdą obserwację spośród wykorzystać do uczenia i testu, ale tak żeby testować tylko na tych obserwacjach, które nie były brane pod uwagę przy uczeniu klasyfikatorów.
Kroswalidacja -krotna (walidacja krzyżowa) polega na podziale danych na
części (popularnymi wyborami są
,
):
będzie tworzyć próbę uczącą, ostatnia będzie próbą testową. Estymujemy klasyfikatory na próbie uczącej, porównujemy metody na próbie testowej. Powtarzamy procedurę
razy tak, żeby każda z części była próbą testową. Dokładniej:
Permutujemy obserwacje. Jeżeli dane mają jakąś strukturę, na przykład można je podzielić na klasy, permutujemy obserwacje w klasach.
Dzielimy próbę na części tak, żeby w każdej z grup było po tyle samo obserwacji z każdej klasy.
Uczymy klasyfikatory na próbie uczącej - estymujemy parametry.
Porównujemy metody na próbie testowej (np. poprzez estymację prawdopodobieństwa poprawnej predykcji)
Prawdopodobieństwo poprawnej predykcji to dla danego klasyfikatora . Np. jeżeli funkcja straty wyraża się wzorem
, możemy estymować prawdopodobieństwo poprawnej predykcji dla konkretnej próby treningowej i testowej następująco:
![]() |
gdzie jest klasyfikatorem wyestymowanym na podstawie próby uczącej. Uśrednione
jest dobrą metodą porównywania klasyfikatorów:
![]() |
Klasyfikacja:
kwadratowa funkcja klasyfikacyjna dla danych Iris, kroswalidacja: http://www.mimuw.edu.pl/~pokar/StatystykaII/PREDYKCJA/qda.R
liniowa funkcja klasyfikacyjna: http://www.mimuw.edu.pl/~pokar/StatystykaII/PREDYKCJA/lda.R
kwadratowa funkcja klasyfikacyjna oraz sieci neuronowe: http://www.mimuw.edu.pl/~pokar/StatystykaII/PREDYKCJA/CrossValKlasCrabs.R
kwadratowa funkcja klasyfikacyjna oraz sieci neuronowe, kroswalidacja: http://www.mimuw.edu.pl/~pokar/StatystykaII/PREDYKCJA/crossValKlas.R
porównanie różnych funkcji klasyfikacyjnych: http://www.mimuw.edu.pl/~pokar/StatystykaII/PREDYKCJA/zmDyskrym.R
Treść automatycznie generowana z plików źródłowych LaTeXa za pomocą oprogramowania wykorzystującego LaTeXML.
strona główna | webmaster | o portalu | pomoc
© Wydział Matematyki, Informatyki i
Mechaniki UW, 2009-2010. Niniejsze materiały są udostępnione bezpłatnie na licencji Creative Commons Uznanie autorstwa-Użycie niekomercyjne-Bez utworów zależnych 3.0 Polska.
Projekt współfinansowany przez Unię Europejską w ramach
Europejskiego Funduszu Społecznego.
Projekt współfinansowany przez Ministerstwo Nauki i Szkolnictwa Wyższego i przez Uniwersytet Warszawski.