Zadanie klasyfikacji polega na konstrukcji funkcji (klasyfikatora), która na podstawie zaobserwowanych cech będzie przydzielała obserwację do którejś z wcześniej zdefiniowanych grup. Do estymacji funkcji potrzebne są obserwacje, które już zostały sklasyfikowane, będziemy je nazywać próbą uczącą:
Dane
Funkcja wiarygodności dla opisanych danych wyraża się wzorem:
Logwiarygodność to logarytm funkcji wiarygodności:
Zadanie klasyfikacji dzielimy na dwa kroki:
Estymujemy parametry
Obserwujemy nowe cechy
Maksymalizujemy funkcję wiarygodności pod warunkiem
Liczymy estymatory
(7.1) |
(7.2) |
Z równań 7.1 otrzymujemy:
Sumujemy po
Estymację parametrów
Zobaczmy teraz, jak można zdefiniować optymalny klasyfikator w zależności od funkcji straty karzącej za błędne sklasyfikowanie danych.
Funkcja straty to funkcja przyporządkowująca nieujemną wielkość kary poprzez porównanie prawdy (założymy chwilowo, że ją znamy) do podjętej decyzji (wyliczonego estymatora):
Przykładową funkcją kary dla ciągłego
Mając wyestymowaną regułę decyzyjną sensownym jest rozpatrywanie średniej straty dla naszego klasyfikatora:
Ryzyko reguły decyzyjnej dla
gdzie
Optymalna reguła decyzyjna
Reguła bayesowska
ze wzoru Bayesa:
Reguła bayesowska jest optymalną regułą decyzyjną.
Dla dowolnej reguły decyzyjnej
W dalszej części wykładu będziemy zakładać, że
Wektor losowy
Jeżeli
Rozkłady brzegowe wielowymiarowego rozkładu normalnego są normalne w odpowiednich podprzestrzeniach
Fcja charakterystyczna zmiennej losowej
(7.3) |
Także na odwrót: jeżeli
Dowolna macierz symetryczna dodatnio określona o wymiarach
Gęstość wielowymiarowego rozkładu normalnego
Jeżeli
Jeżeli
Niech
Najpierw szukamy estymatora
gdzie
Przypomnijmy fakt:
Oznaczmy:
Skorzystajmy z lematu 7.1 żeby obliczyć pochodną logwiarygodności:
stąd
czyli estymatorem największej wiarygodności dla średniej rozkładu normalnego jest średnia arytmetyczna obserwacji.
Ponieważ optymalne
Symbol
Ponieważ (
ślad macierzy jest funkcją liniową argumentu, więc zachodzi:
pomnóżmy i podzielmy przez
Ponieważ
Dla macierzy kwadratowej
gdzie
Korzystając z lematu 7.2:
Zmaksymalizujmy to wyrażenie po każdej wartości własnej
skąd
Macierzą o wszystkich wartościach własnych równych
skąd:
czyli estymatorem największej wiarygodności dla macierzy kowariancji rozkładu normalnego jest obciążony estymator próbkowy macierzy kowariancji.
Zrobimy dwa założenia dotyczące rozważanego wcześniej klasyfikatora:
Funkcja straty jest postaci:
W każdej z grup dane pochodzą z rozkładu normalnego, czyli
Dal zadanej funkcji straty optymalna (bayesowska) reguła decyzyjna będzie miała postać:
Znamy już postać szukanego klasyfikatora, potrzebujemy jeszcze estymatorów dla występujących w nim parametrów. Wiemy jak wyglądają estymatory
Estymatory największej wiarygodności dla parametrów
gdzie
Dla
W zależności od założeń dotyczących parametrów, możemy otrzymać klasyfikator będący różną funkcją swojego argumentu
Kwadratowa funkcja klasyfikacyjna (qda) nie wymaga dodatkowych założeń o parametrach:
po opuszczeniu wyrażeń niezależnych od
czyli kwadratowa funkcja argumentu
Liniowa funkcja klasyfikacyjna (lda) wymaga założenia:
Dzięki niemu mamy podwójny zysk obliczeniowy: o
ponieważ
Chcemy znaleźć taką metodę porónywania, żeby każdą obserwację spośród
Kroswalidacja
Permutujemy obserwacje. Jeżeli dane mają jakąś strukturę, na przykład można je podzielić na klasy, permutujemy obserwacje w klasach.
Dzielimy próbę na
Uczymy klasyfikatory na próbie uczącej - estymujemy parametry.
Porównujemy metody na próbie testowej (np. poprzez estymację prawdopodobieństwa poprawnej predykcji)
Prawdopodobieństwo poprawnej predykcji to dla danego klasyfikatora
gdzie
Klasyfikacja:
kwadratowa funkcja klasyfikacyjna dla danych Iris, kroswalidacja: http://www.mimuw.edu.pl/~pokar/StatystykaII/PREDYKCJA/qda.R
liniowa funkcja klasyfikacyjna: http://www.mimuw.edu.pl/~pokar/StatystykaII/PREDYKCJA/lda.R
kwadratowa funkcja klasyfikacyjna oraz sieci neuronowe: http://www.mimuw.edu.pl/~pokar/StatystykaII/PREDYKCJA/CrossValKlasCrabs.R
kwadratowa funkcja klasyfikacyjna oraz sieci neuronowe, kroswalidacja: http://www.mimuw.edu.pl/~pokar/StatystykaII/PREDYKCJA/crossValKlas.R
porównanie różnych funkcji klasyfikacyjnych: http://www.mimuw.edu.pl/~pokar/StatystykaII/PREDYKCJA/zmDyskrym.R
Treść automatycznie generowana z plików źródłowych LaTeXa za pomocą oprogramowania wykorzystującego LaTeXML.
strona główna | webmaster | o portalu | pomoc
© Wydział Matematyki, Informatyki i Mechaniki UW, 2009-2010. Niniejsze materiały są udostępnione bezpłatnie na licencji Creative Commons Uznanie autorstwa-Użycie niekomercyjne-Bez utworów zależnych 3.0 Polska.
Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu Społecznego.
Projekt współfinansowany przez Ministerstwo Nauki i Szkolnictwa Wyższego i przez Uniwersytet Warszawski.