Zadanie klasyfikacji polega na konstrukcji funkcji (klasyfikatora), która na podstawie zaobserwowanych cech będzie przydzielała obserwację do którejś z wcześniej zdefiniowanych grup. Do estymacji funkcji potrzebne są obserwacje, które już zostały sklasyfikowane, będziemy je nazywać próbą uczącą:
Dane oznaczają zaobserwowane cechy, grupę, do której obserwacja została zaklasyfikowana.
oznaczaja zbiór tych indeksów , że ; są rozłączne o licznościach odpowiednio
Funkcja wiarygodności dla opisanych danych wyraża się wzorem:
Logwiarygodność to logarytm funkcji wiarygodności:
Zadanie klasyfikacji dzielimy na dwa kroki:
Estymujemy parametry oraz na podstawie zaobserwowanych par przy użyciu metody największej wiarygodności. Parametry możemy interpretować jako prawdopodobieństwa przynależności do danej grupy danych, a jako parametry rozkładu w danej grupie (na przykład dla wielowymiarowego rozkładu normalnego, byłyby to średnia i macierz kowariancji ).
Obserwujemy nowe cechy i przyporządkowujemy im na podstawie zbudowanego przez nas klasyfikatora. Będziemy go także nazywać regułą decyzyjną.
Maksymalizujemy funkcję wiarygodności pod warunkiem przy użyciu metody mnożników Lagrange'a:
Liczymy estymatory :
(7.1) |
(7.2) |
Z równań 7.1 otrzymujemy:
Sumujemy po korzystając z równania 7.2 :
Estymację parametrów odłożymy do dalszej części wykładu.
Zobaczmy teraz, jak można zdefiniować optymalny klasyfikator w zależności od funkcji straty karzącej za błędne sklasyfikowanie danych.
Funkcja straty to funkcja przyporządkowująca nieujemną wielkość kary poprzez porównanie prawdy (założymy chwilowo, że ją znamy) do podjętej decyzji (wyliczonego estymatora):
Przykładową funkcją kary dla ciągłego jest .
Mając wyestymowaną regułę decyzyjną sensownym jest rozpatrywanie średniej straty dla naszego klasyfikatora:
Ryzyko reguły decyzyjnej dla :
gdzie jest gęstością łącznego rozkładu danych. Z twierdzenia o prawdopodobieństwie całkowitym:
Optymalna reguła decyzyjna to taka reguła decyzyjna, że
Reguła bayesowska to reguła decyzyjna, która lokalnie dla danego spełnia warunek:
ze wzoru Bayesa:
Reguła bayesowska jest optymalną regułą decyzyjną.
Dla dowolnej reguły decyzyjnej zachodzi:
W dalszej części wykładu będziemy zakładać, że mają rozkłady normalne. Dlatego przyjrzyjmy się bliżej własnościom wielowymiarowego rozkładu normalnego i estymacji jego parametrów metodą najwiękzej wiarygodności.
Wektor losowy ma rozkład wielowymiarowy normalny w jeśli ma rozkład normalny w . Oznaczmy ten rozkład poprzez , gdzie , .
Jeżeli ma rokład normalny w , to i macierzy wymiaru , ma rozkład normalny w .
Rozkłady brzegowe wielowymiarowego rozkładu normalnego są normalne w odpowiednich podprzestrzeniach .
Fcja charakterystyczna zmiennej losowej o rozkładzie normalnym w jest postaci:
(7.3) |
Także na odwrót: jeżeli jest symetryczną macierzą dodatnio określoną o wymiarach , to określona w równaniu 7.3 jest funkcją charakterystyczną wektora losowego o rozkładzie normalnym w .
Dowolna macierz symetryczna dodatnio określona o wymiarach jest macierzą kowariancji wektora losowego o rokładzie normalnym w .
Gęstość wielowymiarowego rozkładu normalnego :
Jeżeli ma rozkład normalny w : , to współrzędne wektora są niezależne jest diagonalna. Dla rozkładu normalnego brak korelacji oznacza niezależność.
Jeżeli , jest macierzą ortonormalną o wymiarach , to:
Niech będą niezależnymi wektorami losowymi z -wymiarowego rozkładu . Znajdziemy estymatory dla parametrów i . Łączna funkcja wiarygodności dla wektorów losowych:
Najpierw szukamy estymatora ; w tym celu opuszczamy wszystkie wyrazy nie zalezeżące od , które by się wyzerowały po policzeniu pochodnej. Dla prostoty obliczeń maksymalizujemy podwojoną logwiarygodność:
gdzie .
Przypomnijmy fakt:
Oznaczmy: – wektory tej samej długości p, macierz o wymiarach .
Skorzystajmy z lematu 7.1 żeby obliczyć pochodną logwiarygodności:
stąd
czyli estymatorem największej wiarygodności dla średniej rozkładu normalnego jest średnia arytmetyczna obserwacji.
Ponieważ optymalne nie zależy od , przy obliczaniu możemy wstawić za . Maksymalizujemy po wyrażenie:
Symbol oznacza proporcjonalność, możemy opuścić wszystkie stałe, które nie wpływają na wynik optymalizacji.
Ponieważ ( jest liczbą, a , oraz , otrzymujemy:
ślad macierzy jest funkcją liniową argumentu, więc zachodzi:
pomnóżmy i podzielmy przez
Ponieważ nie zależy od , możemy to wyrażenie opuścić. Podstawmy :
Dla macierzy kwadratowej o wymiarach zachodzi:
gdzie to wartości własne macierzy.
Korzystając z lematu 7.2:
Zmaksymalizujmy to wyrażenie po każdej wartości własnej , co sprowadza się do maksymalizacji po funkcji:
skąd .
Macierzą o wszystkich wartościach własnych równych jest :
skąd:
czyli estymatorem największej wiarygodności dla macierzy kowariancji rozkładu normalnego jest obciążony estymator próbkowy macierzy kowariancji.
Zrobimy dwa założenia dotyczące rozważanego wcześniej klasyfikatora:
Funkcja straty jest postaci:
W każdej z grup dane pochodzą z rozkładu normalnego, czyli to gęstość rozkładu normalnego, .
Dal zadanej funkcji straty optymalna (bayesowska) reguła decyzyjna będzie miała postać:
Znamy już postać szukanego klasyfikatora, potrzebujemy jeszcze estymatorów dla występujących w nim parametrów. Wiemy jak wyglądają estymatory :
Estymatory największej wiarygodności dla parametrów przy założeniu normalności rozkładów w grupach są postaci:
gdzie oznacza wektor średnich obserwacji dla .
Dla niezależnego od próby uczącej: estymator reguły decyzyjnej ma postać:
W zależności od założeń dotyczących parametrów, możemy otrzymać klasyfikator będący różną funkcją swojego argumentu : albo kwadratową albo liniową.
Kwadratowa funkcja klasyfikacyjna (qda) nie wymaga dodatkowych założeń o parametrach:
po opuszczeniu wyrażeń niezależnych od i zlogarytmowaniu:
czyli kwadratowa funkcja argumentu .
Liniowa funkcja klasyfikacyjna (lda) wymaga założenia:
Dzięki niemu mamy podwójny zysk obliczeniowy: o parametrów mniej do wyestymowania i liniową funkcję optymalizowaną:
ponieważ oraz nie zależy od ,
Chcemy znaleźć taką metodę porónywania, żeby każdą obserwację spośród wykorzystać do uczenia i testu, ale tak żeby testować tylko na tych obserwacjach, które nie były brane pod uwagę przy uczeniu klasyfikatorów.
Kroswalidacja -krotna (walidacja krzyżowa) polega na podziale danych na części (popularnymi wyborami są , ): będzie tworzyć próbę uczącą, ostatnia będzie próbą testową. Estymujemy klasyfikatory na próbie uczącej, porównujemy metody na próbie testowej. Powtarzamy procedurę razy tak, żeby każda z części była próbą testową. Dokładniej:
Permutujemy obserwacje. Jeżeli dane mają jakąś strukturę, na przykład można je podzielić na klasy, permutujemy obserwacje w klasach.
Dzielimy próbę na części tak, żeby w każdej z grup było po tyle samo obserwacji z każdej klasy.
Uczymy klasyfikatory na próbie uczącej - estymujemy parametry.
Porównujemy metody na próbie testowej (np. poprzez estymację prawdopodobieństwa poprawnej predykcji)
Prawdopodobieństwo poprawnej predykcji to dla danego klasyfikatora . Np. jeżeli funkcja straty wyraża się wzorem , możemy estymować prawdopodobieństwo poprawnej predykcji dla konkretnej próby treningowej i testowej następująco:
gdzie jest klasyfikatorem wyestymowanym na podstawie próby uczącej. Uśrednione jest dobrą metodą porównywania klasyfikatorów:
Klasyfikacja:
kwadratowa funkcja klasyfikacyjna dla danych Iris, kroswalidacja: http://www.mimuw.edu.pl/~pokar/StatystykaII/PREDYKCJA/qda.R
liniowa funkcja klasyfikacyjna: http://www.mimuw.edu.pl/~pokar/StatystykaII/PREDYKCJA/lda.R
kwadratowa funkcja klasyfikacyjna oraz sieci neuronowe: http://www.mimuw.edu.pl/~pokar/StatystykaII/PREDYKCJA/CrossValKlasCrabs.R
kwadratowa funkcja klasyfikacyjna oraz sieci neuronowe, kroswalidacja: http://www.mimuw.edu.pl/~pokar/StatystykaII/PREDYKCJA/crossValKlas.R
porównanie różnych funkcji klasyfikacyjnych: http://www.mimuw.edu.pl/~pokar/StatystykaII/PREDYKCJA/zmDyskrym.R
Treść automatycznie generowana z plików źródłowych LaTeXa za pomocą oprogramowania wykorzystującego LaTeXML.
strona główna | webmaster | o portalu | pomoc
© Wydział Matematyki, Informatyki i Mechaniki UW, 2009-2010. Niniejsze materiały są udostępnione bezpłatnie na licencji Creative Commons Uznanie autorstwa-Użycie niekomercyjne-Bez utworów zależnych 3.0 Polska.
Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu Społecznego.
Projekt współfinansowany przez Ministerstwo Nauki i Szkolnictwa Wyższego i przez Uniwersytet Warszawski.