Zadanie klasyfikacji polega na konstrukcji funkcji (klasyfikatora), która na podstawie zaobserwowanych cech będzie przydzielała obserwację do którejś z wcześniej zdefiniowanych grup. Do estymacji funkcji potrzebne są obserwacje, które już zostały sklasyfikowane, będziemy je nazywać próbą uczącą:
Dane
oznaczają zaobserwowane cechy,
grupę, do której obserwacja została zaklasyfikowana.
oznaczaja zbiór tych indeksów
, że
;
są rozłączne o licznościach odpowiednio ![]()
Funkcja wiarygodności dla opisanych danych wyraża się wzorem:
![]() |
![]() |
Logwiarygodność to logarytm funkcji wiarygodności:
![]() |
Zadanie klasyfikacji dzielimy na dwa kroki:
Estymujemy parametry
oraz
na podstawie zaobserwowanych par
przy użyciu metody największej wiarygodności. Parametry
możemy interpretować jako prawdopodobieństwa przynależności do danej grupy danych, a
jako parametry rozkładu w danej grupie (na przykład dla wielowymiarowego rozkładu normalnego, byłyby to średnia
i macierz kowariancji
).
Obserwujemy nowe cechy
i przyporządkowujemy im
na podstawie zbudowanego przez nas klasyfikatora. Będziemy go także nazywać regułą decyzyjną.
Maksymalizujemy funkcję wiarygodności pod warunkiem
przy użyciu metody mnożników Lagrange'a:
![]() |
Liczymy estymatory
:
| (7.1) |
![]() |
(7.2) |
Z równań 7.1 otrzymujemy:
Sumujemy po
korzystając z równania 7.2 :
Estymację parametrów
odłożymy do dalszej części wykładu.
Zobaczmy teraz, jak można zdefiniować optymalny klasyfikator w zależności od funkcji straty karzącej za błędne sklasyfikowanie danych.
Funkcja straty to funkcja przyporządkowująca nieujemną wielkość kary poprzez porównanie prawdy (założymy chwilowo, że ją znamy) do podjętej decyzji (wyliczonego estymatora):
Przykładową funkcją kary dla ciągłego
jest
.
Mając wyestymowaną regułę decyzyjną sensownym jest rozpatrywanie średniej straty dla naszego klasyfikatora:
Ryzyko reguły decyzyjnej dla
:
![]() |
gdzie
jest gęstością łącznego rozkładu danych. Z twierdzenia o prawdopodobieństwie całkowitym:
![]() |
Optymalna reguła decyzyjna
to taka reguła decyzyjna, że
Reguła bayesowska
to reguła decyzyjna, która lokalnie dla danego
spełnia warunek:
![]() |
ze wzoru Bayesa:
![]() |
![]() |
Reguła bayesowska jest optymalną regułą decyzyjną.
Dla dowolnej reguły decyzyjnej
zachodzi:
![]() |
![]() |
![]() |
![]() |
W dalszej części wykładu będziemy zakładać, że
mają rozkłady normalne. Dlatego przyjrzyjmy się bliżej własnościom wielowymiarowego rozkładu normalnego i estymacji jego parametrów metodą najwiękzej wiarygodności.
Wektor losowy
ma rozkład wielowymiarowy normalny w
jeśli
ma rozkład normalny w
. Oznaczmy ten rozkład poprzez
, gdzie
,
.
Jeżeli
ma rokład normalny w
, to
i macierzy
wymiaru
,
ma rozkład normalny w
.
Rozkłady brzegowe wielowymiarowego rozkładu normalnego są normalne w odpowiednich podprzestrzeniach
.
Fcja charakterystyczna zmiennej losowej
o rozkładzie normalnym w
jest postaci:
| (7.3) |
Także na odwrót: jeżeli
jest symetryczną macierzą dodatnio określoną o wymiarach
, to
określona w równaniu 7.3 jest funkcją charakterystyczną wektora losowego o rozkładzie normalnym w
.
Dowolna macierz symetryczna dodatnio określona o wymiarach
jest macierzą kowariancji wektora losowego o rokładzie normalnym w
.
Gęstość wielowymiarowego rozkładu normalnego
:
![]() |
Jeżeli
ma rozkład normalny w
:
, to współrzędne wektora
są niezależne
jest diagonalna. Dla rozkładu normalnego brak korelacji oznacza niezależność.
Jeżeli
,
jest macierzą ortonormalną o wymiarach
, to:
Niech
będą niezależnymi wektorami losowymi z
-wymiarowego rozkładu
. Znajdziemy estymatory dla parametrów
i
. Łączna funkcja wiarygodności dla
wektorów losowych:
![]() |
Najpierw szukamy estymatora
; w tym celu opuszczamy wszystkie wyrazy nie zalezeżące od
, które by się wyzerowały po policzeniu pochodnej. Dla prostoty obliczeń maksymalizujemy podwojoną logwiarygodność:
gdzie
.
Przypomnijmy fakt:
Oznaczmy:
– wektory tej samej długości p,
macierz o wymiarach
.
![]() |
Skorzystajmy z lematu 7.1 żeby obliczyć pochodną logwiarygodności:
stąd
czyli estymatorem największej wiarygodności dla średniej rozkładu normalnego jest średnia arytmetyczna obserwacji.
Ponieważ optymalne
nie zależy od
, przy obliczaniu
możemy wstawić
za
. Maksymalizujemy po
wyrażenie:
![]() |
Symbol
oznacza proporcjonalność, możemy opuścić wszystkie stałe, które nie wpływają na wynik optymalizacji.
Ponieważ (
jest liczbą, a
, oraz
, otrzymujemy:
![]() |
ślad macierzy jest funkcją liniową argumentu, więc zachodzi:
![]() |
pomnóżmy i podzielmy przez ![]()
Ponieważ
nie zależy od
, możemy to wyrażenie opuścić. Podstawmy
:
Dla macierzy kwadratowej
o wymiarach
zachodzi:
![]() |
![]() |
gdzie
to wartości własne macierzy.
Korzystając z lematu 7.2:
![]() |
Zmaksymalizujmy to wyrażenie po każdej wartości własnej
, co sprowadza się do maksymalizacji po
funkcji:
skąd
.
Macierzą o wszystkich wartościach własnych równych
jest
:
skąd:
czyli estymatorem największej wiarygodności dla macierzy kowariancji rozkładu normalnego jest obciążony estymator próbkowy macierzy kowariancji.
Zrobimy dwa założenia dotyczące rozważanego wcześniej klasyfikatora:
Funkcja straty jest postaci:
W każdej z grup dane pochodzą z rozkładu normalnego, czyli
to gęstość rozkładu normalnego,
.
Dal zadanej funkcji straty optymalna (bayesowska) reguła decyzyjna będzie miała postać:
![]() |
![]() |
Znamy już postać szukanego klasyfikatora, potrzebujemy jeszcze estymatorów dla występujących w nim parametrów. Wiemy jak wyglądają estymatory
:
![]() |
Estymatory największej wiarygodności dla parametrów
przy założeniu normalności rozkładów w grupach są postaci:
![]() |
![]() |
gdzie
oznacza wektor średnich obserwacji dla
.
Dla
niezależnego od próby uczącej:
estymator reguły decyzyjnej ma postać:
W zależności od założeń dotyczących parametrów, możemy otrzymać klasyfikator będący różną funkcją swojego argumentu
: albo kwadratową albo liniową.
Kwadratowa funkcja klasyfikacyjna (qda) nie wymaga dodatkowych założeń o parametrach:
![]() |
po opuszczeniu wyrażeń niezależnych od
i zlogarytmowaniu:
czyli kwadratowa funkcja argumentu
.
Liniowa funkcja klasyfikacyjna (lda) wymaga założenia:
Dzięki niemu mamy podwójny zysk obliczeniowy: o
parametrów mniej do wyestymowania i liniową funkcję optymalizowaną:
ponieważ
oraz
nie zależy od
,
Chcemy znaleźć taką metodę porónywania, żeby każdą obserwację spośród
wykorzystać do uczenia i testu, ale tak żeby testować tylko na tych obserwacjach, które nie były brane pod uwagę przy uczeniu klasyfikatorów.
Kroswalidacja
-krotna (walidacja krzyżowa) polega na podziale danych na
części (popularnymi wyborami są
,
):
będzie tworzyć próbę uczącą, ostatnia będzie próbą testową. Estymujemy klasyfikatory na próbie uczącej, porównujemy metody na próbie testowej. Powtarzamy procedurę
razy tak, żeby każda z części była próbą testową. Dokładniej:
Permutujemy obserwacje. Jeżeli dane mają jakąś strukturę, na przykład można je podzielić na klasy, permutujemy obserwacje w klasach.
Dzielimy próbę na
części tak, żeby w każdej z grup było po tyle samo obserwacji z każdej klasy.
Uczymy klasyfikatory na próbie uczącej - estymujemy parametry.
Porównujemy metody na próbie testowej (np. poprzez estymację prawdopodobieństwa poprawnej predykcji)
Prawdopodobieństwo poprawnej predykcji to dla danego klasyfikatora
. Np. jeżeli funkcja straty wyraża się wzorem
, możemy estymować prawdopodobieństwo poprawnej predykcji dla konkretnej próby treningowej i testowej następująco:
![]() |
gdzie
jest klasyfikatorem wyestymowanym na podstawie próby uczącej. Uśrednione
jest dobrą metodą porównywania klasyfikatorów:
Klasyfikacja:
kwadratowa funkcja klasyfikacyjna dla danych Iris, kroswalidacja: http://www.mimuw.edu.pl/~pokar/StatystykaII/PREDYKCJA/qda.R
liniowa funkcja klasyfikacyjna: http://www.mimuw.edu.pl/~pokar/StatystykaII/PREDYKCJA/lda.R
kwadratowa funkcja klasyfikacyjna oraz sieci neuronowe: http://www.mimuw.edu.pl/~pokar/StatystykaII/PREDYKCJA/CrossValKlasCrabs.R
kwadratowa funkcja klasyfikacyjna oraz sieci neuronowe, kroswalidacja: http://www.mimuw.edu.pl/~pokar/StatystykaII/PREDYKCJA/crossValKlas.R
porównanie różnych funkcji klasyfikacyjnych: http://www.mimuw.edu.pl/~pokar/StatystykaII/PREDYKCJA/zmDyskrym.R
Treść automatycznie generowana z plików źródłowych LaTeXa za pomocą oprogramowania wykorzystującego LaTeXML.
strona główna | webmaster | o portalu | pomoc
© Wydział Matematyki, Informatyki i
Mechaniki UW, 2009-2010.
Niniejsze materiały są udostępnione bezpłatnie na licencji Creative Commons Uznanie autorstwa-Użycie niekomercyjne-Bez utworów zależnych 3.0 Polska.
Projekt współfinansowany przez Unię Europejską w ramach
Europejskiego Funduszu Społecznego.
Projekt współfinansowany przez Ministerstwo Nauki i Szkolnictwa Wyższego i przez Uniwersytet Warszawski.