Błąd klasyfikacji
gdzie:
Sukces: gdy obiekt jest prawidłowo klasyfikowany
Błąd: gdy obiekt jest źle klasyfikowany
Błąd klasyfikacji (lub odsetka błędów podczas klasyfikacji) powinien być wyznaczony na losowych i nieznanych danych.
Są dwa rodzaje błędu:
W “systemach uczących się”: minimalizujemy FP+FN lub miarę skuteczności (ang. Accuracy) (ACC):
W marketingu: maksymalizujemy TP.
Podział zbioru danych na część treningową i testową;
Uczenie lub poszukiwanie modelu
Ocena klasyfikatora
Niektóre metody uczenia działają w dwóch etapach:
Etap 1: Buduje strukturę
Etap 2: Optymalizuje parametry
Uwaga: Nie używaj danych testowych do budowy klasyfikatorów!
Właściwa procedura powinna zawierać 3 zbiory: treningowe, walidacyjne i testowe
Dane walidacyjne używane są do optymalizacji parametrów
Przykład:
sukcesów w
próbach
Estymowana skuteczność: ![]()
Jak bliska jest ta estymacja do prawdziwej skuteczności
?
Odp: z
pewności możemy twierdzić, że ![]()
Inny przykład: S=75 i N=100
Estymowana skuteczność:
;
z
pewności.
Rozpatrujemy rozkład Bernoulliego: ![]()
Oczekiwany odsetek sukcesu w
próbach: ![]()
Wartość oczekiwana i wariancja dla
:
Dla dużych
, zm.l.
ma rozkład zbliżony do rozkładu normalnego;
nazywamy przedziałem ufności na poziomie
dla zm.l.
o zerowej wartości oczekiwanej wtw:
Dla rozkładu symetrycznego mamy:
Wartość oczekiwana i wariancję dla
: ![]()
Normalizacja zm.
:
Mamy równanie na
:
![]() |
Rozwiązanie dla
:
, gdzie
![]() |
Ogólna zasada:
Im większy zbiór treningowy, tym lepszy jest klasyfikator
Im większy jest zbiór testowy, tym lepiej można aproksymować błąd klasyfikacji.
Praktyczna rada: Kiedy proces oceniania się zakończy, wszystkie dane mogą być wykorzystywane do skonstruowania ostatecznego klasyfikatora
Walidacja krzyżowa nie pozwala na wielokrotne testowanie tego samego obiektu
Krok 1: Podział zbioru danych na
równych podzbiorów
Krok 2: Testowanie każdego podzbioru używając pozostałych jako zbiór treningowy
To się nazywa
-CV =
-fold cross-validation
Zwykle obiekty są przetasowane przed dokonaniem podziału.
Błędy wszystkich iteracji są uśrednione, aby otrzymać błąd globalny.
Standardowa metoda ocena klasyfikatorów: 10-krotna walidacja krzyżowa
Liczba 10 została wyznaczona w wyniku wielu doświadczeń.
Walidacja pozwala na zmniejszenie długości przedziału ufności
Jeszcze lepsza metoda oszacowania parametrów:
Walidacja z powtórzeniami!
Leave-one-out: przypadek szczególny walidacji krzyżowej Liczba grup = liczba przykładów
Dla
obiektów budujemy klasyfikator
razy
Najlepiej ocenia klasyfikatora
Obliczeniowo kosztowna metoda (wyjątek:
)
Bootstraping: próbkuje ze zwracaniem, żeby stworzyć różne zbiory treningowe i testowe
Próbkuje ze zwracaniem
razy
Wybrane obiekty tworzą zbiór treningowy
Reszta – zbiór testowy.
Miara “sensitivity” lub “true positive rate” (TPR)
czasem nazywa się też “recall” lub “hit rate”.
Specificity (SPC) lub True Negative Rate
![]()
false positive rate (FPR):
![]()
positive predictive value (PPV)
lub precision:
![]()
negative predictive value (NPV):
![]()
false discovery rate (FDR):
![]()
Matthew's correlation coefficient (MCC)
F1 score:
lub
![]() |
Funkcje
- parametr określający początek listy rankingowej
CPH - (ang. Cumulative Percentage Hit)
= część klasy docelowej znajdująca się wsród
pierwszych obiektów z listy
rankingowej.
zysk (ang. lift):
![]()
Trafienie lub true positive rate:
Odsetek fałszywych alarmów ![]()
Wyróżnione krzywy
Gain chart:
![]()
![]()
Lift chart:
![]()
![]()
ROC (receiver operating characteristic):
![]()
![]()
Treść automatycznie generowana z plików źródłowych LaTeXa za pomocą oprogramowania wykorzystującego LaTeXML.
strona główna | webmaster | o portalu | pomoc
© Wydział Matematyki, Informatyki i
Mechaniki UW, 2009-2010.
Niniejsze materiały są udostępnione bezpłatnie na licencji Creative Commons Uznanie autorstwa-Użycie niekomercyjne-Bez utworów zależnych 3.0 Polska.
Projekt współfinansowany przez Unię Europejską w ramach
Europejskiego Funduszu Społecznego.
Projekt współfinansowany przez Ministerstwo Nauki i Szkolnictwa Wyższego i przez Uniwersytet Warszawski.