Błąd klasyfikacji
gdzie:
Sukces: gdy obiekt jest prawidłowo klasyfikowany
Błąd: gdy obiekt jest źle klasyfikowany
Błąd klasyfikacji (lub odsetka błędów podczas klasyfikacji) powinien być wyznaczony na losowych i nieznanych danych.
Są dwa rodzaje błędu:
W “systemach uczących się”: minimalizujemy FP+FN lub miarę skuteczności (ang. Accuracy) (ACC):
W marketingu: maksymalizujemy TP.
Podział zbioru danych na część treningową i testową;
Uczenie lub poszukiwanie modelu
Ocena klasyfikatora
Niektóre metody uczenia działają w dwóch etapach:
Etap 1: Buduje strukturę
Etap 2: Optymalizuje parametry
Uwaga: Nie używaj danych testowych do budowy klasyfikatorów!
Właściwa procedura powinna zawierać 3 zbiory: treningowe, walidacyjne i testowe
Dane walidacyjne używane są do optymalizacji parametrów
Przykład: sukcesów w próbach
Estymowana skuteczność:
Jak bliska jest ta estymacja do prawdziwej skuteczności ?
Odp: z pewności możemy twierdzić, że
Inny przykład: S=75 i N=100
Estymowana skuteczność: ;
z pewności.
Rozpatrujemy rozkład Bernoulliego:
Oczekiwany odsetek sukcesu w próbach:
Wartość oczekiwana i wariancja dla :
Dla dużych , zm.l. ma rozkład zbliżony do rozkładu normalnego;
nazywamy przedziałem ufności na poziomie dla zm.l. o zerowej wartości oczekiwanej wtw:
Dla rozkładu symetrycznego mamy:
Wartość oczekiwana i wariancję dla :
Normalizacja zm. :
Mamy równanie na :
Rozwiązanie dla : , gdzie
Ogólna zasada:
Im większy zbiór treningowy, tym lepszy jest klasyfikator
Im większy jest zbiór testowy, tym lepiej można aproksymować błąd klasyfikacji.
Praktyczna rada: Kiedy proces oceniania się zakończy, wszystkie dane mogą być wykorzystywane do skonstruowania ostatecznego klasyfikatora
Walidacja krzyżowa nie pozwala na wielokrotne testowanie tego samego obiektu
Krok 1: Podział zbioru danych na równych podzbiorów
Krok 2: Testowanie każdego podzbioru używając pozostałych jako zbiór treningowy
To się nazywa -CV = -fold cross-validation
Zwykle obiekty są przetasowane przed dokonaniem podziału.
Błędy wszystkich iteracji są uśrednione, aby otrzymać błąd globalny.
Standardowa metoda ocena klasyfikatorów: 10-krotna walidacja krzyżowa
Liczba 10 została wyznaczona w wyniku wielu doświadczeń.
Walidacja pozwala na zmniejszenie długości przedziału ufności
Jeszcze lepsza metoda oszacowania parametrów:
Walidacja z powtórzeniami!
Leave-one-out: przypadek szczególny walidacji krzyżowej Liczba grup = liczba przykładów
Dla obiektów budujemy klasyfikator razy
Najlepiej ocenia klasyfikatora
Obliczeniowo kosztowna metoda (wyjątek: )
Bootstraping: próbkuje ze zwracaniem, żeby stworzyć różne zbiory treningowe i testowe
Próbkuje ze zwracaniem razy
Wybrane obiekty tworzą zbiór treningowy
Reszta – zbiór testowy.
Miara “sensitivity” lub “true positive rate” (TPR)
czasem nazywa się też “recall” lub “hit rate”.
Specificity (SPC) lub True Negative Rate
false positive rate (FPR):
positive predictive value (PPV) lub precision:
negative predictive value (NPV):
false discovery rate (FDR):
Matthew's correlation coefficient (MCC)
F1 score: lub
Funkcje
- parametr określający początek listy rankingowej
CPH - (ang. Cumulative Percentage Hit)
= część klasy docelowej znajdująca się wsród pierwszych obiektów z listy rankingowej.
zysk (ang. lift):
Trafienie lub true positive rate:
Odsetek fałszywych alarmów
Wyróżnione krzywy
Gain chart:
Lift chart:
ROC (receiver operating characteristic):
Treść automatycznie generowana z plików źródłowych LaTeXa za pomocą oprogramowania wykorzystującego LaTeXML.
strona główna | webmaster | o portalu | pomoc
© Wydział Matematyki, Informatyki i Mechaniki UW, 2009-2010. Niniejsze materiały są udostępnione bezpłatnie na licencji Creative Commons Uznanie autorstwa-Użycie niekomercyjne-Bez utworów zależnych 3.0 Polska.
Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu Społecznego.
Projekt współfinansowany przez Ministerstwo Nauki i Szkolnictwa Wyższego i przez Uniwersytet Warszawski.