Błąd klasyfikacji
gdzie:
Sukces: gdy obiekt jest prawidłowo klasyfikowany
Błąd: gdy obiekt jest źle klasyfikowany
Błąd klasyfikacji (lub odsetka błędów podczas klasyfikacji) powinien być wyznaczony na losowych i nieznanych danych.
Są dwa rodzaje błędu:
W “systemach uczących się”: minimalizujemy FP+FN lub miarę skuteczności (ang. Accuracy) (ACC):
W marketingu: maksymalizujemy TP.
Podział zbioru danych na część treningową i testową;
Uczenie lub poszukiwanie modelu
Ocena klasyfikatora
Niektóre metody uczenia działają w dwóch etapach:
Etap 1: Buduje strukturę
Etap 2: Optymalizuje parametry
Uwaga: Nie używaj danych testowych do budowy klasyfikatorów!
Właściwa procedura powinna zawierać 3 zbiory: treningowe, walidacyjne i testowe
Dane walidacyjne używane są do optymalizacji parametrów
Przykład:
Estymowana skuteczność:
Jak bliska jest ta estymacja do prawdziwej skuteczności
Odp: z
Inny przykład: S=75 i N=100
Estymowana skuteczność:
Rozpatrujemy rozkład Bernoulliego:
Oczekiwany odsetek sukcesu w
Wartość oczekiwana i wariancja dla
Dla dużych
Dla rozkładu symetrycznego mamy:
Wartość oczekiwana i wariancję dla
Normalizacja zm.
Mamy równanie na
Rozwiązanie dla
Ogólna zasada:
Im większy zbiór treningowy, tym lepszy jest klasyfikator
Im większy jest zbiór testowy, tym lepiej można aproksymować błąd klasyfikacji.
Praktyczna rada: Kiedy proces oceniania się zakończy, wszystkie dane mogą być wykorzystywane do skonstruowania ostatecznego klasyfikatora
Walidacja krzyżowa nie pozwala na wielokrotne testowanie tego samego obiektu
Krok 1: Podział zbioru danych na
Krok 2: Testowanie każdego podzbioru używając pozostałych jako zbiór treningowy
To się nazywa
Zwykle obiekty są przetasowane przed dokonaniem podziału.
Błędy wszystkich iteracji są uśrednione, aby otrzymać błąd globalny.
Standardowa metoda ocena klasyfikatorów: 10-krotna walidacja krzyżowa
Liczba 10 została wyznaczona w wyniku wielu doświadczeń.
Walidacja pozwala na zmniejszenie długości przedziału ufności
Jeszcze lepsza metoda oszacowania parametrów:
Walidacja z powtórzeniami!
Leave-one-out: przypadek szczególny walidacji krzyżowej Liczba grup = liczba przykładów
Dla
Najlepiej ocenia klasyfikatora
Obliczeniowo kosztowna metoda (wyjątek:
Bootstraping: próbkuje ze zwracaniem, żeby stworzyć różne zbiory treningowe i testowe
Próbkuje ze zwracaniem
Wybrane obiekty tworzą zbiór treningowy
Reszta – zbiór testowy.
Miara “sensitivity” lub “true positive rate” (TPR)
czasem nazywa się też “recall” lub “hit rate”.
Specificity (SPC) lub True Negative Rate
false positive rate (FPR):
positive predictive value (PPV)
lub precision:
negative predictive value (NPV):
false discovery rate (FDR):
Matthew's correlation coefficient (MCC)
F1 score:
Funkcje
CPH - (ang. Cumulative Percentage Hit)
zysk (ang. lift):
Trafienie lub true positive rate:
Odsetek fałszywych alarmów
Wyróżnione krzywy
Gain chart:
Lift chart:
ROC (receiver operating characteristic):
Treść automatycznie generowana z plików źródłowych LaTeXa za pomocą oprogramowania wykorzystującego LaTeXML.
strona główna | webmaster | o portalu | pomoc
© Wydział Matematyki, Informatyki i Mechaniki UW, 2009-2010. Niniejsze materiały są udostępnione bezpłatnie na licencji Creative Commons Uznanie autorstwa-Użycie niekomercyjne-Bez utworów zależnych 3.0 Polska.
Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu Społecznego.
Projekt współfinansowany przez Ministerstwo Nauki i Szkolnictwa Wyższego i przez Uniwersytet Warszawski.