Zagadnienia

3. Metody oceny klasyfikatorów

3.1. Metody oceny klasyfikatorów

3.1.1. Skuteczność predykcji

\block

Błąd klasyfikacji

Błąd klasyfikacji=liczba błędówliczba obiektów testowych

gdzie:

  • Sukces: gdy obiekt jest prawidłowo klasyfikowany

  • Błąd: gdy obiekt jest źle klasyfikowany

  • Błąd klasyfikacji (lub odsetka błędów podczas klasyfikacji) powinien być wyznaczony na losowych i nieznanych danych.

  • Są dwa rodzaje błędu:

  • W “systemach uczących się”: minimalizujemy FP+FN lub miarę skuteczności (ang. Accuracy) (ACC):

    ACC=TP+TN/TP+FP+TN+FN
  • W marketingu: maksymalizujemy TP.

  • Podział zbioru danych na część treningową i testową;

  • Uczenie lub poszukiwanie modelu

  • Ocena klasyfikatora

  • Niektóre metody uczenia działają w dwóch etapach:

  • Etap 1: Buduje strukturę

  • Etap 2: Optymalizuje parametry

\block

Uwaga: Nie używaj danych testowych do budowy klasyfikatorów!

  • Właściwa procedura powinna zawierać 3 zbiory: treningowe, walidacyjne i testowe

  • Dane walidacyjne używane są do optymalizacji parametrów

3.1.2. Przedział ufności miar ocen

  • Przykład: S=750 sukcesów w N=1000 próbach

    • Estymowana skuteczność: 75%

    • Jak bliska jest ta estymacja do prawdziwej skuteczności p?

    • Odp: z 80% pewności możemy twierdzić, że p73.2,76.7

  • Inny przykład: S=75 i N=100

    • Estymowana skuteczność: 75%;

    • p69.1,80.1 z 80% pewności.

  • Rozpatrujemy rozkład Bernoulliego: p,p1-p

  • Oczekiwany odsetek sukcesu w N próbach: f=S/N

  • Wartość oczekiwana i wariancja dla f:

    p,p1-p/N
  • Dla dużych N, zm.l. f ma rozkład zbliżony do rozkładu normalnego;

  • zXz nazywamy przedziałem ufności na poziomie c% dla zm.l. X o zerowej wartości oczekiwanej wtw:

    P-zXz=c
  • Dla rozkładu symetrycznego mamy:

    P-zXz=1-2PXz
  • Wartość oczekiwana i wariancję dla f: p,p1-p/N

  • Normalizacja zm. f:

    f-pp1-p/N
  • Mamy równanie na p:

    Pr-zf-pp1-p/Nz=c
  • Rozwiązanie dla p: pp1,p2, gdzie

    p1,2=f+z22N±zfN-f2N+z24N21+z2N

3.1.3. Metody walidacji danych

Ogólna zasada:

  • Im większy zbiór treningowy, tym lepszy jest klasyfikator

  • Im większy jest zbiór testowy, tym lepiej można aproksymować błąd klasyfikacji.

\block

Praktyczna rada: Kiedy proces oceniania się zakończy, wszystkie dane mogą być wykorzystywane do skonstruowania ostatecznego klasyfikatora

  • Walidacja krzyżowa nie pozwala na wielokrotne testowanie tego samego obiektu

    • Krok 1: Podział zbioru danych na k równych podzbiorów

    • Krok 2: Testowanie każdego podzbioru używając pozostałych jako zbiór treningowy

  • To się nazywa k-CV = k-fold cross-validation

  • Zwykle obiekty są przetasowane przed dokonaniem podziału.

  • Błędy wszystkich iteracji są uśrednione, aby otrzymać błąd globalny.

  • Standardowa metoda ocena klasyfikatorów: 10-krotna walidacja krzyżowa

  • Liczba 10 została wyznaczona w wyniku wielu doświadczeń.

  • Walidacja pozwala na zmniejszenie długości przedziału ufności

  • Jeszcze lepsza metoda oszacowania parametrów:

    Walidacja z powtórzeniami!

  • Leave-one-out: przypadek szczególny walidacji krzyżowej Liczba grup = liczba przykładów

    • Dla n obiektów budujemy klasyfikator n razy

    • Najlepiej ocenia klasyfikatora

    • Obliczeniowo kosztowna metoda (wyjątek: kNN)

  • Bootstraping: próbkuje ze zwracaniem, żeby stworzyć różne zbiory treningowe i testowe

    • Próbkuje ze zwracaniem n razy

    • Wybrane obiekty tworzą zbiór treningowy

    • Reszta – zbiór testowy.

3.1.4. Krzywy Lift i ROC

  • Miara “sensitivity” lub “true positive rate” (TPR)

    TPR=TP/TP+FN

    czasem nazywa się też “recall” lub “hit rate”.

  • Specificity (SPC) lub True Negative Rate SPC=TN/FP+TN

  • false positive rate (FPR): FPR=FP/FP+TN=1-FPC

  • positive predictive value (PPV) lub precision: PPV=TP/TP+FP

  • negative predictive value (NPV): NPV=TN/TN+FN

  • false discovery rate (FDR): FDR=FP/FP+TP

  • Matthew's correlation coefficient (MCC)

    MCC=TPTN-FPFNTP+FNTP+FPFN+TNFP+TN
  • F1 score: F1=2TP/TP+FN+TP+FP lub

    1F1=1recall+1precision2
\block

Funkcje

  • p - parametr określający początek listy rankingowej

  • CPH - (ang. Cumulative Percentage Hit)

    CPHp = część klasy docelowej znajdująca się wsród p% pierwszych obiektów z listy rankingowej.

  • zysk (ang. lift): Liftp=CPHp/p

  • Trafienie lub true positive rate: TPRp=TP/TP+FN

  • Odsetek fałszywych alarmów FPRp=FP/FP+TN

\block

Wyróżnione krzywy

  • Gain chart:

    Ox:p

    Oy:CPHp

  • Lift chart:

    Ox:p

    Oy:Liftp

  • ROC (receiver operating characteristic):

    Ox:FPRp

    Oy:TPRp

Treść automatycznie generowana z plików źródłowych LaTeXa za pomocą oprogramowania wykorzystującego LaTeXML.

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu Społecznego.

Projekt współfinansowany przez Ministerstwo Nauki i Szkolnictwa Wyższego i przez Uniwersytet Warszawski.