Jest to struktura drzewiasta, w której
węzły wewnętrzne zawierają testy na wartościach atrybutów
z każdego węzła wewnętrznego wychodzi tyle gałęzi, ile jest możliwych wyników testu w tym węzle;
liście zawierają decyzje o klasyfikacji obiektów
Drzewo decyzyjne koduje program zawierający same instrukcje warunkowe
x | outlook | Temperature | humidity | wind | play(x) |
---|---|---|---|---|---|
1 | sunny | hot | high | weak | no |
2 | sunny | hot | high | strong | no |
3 | overcast | hot | high | weak | yes |
4 | rain | mild | high | weak | yes |
5 | rain | cold | normal | weak | yes |
6 | rain | cold | normal | strong | no |
7 | overcast | cold | normal | strong | yes |
8 | sunny | mild | high | weak | no |
9 | sunny | cold | normal | weak | yes |
10 | rain | mild | normal | weak | yes |
11 | sunny | mild | normal | strong | yes |
12 | overcast | mild | high | strong | yes |
13 | overcast | hot | normal | weak | yes |
14 | rain | mild | high | strong | no |
Wyróżniamy 2 klasy funkcji testów
Testy operują na wartościach pojedyńczego atrybutu (ang. univariate tree):
Testy będące kombinacją wartości kilku atrybutów (ang. multivariate tree):
gdzie
Va : dziedzina atrybutu ;
Rt : zbiór możliwych wyników testu;
Dla atrybutów nominalnych oraz obiektu :
test tożsamościowy:
test równościowy:
test przynależnościowy:
Dla atrybutów o wartościach ciągłych:
test nierównościowy: gdzie jest wartością progową lub cięciem
Jakość drzewa ocenia się
za pomocą rozmiaru: im drzewo jest mniejsze, tym lepsze
mała liczba węzłów,
mała wysokość, lub
mała liczba liści;
za pomocą dokładności klasyfikacji na zbiorze treningowym
za pomocą dokładności klasyfikacji na zbiorze testowym
Na przykład:
gdzie są liczbami rzeczywistymi
size(.) jest rozmiarem drzewa
accuracy(.,.) jest jakością klasyfikacji
Problem konstrukcji drzew optymalnych: Dane są:
tablica decyzyjna
zbiór funkcji testów ,
kryterium jakości
Szukane: drzewo decyzyjne o najwyższej jakości .
Dla większości parametrów, problem szukania optymalnego drzewa jest NP-trudny !
Wnioski:
Trudno znaleźć optymalne drzewo w czasie wielomianowym;
Konieczność projektowania heurystyk.
Quiz: Czy drzewo z przykładu jest optymalne?
Kryterium stopu: Zatrzymamy konstrukcji drzewa, gdy aktualny zbiór obiektów:
jest pusty lub
zawiera obiekty wyłącznie jednej klasy decyzyjnej lub
nie ulega podziale przez żaden test
Wyznaczenie etykiety zasadą większościową:
tzn., etykietą dla danego zbioru obiektów jest klasa decyzyjna najliczniej reprezentowana w tym zbiorze.
Kryterium wyboru testu: heurytyczna funkcja oceniająca testy.
Każdy zbiór obiektów ulega podziałowi na klasy decyzyjne:
gdzie .
Wektor , gdzie , nazywamy rozkładem klas decyzyjnych w .
Funkcja oraz przyjmują
największą wartość, gdy rozkład klas decyzyjnych w zbiorze jest równomierny.
najmniejszą wartość, gdy wszystkie obiekty w są jednej kategorii ( jest jednorodny)
W przypadku 2 klas decyzyjnych:
Niech definiuje podział na podzbiory: . Możemy stosować następujące miary do oceniania testów:
liczba par obiektów rozróżnionych przez test t.
kryterium przyrostu informacji (ang. Inf. gain).
Im większe są wartości tych ocen, tym lepszy jest test.
Monotoniczność: Jeśli definiuje drobniejszy podział niż to
(analogiczną sytuację mamy dla miary .
Funkcje ocen testu przyjmują małe wartości jeśli rozkłady decyzyjne w podzbiorach wyznaczanych przez są zbliżone.
Zamiast bezwzględnego przyrostu informacji, stosujemy współczynnik przyrostu informacji
gdzie , zwana wartością informacyjną testu (information value), jest definiowana jak nast.:
Ocena funkcji testu
Rozróżnialność:
Przyrostu informacji (Information gain).
Współczynnik przyrostu informacji (gain ratio)
Inne (np. Gini's index, test , …)
Problem nadmiernego dopasowania do danych trenujących (prob. przeuczenia się).
Rozwiązanie:
zasada najkrótszego opisu: skracamy opis kosztem dokładności klasyfikacji w zbiorze treningowym
zastąpienie podrzewa nowym liściem (przycinanie) lub mniejszym podrzewem.
Podstawowe pytania:
Q: Kiedy poddrzewo może być zastąpione liściem?
A: Jeśli nowy liść jest niegorszy niż istniejące poddrzewo dla nowych obiektów (nienależących do zbioru treningowego).
Q: Jak to sprawdzić?
A: Testujemy na próbce zwanej “zbiorem przycinania”!
Niech
- błąd klasyfikacji kandydującego liścia l,
- błąd klasyfikacji poddrzewa o korzeniu w .
Przycinanie ma miejsce, gdy
na ogół przyjmujemy .
Możliwe są następujące rozwiązania:
Zredukowanie wartości kryterium wyboru testu (np. przyrostu informacji) dla danego testu o współczynnik równy:
Wypełnienie nieznanych wartości atrybutu najczęściej występującą wartością w zbiorze obiektów związanych z aktualnym węzłem
Wypełnienie nieznanych wartości atrybutu średnią ważoną wyznaczoną na jego zbiorze wartości.
Możliwe rozwiązania:
Zatrzymanie procesu klasyfikacji w aktualnym węźle i zwrócenie większościowej etykiety dla tego węzła (etykiety, jaką ma największą liczbę obiektów trenujących w tym węźle)
Wypełnienie nieznanej wartości według jednej z heurystyk podanych wyżej dla przypadku konstruowania drzewa
Uwzględnienie wszystkich gałęzi (wszystkich możliwych wyników testu) i połączenie odpowiednio zważonych probabilistycznie rezultatatów w rozkład prawdopodobieństwa na zbiorze możliwych klas decyzyjnych dla obiektu testowego.
Treść automatycznie generowana z plików źródłowych LaTeXa za pomocą oprogramowania wykorzystującego LaTeXML.
strona główna | webmaster | o portalu | pomoc
© Wydział Matematyki, Informatyki i Mechaniki UW, 2009-2010. Niniejsze materiały są udostępnione bezpłatnie na licencji Creative Commons Uznanie autorstwa-Użycie niekomercyjne-Bez utworów zależnych 3.0 Polska.
Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu Społecznego.
Projekt współfinansowany przez Ministerstwo Nauki i Szkolnictwa Wyższego i przez Uniwersytet Warszawski.