Tablicą decyzyjną nazywamy strukturę gdzie
nazywa się zbiorem obiektów
jest zbiorem atrybutów postaci
jest specjalnym atrybutem zwanym decyzją
… | ||||
100 | 27 | … | 1 | |
120 | 86 | … | 1 | |
70 | 52 | … | 1 | |
95 | 18 | … | 1 | |
… | … | … | … | |
71 | 82 | … | 2 | |
… | … | … | … |
Klasy decyzyjne:
definiuje podział gdzie
Rozróżnialność: Dane są obiekty zbiór atrybutów , mówimy, że są rozróżnialne przez wtw, gdy istnieje taki, że
Zbiór atrybutów nazywamy reduktem tablicy wtw, gdy
dla dowolnych obiektów
jeśli i są rozróżnialne przez ,
to są również rozróżnialne przez
( zachowuje rozróżnialność zbioru )
jest niezredukowalny (tzn. żaden właściwy podzbiór nie zachowuje rozróżnialności zbioru )
Problemy:
Czy istnieje redukt zawierający atrybutów?
Znaleźć redukt o najmniejszej liczbie atrybutów.
funkcje nazywamy Boolowskimi.
monotoniczne funkcje Boolowskie można zapisać bez użycia negacji.
jednomian nazywamy implikantem pierwszym funkcji monotonicznej jeśli
dla każdego wektora (jest implikantem)
każda funkcja większa od nie jest implikantem
Np. funkcja
posiada 2 implikanty pierwsze: i
Dana jest niesprzeczna tablica decyzyjna
Mówimy, że cięcie rozróżnia obiekty jeśli albo lub .
Zbiór cięć nazywamy niesprzecznym z jeśli dla każdej pary obiektów takich, że istnieje cięcie rozróżniające i .
Zbiór cięć nazywamy optymalnym dla jeśli posiada najmniejszą liczbę cięć wśród niesprzecznych zbiorów cięć.
Lokalne a globalne metody:
Statyczne a dynamiczne metody: Metody statyczne poszukują zbioru cięć dla każdego atrybutu w sposób niezależny od innych atrybutów. Metody dynamiczne szukają cięć na wszystkich atrybutach jednocześnie
Z nadzorem lub bez:
<+-|alert@+> Podział na przedziały o równych długościach lub równych częstotliwościach;
<+-|alert@+> Metoda OneR
<+-|alert@+> Testy statystyczne
<+-|alert@+> Z użyciem funkcji entropii;
<+-|alert@+> Gini's index
Metoda statyczna bez nadzoru: podział danych numerycznych na równomierne przedziały;
Rozpatrujemy liczbę różnych najbardziej znaczących cyfr w danym przedziale:
jeśli ta liczba wynosi 3,6,7 lub 9 to podziel dany przedział na 3 równe przedziały.
jeśli ta liczba wynosi 2,4 lub 8 to podziel dany przedział na 4 równe przedziały.
jeśli ta liczba wynosi 1,5 lub 10 to podziel dany przedział na 5 równych przedziałów.
Dana jest niesprzeczna tablica decyzyjna
Niech będzie zbiorem kandydujących cięć dla tablicy ;
Każde cięcie jest skojarzone ze zmienną Boolowską ;
Niech będzie funkcją rozróżnialności dla :
Funkcja boolowska
koduje problem dyskretyzacji.
Minimalny implikant pierwszy optymalny zbiór cięć.
Ciecia kandydujące
Oznaczmy przez zmienne Boolowskie odpowiadające cięciom. Wówczas
Funkcja kodująca problem dyskretyzacji
Po sprowadzeniu do postaci DNF mamy:
Czyli optymalnym zbiorem cięć jest
<+-|alert@+> W algorytmie zachłannym, preferujemy cięcia rozróżniające największą liczbę par obiektów.
<+-|alert@+> Miara rozróżnialności dla danego cięcia względem zbioru obiektów :
gdzie = liczba par obiektów różnych decyzji w zbiorze .
<+-|alert@+> Można realizować zachłanną heurystykę w czasie , gdzie jest liczbą obiektów, jest liczbą atrybutów, jest zbiorem cięć znalezionych przez algorytm
1 | 0 | 0 | 0 | 1 | 1 | 0 | 1 | |
1 | 1 | 0 | 0 | 0 | 0 | 1 | 1 | |
1 | 1 | 1 | 0 | 0 | 0 | 0 | 1 | |
0 | 1 | 1 | 0 | 1 | 0 | 0 | 1 | |
0 | 0 | 1 | 0 | 0 | 1 | 1 | 1 | |
0 | 0 | 0 | 0 | 0 | 1 | 0 | 1 | |
0 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | |
0 | 0 | 1 | 1 | 0 | 0 | 0 | 1 | |
0 | 0 | 0 | 1 | 0 | 0 | 1 | 1 | |
0 | 1 | 0 | 0 | 1 | 0 | 0 | 1 | |
0 | 0 | 0 | 0 | 0 | 1 | 1 | 1 | |
0 | 0 | 1 | 0 | 0 | 1 | 0 | 1 | |
0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 |
Hiperpłaszczyzny jako cięcia;
Krzywe wyższego rzędu;
Grupowanie wartości nominalnych;
Inne kryteria optymalizacji.
Dyskretyzacja jako proces wstępnego przetwarzania
Miarę rozróżnialności można stosować do konstrukcji drzew decyzyjnych.
Drzewa generowane tą miarą mają dużo ciekawych własności i dużą skuteczność w procesie klasyfikacji.
Rozumowanie Boolowskie jest prostym, ale mocnym narzędziem w dziedzinie rozpoznawania wzorców, eksploracji danych (ang. Data Mining), sztucznej inteligencji …
Złożoność funkcji Boolowskiej kodującej dany problem może być miarą trudności tego problemu.
Treść automatycznie generowana z plików źródłowych LaTeXa za pomocą oprogramowania wykorzystującego LaTeXML.
strona główna | webmaster | o portalu | pomoc
© Wydział Matematyki, Informatyki i Mechaniki UW, 2009-2010. Niniejsze materiały są udostępnione bezpłatnie na licencji Creative Commons Uznanie autorstwa-Użycie niekomercyjne-Bez utworów zależnych 3.0 Polska.
Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu Społecznego.
Projekt współfinansowany przez Ministerstwo Nauki i Szkolnictwa Wyższego i przez Uniwersytet Warszawski.