Tablicą decyzyjną nazywamy strukturę
… | ||||
100 | 27 | … | 1 | |
120 | 86 | … | 1 | |
70 | 52 | … | 1 | |
95 | 18 | … | 1 | |
… | … | … | … | |
71 | 82 | … | 2 | |
… | … | … | … |
Klasy decyzyjne:
Rozróżnialność:
Dane są obiekty
Zbiór atrybutów
dla dowolnych obiektów
jeśli
to są również rozróżnialne przez
(
Problemy:
Czy istnieje redukt zawierający
Znaleźć redukt o najmniejszej liczbie atrybutów.
funkcje
monotoniczne funkcje Boolowskie można zapisać bez użycia negacji.
jednomian
każda funkcja większa od
Np. funkcja
posiada 2 implikanty pierwsze:
Dana jest niesprzeczna tablica decyzyjna
Mówimy, że cięcie
Zbiór cięć
Zbiór cięć
Lokalne a globalne metody:
Statyczne a dynamiczne metody: Metody statyczne poszukują zbioru cięć dla każdego atrybutu w sposób niezależny od innych atrybutów. Metody dynamiczne szukają cięć na wszystkich atrybutach jednocześnie
Z nadzorem lub bez:
<+-|alert@+> Podział na przedziały o równych długościach lub równych częstotliwościach;
<+-|alert@+> Metoda OneR
<+-|alert@+> Testy statystyczne
<+-|alert@+> Z użyciem funkcji entropii;
<+-|alert@+> Gini's index
Metoda statyczna bez nadzoru: podział danych numerycznych na równomierne przedziały;
Rozpatrujemy liczbę różnych najbardziej znaczących cyfr w danym przedziale:
jeśli ta liczba wynosi 3,6,7 lub 9 to podziel dany przedział na 3 równe przedziały.
jeśli ta liczba wynosi 2,4 lub 8 to podziel dany przedział na 4 równe przedziały.
jeśli ta liczba wynosi 1,5 lub 10 to podziel dany przedział na 5 równych przedziałów.
Dana jest niesprzeczna tablica decyzyjna
Niech
Każde cięcie
Niech
Funkcja boolowska
koduje problem dyskretyzacji.
Minimalny implikant pierwszy
Ciecia kandydujące
Oznaczmy przez
Funkcja kodująca problem dyskretyzacji
Po sprowadzeniu do postaci DNF mamy:
Czyli optymalnym zbiorem cięć jest
<+-|alert@+> W algorytmie zachłannym, preferujemy cięcia rozróżniające największą liczbę par obiektów.
<+-|alert@+> Miara rozróżnialności dla danego cięcia względem zbioru obiektów
gdzie
<+-|alert@+> Można realizować zachłanną heurystykę w czasie
1 | 0 | 0 | 0 | 1 | 1 | 0 | 1 | |
1 | 1 | 0 | 0 | 0 | 0 | 1 | 1 | |
1 | 1 | 1 | 0 | 0 | 0 | 0 | 1 | |
0 | 1 | 1 | 0 | 1 | 0 | 0 | 1 | |
0 | 0 | 1 | 0 | 0 | 1 | 1 | 1 | |
0 | 0 | 0 | 0 | 0 | 1 | 0 | 1 | |
0 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | |
0 | 0 | 1 | 1 | 0 | 0 | 0 | 1 | |
0 | 0 | 0 | 1 | 0 | 0 | 1 | 1 | |
0 | 1 | 0 | 0 | 1 | 0 | 0 | 1 | |
0 | 0 | 0 | 0 | 0 | 1 | 1 | 1 | |
0 | 0 | 1 | 0 | 0 | 1 | 0 | 1 | |
0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 |
Hiperpłaszczyzny jako cięcia;
Krzywe wyższego rzędu;
Grupowanie wartości nominalnych;
Inne kryteria optymalizacji.
Dyskretyzacja jako proces wstępnego przetwarzania
Miarę rozróżnialności można stosować do konstrukcji drzew decyzyjnych.
Drzewa generowane tą miarą mają dużo ciekawych własności i dużą skuteczność w procesie klasyfikacji.
Rozumowanie Boolowskie jest prostym, ale mocnym narzędziem w dziedzinie rozpoznawania wzorców, eksploracji danych (ang. Data Mining), sztucznej inteligencji …
Złożoność funkcji Boolowskiej kodującej dany problem może być miarą trudności tego problemu.
Treść automatycznie generowana z plików źródłowych LaTeXa za pomocą oprogramowania wykorzystującego LaTeXML.
strona główna | webmaster | o portalu | pomoc
© Wydział Matematyki, Informatyki i Mechaniki UW, 2009-2010. Niniejsze materiały są udostępnione bezpłatnie na licencji Creative Commons Uznanie autorstwa-Użycie niekomercyjne-Bez utworów zależnych 3.0 Polska.
Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu Społecznego.
Projekt współfinansowany przez Ministerstwo Nauki i Szkolnictwa Wyższego i przez Uniwersytet Warszawski.