Tablicą decyzyjną nazywamy strukturę
gdzie
nazywa się zbiorem obiektów
![]() |
jest zbiorem atrybutów postaci
![]() |
jest specjalnym atrybutem zwanym decyzją
![]() |
![]() |
||||
---|---|---|---|---|
![]() |
![]() |
![]() |
… | ![]() |
![]() |
100 | 27 | … | 1 |
![]() |
120 | 86 | … | 1 |
![]() |
70 | 52 | … | 1 |
![]() |
95 | 18 | … | 1 |
![]() |
… | … | … | … |
![]() |
71 | 82 | … | 2 |
![]() |
… | … | … | … |
Klasy decyzyjne:
definiuje podział
gdzie
![]() |
Rozróżnialność:
Dane są obiekty zbiór atrybutów
, mówimy, że
są rozróżnialne przez
wtw, gdy istnieje
taki, że
Zbiór atrybutów nazywamy reduktem tablicy
wtw, gdy
dla dowolnych obiektów
jeśli i
są rozróżnialne przez
,
to są również rozróżnialne przez
( zachowuje rozróżnialność zbioru
)
jest niezredukowalny (tzn. żaden właściwy podzbiór
nie zachowuje rozróżnialności zbioru
)
Problemy:
Czy istnieje redukt zawierający atrybutów?
Znaleźć redukt o najmniejszej liczbie atrybutów.
funkcje nazywamy Boolowskimi.
monotoniczne funkcje Boolowskie można zapisać bez użycia negacji.
jednomian nazywamy
implikantem pierwszym funkcji monotonicznej
jeśli
dla każdego wektora
(jest implikantem)
każda funkcja większa od nie jest implikantem
Np. funkcja
![]() |
posiada 2 implikanty pierwsze: i
Dana jest niesprzeczna tablica decyzyjna
Mówimy, że cięcie rozróżnia obiekty
jeśli albo
lub
.
Zbiór cięć nazywamy niesprzecznym z
jeśli dla
każdej pary obiektów
takich, że
istnieje cięcie
rozróżniające
i
.
Zbiór cięć nazywamy optymalnym dla
jeśli
posiada najmniejszą liczbę cięć wśród niesprzecznych zbiorów
cięć.
Lokalne a globalne metody:
Statyczne a dynamiczne metody: Metody statyczne poszukują zbioru cięć dla każdego atrybutu w sposób niezależny od innych atrybutów. Metody dynamiczne szukają cięć na wszystkich atrybutach jednocześnie
Z nadzorem lub bez:
<+-|alert@+> Podział na przedziały o równych długościach lub równych częstotliwościach;
<+-|alert@+> Metoda OneR
<+-|alert@+> Testy statystyczne
![]() |
<+-|alert@+> Z użyciem funkcji entropii;
![]() |
<+-|alert@+> Gini's index
![]() |
Metoda statyczna bez nadzoru: podział danych numerycznych na równomierne przedziały;
Rozpatrujemy liczbę różnych najbardziej znaczących cyfr w danym przedziale:
jeśli ta liczba wynosi 3,6,7 lub 9 to podziel dany przedział na 3 równe przedziały.
jeśli ta liczba wynosi 2,4 lub 8 to podziel dany przedział na 4 równe przedziały.
jeśli ta liczba wynosi 1,5 lub 10 to podziel dany przedział na 5 równych przedziałów.
Dana jest niesprzeczna tablica decyzyjna
Niech będzie zbiorem kandydujących cięć dla tablicy
;
Każde cięcie jest skojarzone ze zmienną Boolowską
;
Niech będzie funkcją rozróżnialności dla
:
![]() |
Funkcja boolowska
![]() |
koduje problem dyskretyzacji.
Minimalny implikant pierwszy
optymalny zbiór
cięć.
Ciecia kandydujące
![]() |
Oznaczmy przez zmienne
Boolowskie odpowiadające cięciom. Wówczas
![]() |
Funkcja kodująca problem dyskretyzacji
![]() |
Po sprowadzeniu do postaci DNF mamy:
![]() |
Czyli optymalnym zbiorem cięć jest
<+-|alert@+> W algorytmie zachłannym, preferujemy cięcia rozróżniające największą liczbę par obiektów.
<+-|alert@+> Miara rozróżnialności dla danego cięcia względem zbioru obiektów :
![]() |
gdzie = liczba par obiektów różnych decyzji w zbiorze
.
<+-|alert@+> Można realizować zachłanną heurystykę w czasie ,
gdzie
jest liczbą obiektów,
jest liczbą atrybutów,
jest zbiorem
cięć znalezionych przez algorytm
![]() ![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
---|---|---|---|---|---|---|---|---|
![]() |
1 | 0 | 0 | 0 | 1 | 1 | 0 | 1 |
![]() |
1 | 1 | 0 | 0 | 0 | 0 | 1 | 1 |
![]() |
1 | 1 | 1 | 0 | 0 | 0 | 0 | 1 |
![]() |
0 | 1 | 1 | 0 | 1 | 0 | 0 | 1 |
![]() |
0 | 0 | 1 | 0 | 0 | 1 | 1 | 1 |
![]() |
0 | 0 | 0 | 0 | 0 | 1 | 0 | 1 |
![]() |
0 | 1 | 1 | 1 | 1 | 1 | 1 | 1 |
![]() |
0 | 0 | 1 | 1 | 0 | 0 | 0 | 1 |
![]() |
0 | 0 | 0 | 1 | 0 | 0 | 1 | 1 |
![]() |
0 | 1 | 0 | 0 | 1 | 0 | 0 | 1 |
![]() |
0 | 0 | 0 | 0 | 0 | 1 | 1 | 1 |
![]() |
0 | 0 | 1 | 0 | 0 | 1 | 0 | 1 |
![]() |
0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 |
Hiperpłaszczyzny jako cięcia;
Krzywe wyższego rzędu;
Grupowanie wartości nominalnych;
Inne kryteria optymalizacji.
Dyskretyzacja jako proces wstępnego przetwarzania
Miarę rozróżnialności można stosować do konstrukcji drzew decyzyjnych.
Drzewa generowane tą miarą mają dużo ciekawych własności i dużą skuteczność w procesie klasyfikacji.
Rozumowanie Boolowskie jest prostym, ale mocnym narzędziem w dziedzinie rozpoznawania wzorców, eksploracji danych (ang. Data Mining), sztucznej inteligencji …
Złożoność funkcji Boolowskiej kodującej dany problem może być miarą trudności tego problemu.
Treść automatycznie generowana z plików źródłowych LaTeXa za pomocą oprogramowania wykorzystującego LaTeXML.
strona główna | webmaster | o portalu | pomoc
© Wydział Matematyki, Informatyki i
Mechaniki UW, 2009-2010. Niniejsze materiały są udostępnione bezpłatnie na licencji Creative Commons Uznanie autorstwa-Użycie niekomercyjne-Bez utworów zależnych 3.0 Polska.
Projekt współfinansowany przez Unię Europejską w ramach
Europejskiego Funduszu Społecznego.
Projekt współfinansowany przez Ministerstwo Nauki i Szkolnictwa Wyższego i przez Uniwersytet Warszawski.