Zagadnienia

7. Problem dyskretyzacji

7.1. Problem dyskretyzacji

7.1.1. Przypomnienia podstawowych pojęć

Tablicą decyzyjną nazywamy strukturę S=U,Adec gdzie

U nazywa się zbiorem obiektów

U=u1,,un

A jest zbiorem atrybutów postaci

aj:UVj

dec jest specjalnym atrybutem zwanym decyzją

dec:U1,,d
A
S a1 a2 dec
u1 100 27 1
u2 120 86 1
u3 70 52 1
u4 95 18 1
u1200 71 82 2
  • Klasy decyzyjne:

    dec definiuje podział U=DEC1DECd gdzie

    DECk=xU:decx=k
  • Rozróżnialność: Dane są obiekty x,yU zbiór atrybutów BA, mówimy, że x,yrozróżnialne przez B wtw, gdy istnieje aB taki, że axay

Zbiór atrybutów BA nazywamy reduktem tablicy S wtw, gdy

  • dla dowolnych obiektów x,yU

    jeślidecxdecy i x,y są rozróżnialne przez A,

    to są również rozróżnialne przez B

    (B zachowuje rozróżnialność zbioru A)

  • B jest niezredukowalny (tzn. żaden właściwy podzbiór B nie zachowuje rozróżnialności zbioru A)

Problemy:

  • Czy istnieje redukt zawierający k atrybutów?

  • Znaleźć redukt o najmniejszej liczbie atrybutów.

  • funkcje f:0,1n0,1 nazywamy Boolowskimi.

  • monotoniczne funkcje Boolowskie można zapisać bez użycia negacji.

  • jednomian f=xi1xi2xik nazywamy implikantem pierwszym funkcji monotonicznej f jeśli

    • fxfx dla każdego wektora x (jest implikantem)

    • każda funkcja większa od f nie jest implikantem

  • Np. funkcja

    fx1,x2,x3=x1+x2x2+x3

    posiada 2 implikanty pierwsze: f1=x2 i f2=x1x3

7.1.2. Problem dyskretyzacji

Dana jest niesprzeczna tablica decyzyjna S=U,Adec

  • Mówimy, że cięcie a,c rozróżnia obiekty x,y jeśli albo ax<c<ay lub ay<c<ax.

  • Zbiór cięć P nazywamy niesprzecznym z S jeśli dla każdej pary obiektów x,yU takich, że dxdy istnieje cięcie a,cP rozróżniające x i y.

  • Zbiór cięć Popt nazywamy optymalnym dla S jeśli Popt posiada najmniejszą liczbę cięć wśród niesprzecznych zbiorów cięć.

7.1.2.1. Istniejące metody dyskretyzacji

  1. Lokalne a globalne metody:

  2. Statyczne a dynamiczne metody: Metody statyczne poszukują zbioru cięć dla każdego atrybutu w sposób niezależny od innych atrybutów. Metody dynamiczne szukają cięć na wszystkich atrybutach jednocześnie

  3. Z nadzorem lub bez:

  • <+-|alert@+> Podział na przedziały o równych długościach lub równych częstotliwościach;

  • <+-|alert@+> Metoda OneR

  • <+-|alert@+> Testy statystyczne

    χ2=i=12j=1rnij-Eij2Eij
  • <+-|alert@+> Z użyciem funkcji entropii;

    Gaina;c;U=EntU-Ea;c;U
  • <+-|alert@+> Gini's index

    Ga;c;U=GiniU-ULUGiniUL-URUGiniUR
  • Metoda statyczna bez nadzoru: podział danych numerycznych na równomierne przedziały;

  • Rozpatrujemy liczbę różnych najbardziej znaczących cyfr w danym przedziale:

    • jeśli ta liczba wynosi 3,6,7 lub 9 to podziel dany przedział na 3 równe przedziały.

    • jeśli ta liczba wynosi 2,4 lub 8 to podziel dany przedział na 4 równe przedziały.

    • jeśli ta liczba wynosi 1,5 lub 10 to podziel dany przedział na 5 równych przedziałów.

7.1.3. Dyskretyzacja metodą wnioskowania Boolowskiego

Dana jest niesprzeczna tablica decyzyjna S=U,Adec

  • Niech C będzie zbiorem kandydujących cięć dla tablicy S;

  • Każde cięcie a,c jest skojarzone ze zmienną Boolowską pa,c;

  • Niech ψx,y będzie funkcją rozróżnialności dla x,y:

    ψx,y=pa,c:a,c rozróżnia x,y.
  • Funkcja boolowska

    ΨS=ψx,y:decxdecy

    koduje problem dyskretyzacji.

  • Minimalny implikant pierwszy ΨS optymalny zbiór cięć.

Ciecia kandydujące

a,0.9;a,1.15;a,1.35;a,1.5;b,0.75;b,1.5;b,2.5.

Oznaczmy przez p1a,p2a,p3a,p4a,p1b,p2b,p3b zmienne Boolowskie odpowiadające cięciom. Wówczas

ψ2,1=p1a+p1b+p2b;ψ2,4=p2a+p3a+p1b;ψ2,6=p2a+p3a+p4a+p1b+p2b+p3b;ψ2,7=p2a+p1b;ψ3,1=p1a+p2a+p3b;ψ3,4=p2a+p2b+p3b;ψ3,6=p3a+p4a;ψ3,7=p2b+p3b;ψ5,1=p1a+p2a+p3a;ψ5,4=p2b;ψ5,6=p4a+p3b;ψ5,7=p3a+p2b.

Funkcja kodująca problem dyskretyzacji

ΦS=p1a+p1b+p2bp1a+p2a+p3bp1a+p2a+p3ap2a+p3a+p1bp2bp2a+p2b+p3bp2a+p3a+p4a+p1b+p2b+p3bp3a+p4ap4a+p3bp2a+p1bp2b+p3bp3a+p2b.

Po sprowadzeniu do postaci DNF mamy:

ΦS=p2ap4ap2b+p2ap3ap2bp3b+p3ap1bp2bp3b+p1ap4ap1bp2b.

Czyli optymalnym zbiorem cięć jest a,1.15,a,1.5,b,1.5

  • <+-|alert@+> W algorytmie zachłannym, preferujemy cięcia rozróżniające największą liczbę par obiektów.

  • <+-|alert@+> Miara rozróżnialności dla danego cięcia względem zbioru obiektów X:

    discc,X=conflictX-conflictXL-conflictXR

    gdzie conflictX = liczba par obiektów różnych decyzji w zbiorze X.

  • <+-|alert@+> Można realizować zachłanną heurystykę w czasie OnklognP, gdzie n jest liczbą obiektów, k jest liczbą atrybutów, P jest zbiorem cięć znalezionych przez algorytm

S* p1a p2a p3a p4a p1b p2b p3b d*
u1,u2 1 0 0 0 1 1 0 1
u1,u3 1 1 0 0 0 0 1 1
u1,u5 1 1 1 0 0 0 0 1
u4,u2 0 1 1 0 1 0 0 1
u4,u3 0 0 1 0 0 1 1 1
u4,u5 0 0 0 0 0 1 0 1
u6,u2 0 1 1 1 1 1 1 1
u6,u3 0 0 1 1 0 0 0 1
u6,u5 0 0 0 1 0 0 1 1
u7,u2 0 1 0 0 1 0 0 1
u7,u3 0 0 0 0 0 1 1 1
u7,u5 0 0 1 0 0 1 0 1
new 0 0 0 0 0 0 0 0

7.1.3.1. Uogólnienia problemu dyskretyzacji

  • Hiperpłaszczyzny jako cięcia;

  • Krzywe wyższego rzędu;

  • Grupowanie wartości nominalnych;

  • Inne kryteria optymalizacji.

  • Dyskretyzacja jako proces wstępnego przetwarzania

  • Miarę rozróżnialności można stosować do konstrukcji drzew decyzyjnych.

  • Drzewa generowane tą miarą mają dużo ciekawych własności i dużą skuteczność w procesie klasyfikacji.

  • Rozumowanie Boolowskie jest prostym, ale mocnym narzędziem w dziedzinie rozpoznawania wzorców, eksploracji danych (ang. Data Mining), sztucznej inteligencji …

  • Złożoność funkcji Boolowskiej kodującej dany problem może być miarą trudności tego problemu.

Treść automatycznie generowana z plików źródłowych LaTeXa za pomocą oprogramowania wykorzystującego LaTeXML.

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu Społecznego.

Projekt współfinansowany przez Ministerstwo Nauki i Szkolnictwa Wyższego i przez Uniwersytet Warszawski.