Zagadnienia

1. Wprowadzenie do systemów decyzyjnych

1.1. Wprowadzenie do systemów decyzyjnych

1.1.1. Elementy systemów decyzyjnych

1.1.1.1. Wprowadzenie do teorii uczenia się

\block

Kto się uczy? Ograniczymy się do programów komputerowych zwanych ”algorytmami uczącymi się”.

\block

Czego się uczy?

  • pojęć: – np. odróżnienie “krzeseł” od innych mebli.

  • nieznanych urządzeń – np. używanie VCR

  • nieznanych środowisk – np. nowe miasto

  • procesów – np. pieczenie ciasta

  • rodzin podobnych wzorców – np. rozp. mowy, twarzy lub pisma.

  • funkcji: (np. funkcje boolowskie)

\block

Wymagania skuteczność, efektywność, …

Każdy “uczeń” powinien mieć zdolność uogólnienia, t.j. zdolność rozpoznawania różnych obiektów tego samego pojęcia.

Np. jeśli uczymy się funkcji, to ważne jest aby “algorytm uczenia się” nie ograniczał się do jednej konkretnej funkcji. Żądamy aby “modele uczenia” działały skutecznie na klasach funkcji.

Uczeń może pozyskać informacje o dziedzinie poprzez:

  1. Przykłady: Uczeń dostaje pozytywne i/lub negatywne przykłady. Przykłady mogą być zdobywane w sposób:

    1. losowy: według pewnego znanego lub nieznanego rozkładu;

    2. arbitralny;

    3. złośliwy: (np. przez kontrolera, który chciałby wykryć sytuację, kiedy algorytm zachowuje się najgorzej);

    4. specjalny przez życzliwego nauczyciela: (np., starającego ułatwiać proces uczenia się)

  2. Zapytania: uczeń zdobywa informacje o dziedzinie przez zadawanie nauczycielowi zapytań.

  3. Eksperymentowanie: aktywne uczenie się.

  • <+->Podejście indukcyjne: wnioskowanie na podstawie skończonego zbioru obserwacji;

  • <+-> Np. Pokazać, że dla każdego nN

    12+22++n2=nn+12n+16
  • <+-> Jakie prawa rządzą w podejściu uczenia indukcyjnego?

    Szukamy teorii pozwalającej na oszacowanie

    • Prawdopodobieństwa wyuczenia się pojęć;

    • Liczby niezbędnych przykładów treningowych;

    • Złożoności przestrzeni hipotez;

    • Skuteczności aproksymacji;

    • Jakość reprezentacji danych treningowych;

Skąd wiemy, czy uczeń się nauczył lub jak dobrze się nauczył?

  • Miara jakości wsadowa (ang. off-line, batch) i miara interaktywna (ang. on-line, interactive).

  • Jakość opisu vs. jakość predykcji

  • Skuteczność: obliczona na podstawie błędu klasyfikacji, dokładności opisu …

  • Efektywność uczenia: wymagana jest wielomianowa złożoność obliczeniowa.

  • Załóżmy, że chcemy nauczyć się pojęcia ”człowieka o średniej budowie ciała”. Dane – czyli osoby – są reprezentowane przez punkty wzrostcm,wagaKg i są etykietowane przez + dla pozytywnych przykładów i - dla negatywnych.

  • Dodatkowa wiedza: szukane pojęcie można wyrazić za pomocą PROSTOKĄTA

  • Na przykład dany jest etykietowany zbiór:

    ((84,184),+), ((70,170),+), ((75,163),-), ((80,180),+), ((81,195),-), ((63,191),-), ((77,187),-), ((68,168),+)

  • Znajdź etykietę ((79,183,?)

Roważany problem możemy zdefiniować problem następująco:

  • <+-> Cel: Znaleźć w 2 prostokąt R o bokach równoległych do osi.

  • <+-> Wejście: Zbiór zawierający przykłady w postaci punktów ((x,y),+/-). Punkty z tego zbioru zostały wygenerowane losowo.

  • <+-> Wyjście: Hipotetyczny prostokąt R będący “'dobrą aproksymacją” R.

  • <+-> Dodatkowe wymagania: Algorytm powinien być efektywny (ze wzgledu na złożoność obliczeniową) i powinien używać do uczenia jak najmniejszej liczby przykładów .

Przy ustalonych zbiorach pojęć C (dotyczących obiektów ze zbioru X - skończonego lub nie) oraz hipotez H rozważamy następujacy problem

  • <+-> Dane:

    • skończona próbka D obiektów x1,,xmX wraz z wartościami pewnej funkcji c ze zbioru C na tych obiektach;

  • <+-> Szukane:

    • hipoteza hH będąca dobrą aproksymacją pojęcia c.

  • <+-> Żądania:

    • dobra jakość aproksymacji

    • szybki czas działania.

  • Uczenie półosi (lub dyskretyzacji):

    X=;C=H=λ,:α
  • Uczenie hiperpłaszczyzny:

    X=n;H={fw0,w1,,wn:n{0,1}|}

    gdzie fw0,,wnx1,,xn=sgnw0+w1x1++wnxn.

  • Uczenie jednomianów Boolowskich:

    X=0,1n;c:0,1n0,1;

    H=Mn = zbiór jednomianów Boolowskich o n zmiennych.

Niech

  • X – zbiór wszystkich obiektów.

  • Ω=X,μ – przestrzeń probabilistyczna określona na X.

Błąd hipotezy hH względem pojęcia c (funkcji docelowej):

erΩh,c=erΩch=μxX|hxcx
Pytanie:

Dane jest pojęcie c, hipoteza h i zbiór przykladów D. Jak oszacować rzeczywisty błąd hipotezy h na podstawie jej błędu erDc na zbiorze D?

Odp.:

Jeśli przykłady z D są wybrane zgodnie z miarą prawdopodobieństwa μ niezależnie od tej hipotezy i niezależnie od siebie nawzajem oraz D30, to

  • najbardziej prawdopodobną wartością erΩc,h jest erDc,

  • z prawdopodobieństwem 1-ε

    erΩc-erDcsε2erDc1-erDcD

1.1.1.2. Systemy informacyjne i tablice decyzyjne

  • Teoria zbiorów przybliżonych została wprowadzona w latach 80-tych przez prof. Zdzisława Pawlaka.

  • Głównym celem jest dostarczanie narzędzi dla problemu aproksymacji pojęć (zbiorów).

  • Zastosowania w systemach decyzyjnych:

    • Redukcja danych, selekcja ważnych atrybutów

    • Generowanie reguł decyzyjnych

    • Odkrywanie wzorców z danych: szablony, reguły asocjacyjne

    • Odkrywanie zależności w danych

\block

Przykład

Pacjent Wiek Płeć Chol. ECG Rytm serca Chory?
p1 53 M 203 hyp 155 Tak
p2 60 M 185 hyp 155 Tak
p3 40 M 199 norm 178 Nie
p4 46 K 243 norm 144 Nie
p5 62 F 294 norm 162 Nie
p6 43 M 177 hyp 120 Tak
p7 76 K 197 abnorm 116 Nie
p8 62 M 267 norm 99 Tak
p9 57 M 274 norm 88 Tak
p10 72 M 200 abnorm 100 Nie

\block

Tablica decyzyjna Jest to struktura S=U,Adec, gdzie

  • U jest zbiorem obiektów:

    U=u1,,un;
  • A jest zbiorem atrybutów postaci

    aj:UVj;
  • dec jest specjalnym atrybutem zwanym decyzją

    dec:U1,,d.

Tablica decyzyjna powstaje ze zwykłych tablic danych poprzez sprecyzowanie:

  • Atrybutów (nazwanych warunkowymi): cechy, których wartości na obiektach są dostępne, np. pomiary, parametry, dane osobowe, …

  • Decyzji (atrybut decyzyjny):, t.j. cecha “ukryta” związana z pewną znaną częściowo wiedzą o pewnym pojęciu:

    • Decyzja jest znana tylko dla obiektów z (treningowej) tablicy decyzyjnej;

    • Jest podana przez eksperta (np. lekarza) lub na podstawie późniejszych obserwacji (np. ocena giełdy);

    • Chcemy podać metodę jej wyznaczania dla dowolnych obiektów na podstawie wartości atrybutów warunkowych na tych obiektach.

\columns\column

4.5cm Przedstawiona tablica decyzyjna zawiera:

  • 8 obiektów będących opisami pacjentów

  • 3 atrybuty: Headache Muscle pain, Temp.

  • Decyzję stwierdzącą czy pacjent jest przeziębiony czy też nie. lub nie

\column

8cm\example

U Ból głowy Ból mięśni Temp. Grypa
p1 Tak Tak N Nie
p2 Tak Tak H Tak
p3 Tak Tak VH Tak
p4 Nie Tak N Nie
p5 Nie Nie H Nie
p6 Nie Tak VH Tak
p7 Nie Tak H Tak
p8 Nie Nie VH Nie

Dane są obiekty x,yU i zbiór atrybutów BA, mówimy, że

  • x,yrozróżnialne przez B wtw, gdy istnieje aB taki, że axay;

  • x,ynierozróżnialne przez B, jeśli one są identyczne na B, tzn. ax=ay dla każdego aB;

  • xB = zbiór obiektów nierozróżnialnych z x przez B.

  • Dla każdych obiektów x,y:

    • albo xB=yB;

    • albo xByB=.

  • Relacja

    xINDBy:=x,y są nierozróżnialne przez B

    jest relacją równoważności.

  • Każdy zbiór atrybutów BA wyznacza podział zbioru obiektów na klasy nierozróżnialności.

Dla B=Bólgłowy,Bólmięśni

\columns\column

4.5cm

  • obiekty p1,p2,p3 są nierozróżnialne;

  • są 3 klasy nierozróżnialności relacji INDB:

    • p1B=p1,p2,p3

    • p4B=p4,p6,p7

    • p5B=p5,p8

\column

8cm\example

U Ból głowy Ból mięśni Temp. Grypa
p1 Tak Tak N Nie
p2 Tak Tak H Tak
p3 Tak Tak VH Tak
p4 Nie Tak N Nie
p5 Nie Nie H Nie
p6 Nie Tak VH Tak
p7 Nie Tak H Tak
p8 Nie Nie VH Nie

1.1.1.3. Aproksymacja pojęć

\only

<2> Aproksymacja funkcji \block

  • Sztuczna sieć neuronowa;

  • Twierdzenie Kolmogorowa;

  • Modele sieci.

\block

Aproksymacja pojęć

  • Uczenie indukcyjne;

  • COLT;

  • Metody uczenia się.

\block

Wnioskowanie aproksymacyjne

  • Wnioskowanie rozmyte;

  • Wnioskowanie Boolowskie, teoria zbiorów przybliżonych;

  • Inne: wnioskowanie Bayesowskie, sieci przekonań, …

  • Klasyfikatory (algorytmy klasyfikujące) i metody oceny klasyfikatorów

  • Metody rozumowania Boolowskiego

  • Teoria zbiorów przybliżonych

  • Reguły decyzyjne, drzewo decyzyjne i lasy decyzyjne

  • Klasyfikatory Bayesowskie

  • Sieci neuronowe

  • COLT: Obliczeniowa Teoria Uczenia się

  • Metody przygotowywania danych

  • SVM: Maszyna wektorów podpierających

  • Metody wzmacniania klasyfikatorów (ang. Boosting)

1.1.1.4. Nie ma nic za darmo czyli “Non Free Lunch Theorem”

  • Znaleźć optimum nieznanej funkcji f:SW (fF), gdzie S,W są skończonymi zbiorami.

  • Działanie algorytmu przeszukiwania A dla funkcji f jest identyfikowane z wektorem:

    VAf,t=s1,fs1,s2,fs2,,st,fst
  • Ocena algorytmu: M:VAf,t|A,f,tR. Np.

    MVAf,t=mini{1,..,t}i|fsi=fmax
  • Warunek NFL: Dla dowolnej funkcji M, i dla dowolnych algorytmów A,A

    fFMVAf,S=fFMVAf,S
  • F jest zamknięta względem permutacji: dla dowolnej funkcji fF i dowolnej permutacji σPermS mamy σfF

\block

Twierdzenie o NFL

  • Zachodzi równoważność

    NFLF jest zamknięta względem permutacji.
  • Prawdopodobieństwo wylosowania niepustej klasy funkcji zamkniętej wzg. permutacji wynosi:

    2S+W-1S-12SW-1
  • Algorytm L dobrze się uczy pojęcia c jeśli erΩc jest mały.

  • Niech PX=c:X0,1.

    Czy można stwierdzić wiedzieć, że algorytm L1 wyuczy się wszystkich pojęć z PX lepiej niż algorytm L2?

  • ”No Free Lunch theorem” (Wolpert, Schaffer) w wersji problemów uczenia się głosi, że:

    • Żaden algorytm nie może być najlepszy w wyuczeniu wszystkich pojęć.

    • Każdy algorytm jest najlepszy dla takiej samej liczby pojęć

    • Ale interesuje nas tylko pewna klasa problemów czyli klasa pojęć CPX

    • Wniosek: Należy znaleźć odpowiedni algorytm do każdego problemu.

1.1.2. Sprawy organizacyjne

  • Obecność: 20%

  • Projekt: 40%

  • Egzamin: 40%

Treść automatycznie generowana z plików źródłowych LaTeXa za pomocą oprogramowania wykorzystującego LaTeXML.

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu Społecznego.

Projekt współfinansowany przez Ministerstwo Nauki i Szkolnictwa Wyższego i przez Uniwersytet Warszawski.