Kto się uczy? Ograniczymy się do programów komputerowych zwanych ”algorytmami uczącymi się”.
Czego się uczy?
pojęć: – np. odróżnienie “krzeseł” od innych mebli.
nieznanych urządzeń – np. używanie VCR
nieznanych środowisk – np. nowe miasto
procesów – np. pieczenie ciasta
rodzin podobnych wzorców – np. rozp. mowy, twarzy lub pisma.
funkcji: (np. funkcje boolowskie)
Wymagania skuteczność, efektywność, …
Każdy “uczeń” powinien mieć zdolność uogólnienia, t.j. zdolność rozpoznawania różnych obiektów tego samego pojęcia.
Np. jeśli uczymy się funkcji, to ważne jest aby “algorytm uczenia się” nie ograniczał się do jednej konkretnej funkcji. Żądamy aby “modele uczenia” działały skutecznie na klasach funkcji.
Uczeń może pozyskać informacje o dziedzinie poprzez:
Przykłady: Uczeń dostaje pozytywne i/lub negatywne przykłady. Przykłady mogą być zdobywane w sposób:
losowy: według pewnego znanego lub nieznanego rozkładu;
arbitralny;
złośliwy: (np. przez kontrolera, który chciałby wykryć sytuację, kiedy algorytm zachowuje się najgorzej);
specjalny przez życzliwego nauczyciela: (np., starającego ułatwiać proces uczenia się)
Zapytania: uczeń zdobywa informacje o dziedzinie przez zadawanie nauczycielowi zapytań.
Eksperymentowanie: aktywne uczenie się.
<+->Podejście indukcyjne: wnioskowanie na podstawie skończonego zbioru obserwacji;
<+-> Np. Pokazać, że dla każdego
<+-> Jakie prawa rządzą w podejściu uczenia indukcyjnego?
Szukamy teorii pozwalającej na oszacowanie
Prawdopodobieństwa wyuczenia się pojęć;
Liczby niezbędnych przykładów treningowych;
Złożoności przestrzeni hipotez;
Skuteczności aproksymacji;
Jakość reprezentacji danych treningowych;
Skąd wiemy, czy uczeń się nauczył lub jak dobrze się nauczył?
Miara jakości wsadowa (ang. off-line, batch) i miara interaktywna (ang. on-line, interactive).
Jakość opisu vs. jakość predykcji
Skuteczność: obliczona na podstawie błędu klasyfikacji, dokładności opisu …
Efektywność uczenia: wymagana jest wielomianowa złożoność obliczeniowa.
Załóżmy, że chcemy nauczyć się pojęcia ”człowieka o średniej
budowie ciała”. Dane – czyli osoby – są reprezentowane przez punkty
Dodatkowa wiedza: szukane pojęcie można wyrazić za pomocą PROSTOKĄTA
Na przykład dany jest etykietowany zbiór:
Znajdź etykietę
Roważany problem możemy zdefiniować problem następująco:
<+-> Cel: Znaleźć w
<+-> Wejście: Zbiór zawierający przykłady w postaci punktów
<+-> Wyjście: Hipotetyczny prostokąt
<+-> Dodatkowe wymagania: Algorytm powinien być efektywny (ze wzgledu na złożoność obliczeniową) i powinien używać do uczenia jak najmniejszej liczby przykładów .
Przy ustalonych zbiorach pojęć
<+-> Dane:
skończona próbka
<+-> Szukane:
hipoteza
<+-> Żądania:
dobra jakość aproksymacji
szybki czas działania.
Uczenie półosi (lub dyskretyzacji):
Uczenie hiperpłaszczyzny:
gdzie
Uczenie jednomianów Boolowskich:
Niech
Błąd hipotezy
Dane jest pojęcie
Jeśli przykłady z
najbardziej prawdopodobną wartością
z prawdopodobieństwem
Teoria zbiorów przybliżonych została wprowadzona w latach 80-tych przez prof. Zdzisława Pawlaka.
Głównym celem jest dostarczanie narzędzi dla problemu aproksymacji pojęć (zbiorów).
Zastosowania w systemach decyzyjnych:
Redukcja danych, selekcja ważnych atrybutów
Generowanie reguł decyzyjnych
Odkrywanie wzorców z danych: szablony, reguły asocjacyjne
Odkrywanie zależności w danych
Przykład
Pacjent | Wiek | Płeć | Chol. | ECG | Rytm serca | Chory? |
---|---|---|---|---|---|---|
53 | M | 203 | hyp | 155 | Tak | |
60 | M | 185 | hyp | 155 | Tak | |
40 | M | 199 | norm | 178 | Nie | |
46 | K | 243 | norm | 144 | Nie | |
62 | F | 294 | norm | 162 | Nie | |
43 | M | 177 | hyp | 120 | Tak | |
76 | K | 197 | abnorm | 116 | Nie | |
62 | M | 267 | norm | 99 | Tak | |
57 | M | 274 | norm | 88 | Tak | |
72 | M | 200 | abnorm | 100 | Nie |
Tablica decyzyjna
Jest to struktura
Tablica decyzyjna powstaje ze zwykłych tablic danych poprzez sprecyzowanie:
Atrybutów (nazwanych warunkowymi): cechy, których wartości na obiektach są dostępne, np. pomiary, parametry, dane osobowe, …
Decyzji (atrybut decyzyjny):, t.j. cecha “ukryta” związana z pewną znaną częściowo wiedzą o pewnym pojęciu:
Decyzja jest znana tylko dla obiektów z (treningowej) tablicy decyzyjnej;
Jest podana przez eksperta (np. lekarza) lub na podstawie późniejszych obserwacji (np. ocena giełdy);
Chcemy podać metodę jej wyznaczania dla dowolnych obiektów na podstawie wartości atrybutów warunkowych na tych obiektach.
4.5cm Przedstawiona tablica decyzyjna zawiera:
8 obiektów będących opisami pacjentów
3 atrybuty: Headache Muscle pain, Temp.
Decyzję stwierdzącą czy pacjent jest przeziębiony czy też nie. lub nie
8cm\example
Ból głowy
Ból mięśni
Temp.
Grypa
p1
Tak
Tak
N
Nie
p2
Tak
Tak
H
Tak
p3
Tak
Tak
VH
Tak
p4
Nie
Tak
N
Nie
p5
Nie
Nie
H
Nie
p6
Nie
Tak
VH
Tak
p7
Nie
Tak
H
Tak
p8
Nie
Nie
VH
Nie
Dane są obiekty
Dla każdych obiektów
albo
albo
Relacja
jest relacją równoważności.
Każdy zbiór atrybutów
Dla
4.5cm
obiekty
są 3 klasy nierozróżnialności relacji
8cm\example
Ból głowy
Ból mięśni
Temp.
Grypa
p1
Tak
Tak
N
Nie
p2
Tak
Tak
H
Tak
p3
Tak
Tak
VH
Tak
p4
Nie
Tak
N
Nie
p5
Nie
Nie
H
Nie
p6
Nie
Tak
VH
Tak
p7
Nie
Tak
H
Tak
p8
Nie
Nie
VH
Nie
<2> Aproksymacja funkcji \block
Sztuczna sieć neuronowa;
Twierdzenie Kolmogorowa;
Modele sieci.
Aproksymacja pojęć
Uczenie indukcyjne;
COLT;
Metody uczenia się.
Wnioskowanie aproksymacyjne
Wnioskowanie rozmyte;
Wnioskowanie Boolowskie, teoria zbiorów przybliżonych;
Inne: wnioskowanie Bayesowskie, sieci przekonań, …
Klasyfikatory (algorytmy klasyfikujące) i metody oceny klasyfikatorów
Metody rozumowania Boolowskiego
Teoria zbiorów przybliżonych
Reguły decyzyjne, drzewo decyzyjne i lasy decyzyjne
Klasyfikatory Bayesowskie
Sieci neuronowe
COLT: Obliczeniowa Teoria Uczenia się
Metody przygotowywania danych
SVM: Maszyna wektorów podpierających
Metody wzmacniania klasyfikatorów (ang. Boosting)
Znaleźć optimum nieznanej funkcji
Działanie algorytmu przeszukiwania
Ocena algorytmu:
Warunek NFL: Dla dowolnej funkcji
Twierdzenie o NFL
Zachodzi równoważność
Prawdopodobieństwo wylosowania niepustej klasy funkcji zamkniętej wzg. permutacji wynosi:
Algorytm
Niech
Czy można stwierdzić wiedzieć, że algorytm
”No Free Lunch theorem” (Wolpert, Schaffer) w wersji problemów uczenia się głosi, że:
Żaden algorytm nie może być najlepszy w wyuczeniu wszystkich pojęć.
Każdy algorytm jest najlepszy dla takiej samej liczby pojęć
Ale interesuje nas tylko pewna klasa problemów czyli klasa pojęć
Wniosek: Należy znaleźć odpowiedni algorytm do każdego problemu.
Obecność: 20%
Projekt: 40%
Egzamin: 40%
Treść automatycznie generowana z plików źródłowych LaTeXa za pomocą oprogramowania wykorzystującego LaTeXML.
strona główna | webmaster | o portalu | pomoc
© Wydział Matematyki, Informatyki i Mechaniki UW, 2009-2010. Niniejsze materiały są udostępnione bezpłatnie na licencji Creative Commons Uznanie autorstwa-Użycie niekomercyjne-Bez utworów zależnych 3.0 Polska.
Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu Społecznego.
Projekt współfinansowany przez Ministerstwo Nauki i Szkolnictwa Wyższego i przez Uniwersytet Warszawski.