Np. Pokazać, że dla każdego zachodzi
<+-> Indukcja pełna:
<+-> Indukcja niepełna: czy wystarczy sprawdzić, np.
Podejście indukcyjne: Wnioskowanie na podstawie skończonego zbioru obserwacji
<2-> Jakie prawa rządzą procesem indukcyjnego uczenia się pojęć? <3-> Szukamy teorii obejmującej zagadnienia: \onslide\block
Szansy na skuteczne wyuczanie się pojęć;
Niezbędnej liczby przykładów treningowych;
Złożoności przestrzeni hipotez;
Jakości aproksymacji;
Metod reprezentacji danych treningowych;
<+-> Niech
– (skończony lub nieskończony) zbiór obiektów;
– klasa pojęć w , tj.
– pojęcie docelowe lub funkcja celu;
<+-> Dane są
skończona próbka etykietowanych obiektów:
gdzie .
przestrzeń hipotez ;
<+-> Szukana
hipoteza będąca dobrą aproksymacją pojęcia .
<+-> Wymagane
dobra jakość aproksymacji
szybki czas wyuczania.
0.65
<+-> Pojęcie: ”człowieka o średniej budowie ciała”.
<+-> Dane – czyli osoby – są reprezentowane przez ich wagę i wzrost i są etykietowane przez i .
<+-> Dodatkowa wiedza: szukane pojęcie można wyrazić za pomocą PROSTOKĄTA
<7-> 0.35\column\onslide<4->Uczenie prostokąta \block
<+-> ;
<+-> zbiór prostokątów;
<+-> Przykład zbioru treningowego
, , , , , , ,
<+->
Uczenie półosi (lub dyskretyzacji):
Uczenie hiperpłaszczyzny:
gdzie .
Uczenie jednomianów Boolowskich:
= zbiór jednomianów Boolowskich o zmiennych.
Błąd rzeczywisty
– przestrzeń probabilistyczna na ;
<+-> Błąd hipotezy względem funkcji celu :
gdzie .
<+->[Statystyka:] Jeśli przykłady z są wybrane zgodnie z miarą prawdopodobieństwa w sposób niezależny oraz , to
<+-> ,
<+-> z prawdopodobieństwem
Idea modelu PAC (Probably Approximately Correct): Określenie warunków, przy których uczeń (algorytm uczenia się) z ,,dużym prawdopodobieństwem” znajdzie ,,dobrą hipotezę” na podstawie danych .
<2> PAC-owy uczeń Niech \block będzie algorytmem uczenia się, jeśli
dla każdych , istnieje liczba taka, że dla dowolnego pojęcia , dla dowolnego rozkładu na i dla mamy
Wówczas mówimy w skrócie, że jest PAC dla klasy (“prawdopodobnie aproksymacyjnie poprawny”). = dopuszczalny poziom błędu; = poziom zaufania.
znaleźć na podstawie losowo wygenerowanych przykładów
<2->Algorytm: \block
Set ;
;
<3-> Twierdzenie: Powyższy algorytm jest PAC \block
<+-> .
<+->Niech .
<+-> Wówczas
<+->Stąd
<+-> Aby to prawdopodobieństwo było , wystarczy przyjąć
Niech będzie rozkładem dyskretnym zdefiniowanym przez , …, – dla pewnych – takich, że . Niech .
Jeśli jest PAC, i jeśli to warunek jest równoważny z . Stąd dla każdego , istnieje taka, że dla dowolnego i
Wówczas mówimy, że prawdopodobnie jest dokładnym algorytmem ( jest PEC – probably exactly correct)
<+-> Niech i niech
zbiór hipotez zgodnych z na próbce .
<+-> – zbiór -złych hipotez
<4-> Definicja: Potencjalna wyuczalność Mówimy, że \block jest potencjalnie wyuczalna za pomocą , jeśli dla każdego rozkładu na i dowolnego pojęcia oraz dla dowolnych istnieje takie, że
<1-> Algorytm nazywamy niesprzecznym jeśli dla każdego zbioru .
Twierdzenie W przestrzeni potencjalnie wyuczalnej, każdy wzorowy uczeń (niesprzeczny algorytm) jest PAC-owy.
<2->
Twierdzenie (Haussler, 1988) Jeśli i , to jest potencjalnie wyuczalna.
Dowód: Niech (tzn. ). Wówczas
Aby wystarczy wybrać
<+-> Niech . Niech
<+-> jest liczbą podziałów zbioru elementów wyznaczonych przez . Mamy .
<+-> Gdy , mówimy, że rozbija .
<+-> Niech
<+-> Na przykład: W przypadku klasy pojęć ”półosi” postaci mamy .
Uwagi:
<+-> Jeśli , to istnieje pewien zbiór o mocy taki, że może definiować każdy jego podzbiór ( rozbija ten zbiór).
<+-> Maksymalna wartość , dla której można uważać za siłę wyrażalności przestrzeni
<3-> Definicja: wymiar \block Wymiarem Vapnika-Chervonenkisa przestrzeni hipotez nazywamy liczbę
gdzie maksimum wynosi jeśli ten zbiór jest nieograniczony.
0.7
<+-> okręgi …
<+-> prostokąty …
<+-> funkcje progowe …
jeśli “+” są zawsze po prawej stronie;
jeśli “+” mogą być po obu stronach
<+-> przedziały …
VC(H) = 2 jeśli “+” są zawsze w środku
VC(H) = 3 jeśli w środku mogą być zarówno “+” i “-”
<+-> półpłaszczyzny w …
<+-> czy istnieje dla której ?
0.3
Twierdzenie Dla każdej liczby naturalnej , niech będzie perceptronem o wejściach rzeczywistych. Wówczas
Dowód:
: Wynika z Twierdzenia Radona: Dla dowolnego zbioru zawierającego punktów w przestrzeni istnieje niepusty podzbiór taki, że
Wystarczy wybrać i pokazać, że każdy jego podzbiór jest definiowany przez jakiś perceptron.
Twierdzenie
Jeśli to .
<+-> (Lemat Sauer'a) Jeśli i , to
<+-> Wniosek:
<+-> Jeśli , oraz
Twierdzenie: (Warunek konieczny) Jeśli przestrzeń hipotez ma nieskończony wymiar to nie jest potencjalnie wyuczalna.
<2-> Twierdzenie: (fundamentalne) Jeśli przestrzeń hipotez ma skończony wymiar VC, to jest ona potencjalnie wyuczalna. \block
<+-> Definiujemy
<+-> Szukamy górnego ograniczenia dla , które powinno
- być niezależne od i (rozkład).
- dążyć do 0 przy
<+-> Twierdzenie Niech będzie przestrzenią hipotez określonych na . Dla dowolnych , , (ale ustalonych) mamy
o ile .
<+-> Korzystamy z lematu Sauer'a, aby pokazać, że dla dostatecznie dużych .
Dla skończonych przestrzeni hipotez mamy
Twierdzenie Niech . Wówczas każdy algorytm niesprzeczny jest PAC oraz wymagana liczba przykładów dla wynosi
Dolne ograniczenia:
Jeśli i , to
1. Wyuczalność Kiedy każdy ,,wzorowy uczeń” będzie PAC-owy?
2. Liczba przykładów Ile przykładów musi mieć uczeń, by się nauczyć?
<2-> Skończoność wymiaru \block
<2-> jest wyuczalna;
<3-> Wówczas
3. Ocena ucznia
na podstawie losowych przykładów
Kiedy i jak szybko ?
Skończoność wymiaru
<2->[3] Dla algorytmów typu ERM, szybko.
Znaleźć optimum nieznanej funkcji (), gdzie są skończonymi zbiorami.
Działanie algorytmu przeszukiwania dla funkcji jest identyfikowany z wektorem:
Ocena algorytmu: ;
Np.
Warunek NFL: Dla dowolnej funkcji , i dla dowolnych algorytmów
jest zamknięta wzg. permutacji: dla dowolnej funkcji i dowolnej permutacji mamy
Twierdzenie o NFL
zachodzi równoważność
Prawdopodobieństwo wylosowania niepustej klasy funkcji zamkniętej wzg. permutacji wynosi:
Algorytm dobrze się uczy pojęcia jeśli jest mały.
Niech .
Czy można stwierdzić wiedzieć, że uczy się wszystkich pojęć z lepiej od ?
”No Free Lunch theorem” (Wolpert, Schaffer) w wersji problemów uczenia się głosi, że:
Żaden algorytm nie może być najlepszy w uczeniu wszystkich pojęć.
Każdy algorytm jest najlepszy dla takiej samej liczby pojęć
Ale interesuje nas tylko pewna klasa problemów czyli klasa pojęć
Wniosek: Należy znaleźć odp. algorytm do każdego problemu.
Treść automatycznie generowana z plików źródłowych LaTeXa za pomocą oprogramowania wykorzystującego LaTeXML.
strona główna | webmaster | o portalu | pomoc
© Wydział Matematyki, Informatyki i Mechaniki UW, 2009-2010. Niniejsze materiały są udostępnione bezpłatnie na licencji Creative Commons Uznanie autorstwa-Użycie niekomercyjne-Bez utworów zależnych 3.0 Polska.
Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu Społecznego.
Projekt współfinansowany przez Ministerstwo Nauki i Szkolnictwa Wyższego i przez Uniwersytet Warszawski.