Np. Pokazać, że dla każdego zachodzi
![]() |
<+-> Indukcja pełna:
![]() |
<+-> Indukcja niepełna: czy wystarczy sprawdzić, np.
![]() |
Podejście indukcyjne: Wnioskowanie na podstawie skończonego zbioru obserwacji
<2-> Jakie prawa rządzą procesem indukcyjnego uczenia się pojęć? <3-> Szukamy teorii obejmującej zagadnienia: \onslide\block
Szansy na skuteczne wyuczanie się pojęć;
Niezbędnej liczby przykładów treningowych;
Złożoności przestrzeni hipotez;
Jakości aproksymacji;
Metod reprezentacji danych treningowych;
<+-> Niech
– (skończony lub nieskończony) zbiór obiektów;
– klasa pojęć w
, tj.
– pojęcie docelowe lub funkcja celu;
<+-> Dane są
skończona próbka etykietowanych obiektów:
![]() |
gdzie .
przestrzeń hipotez ;
<+-> Szukana
hipoteza będąca dobrą aproksymacją pojęcia
.
<+-> Wymagane
dobra jakość aproksymacji
szybki czas wyuczania.
0.65
<+-> Pojęcie: ”człowieka o średniej budowie ciała”.
<+-> Dane – czyli osoby – są reprezentowane przez ich
wagę i wzrost
i są etykietowane przez
i
.
<+-> Dodatkowa wiedza: szukane pojęcie można wyrazić za pomocą PROSTOKĄTA
<7->
0.35\column\onslide<4->Uczenie prostokąta
\block
<+-> ;
<+-> zbiór prostokątów;
<+-> Przykład zbioru treningowego
,
,
,
,
,
,
,
<+->
Uczenie półosi (lub dyskretyzacji):
![]() |
Uczenie hiperpłaszczyzny:
![]() |
gdzie .
Uczenie jednomianów Boolowskich:
![]() |
= zbiór jednomianów Boolowskich o
zmiennych.
Błąd rzeczywisty
– przestrzeń
probabilistyczna na
;
<+-> Błąd hipotezy względem funkcji celu
:
![]() |
gdzie .
<+->[Statystyka:] Jeśli przykłady z są wybrane zgodnie z miarą prawdopodobieństwa
w sposób niezależny
oraz
, to
<+-> ,
<+-> z prawdopodobieństwem
![]() |
Idea modelu PAC (Probably Approximately
Correct): Określenie warunków, przy których uczeń (algorytm
uczenia się) z ,,dużym prawdopodobieństwem”
znajdzie ,,dobrą hipotezę” na podstawie danych .
<2>
PAC-owy uczeń Niech \block będzie algorytmem uczenia się, jeśli
dla każdych , istnieje
liczba
taka, że dla dowolnego
pojęcia
, dla dowolnego rozkładu
na
i dla
mamy
![]() |
Wówczas mówimy w skrócie, że jest PAC dla klasy
(“prawdopodobnie aproksymacyjnie poprawny”).
= dopuszczalny poziom błędu;
= poziom
zaufania.
znaleźć na podstawie losowo wygenerowanych przykładów
<2->Algorytm: \block
Set ;
;
<3-> Twierdzenie: Powyższy algorytm jest PAC \block
<+-> .
<+->Niech .
<+-> Wówczas
<+->Stąd
![]() |
||
![]() |
<+-> Aby to prawdopodobieństwo było , wystarczy
przyjąć
Niech będzie rozkładem dyskretnym zdefiniowanym
przez
, …,
– dla pewnych
– takich, że
.
Niech
.
Jeśli jest PAC, i jeśli
to warunek
jest równoważny z
. Stąd dla każdego
, istnieje
taka,
że dla dowolnego
i
![]() |
Wówczas mówimy, że prawdopodobnie jest dokładnym algorytmem ( jest
PEC – probably exactly correct)
<+-> Niech i niech
![]() |
zbiór hipotez zgodnych z na próbce
.
<+-> – zbiór
-złych hipotez
<4->
Definicja: Potencjalna wyuczalność
Mówimy, że \block jest potencjalnie
wyuczalna za pomocą
, jeśli dla każdego rozkładu
na
i dowolnego pojęcia
oraz dla dowolnych
istnieje
takie, że
![]() |
<1-> Algorytm nazywamy
niesprzecznym jeśli
dla
każdego zbioru
.
Twierdzenie W przestrzeni potencjalnie wyuczalnej, każdy wzorowy uczeń (niesprzeczny algorytm) jest PAC-owy.
<2->
Twierdzenie (Haussler, 1988)
Jeśli i
, to
jest potencjalnie wyuczalna.
Dowód: Niech (tzn.
). Wówczas
![]() |
![]() |
Aby wystarczy wybrać
<+-> Niech . Niech
![]() |
<+-> jest liczbą podziałów
zbioru elementów
wyznaczonych przez
. Mamy
.
<+-> Gdy ,
mówimy, że
rozbija
.
<+-> Niech
<+-> Na przykład: W przypadku klasy pojęć ”półosi” postaci mamy
.
Uwagi:
<+-> Jeśli , to istnieje pewien zbiór o mocy
taki, że
może definiować każdy jego podzbiór (
rozbija ten zbiór).
<+-> Maksymalna wartość , dla której
można
uważać za siłę wyrażalności przestrzeni
<3->
Definicja: wymiar \block
Wymiarem Vapnika-Chervonenkisa przestrzeni hipotez
nazywamy liczbę
![]() |
gdzie maksimum wynosi jeśli ten zbiór jest nieograniczony.
0.7
<+-> okręgi …
<+-> prostokąty …
<+-> funkcje progowe …
jeśli “+” są zawsze po prawej stronie;
jeśli “+” mogą być po obu stronach
<+-> przedziały …
VC(H) = 2 jeśli “+” są zawsze w środku
VC(H) = 3 jeśli w środku mogą być zarówno “+” i “-”
<+-> półpłaszczyzny w
…
<+-> czy istnieje dla której
?
0.3
Twierdzenie
Dla każdej liczby naturalnej , niech
będzie perceptronem o
wejściach rzeczywistych. Wówczas
![]() |
Dowód:
: Wynika z Twierdzenia Radona: Dla dowolnego zbioru
zawierającego
punktów w przestrzeni
istnieje niepusty podzbiór
taki, że
![]() |
Wystarczy wybrać
i pokazać, że każdy jego podzbiór jest definiowany przez jakiś perceptron.
Twierdzenie
Jeśli to
.
<+-> (Lemat Sauer'a) Jeśli i
, to
![]() |
<+-> Wniosek:
<+-> Jeśli ,
oraz
![]() |
Twierdzenie: (Warunek konieczny)
Jeśli przestrzeń hipotez ma nieskończony wymiar to
nie jest potencjalnie wyuczalna.
<2-> Twierdzenie: (fundamentalne) Jeśli przestrzeń hipotez ma skończony wymiar VC, to jest ona potencjalnie wyuczalna. \block
<+-> Definiujemy
![]() |
<+-> Szukamy górnego ograniczenia dla
, które powinno
- być niezależne od i
(rozkład).
- dążyć do 0 przy
<+-> Twierdzenie Niech będzie przestrzenią
hipotez określonych na
. Dla dowolnych
,
,
(ale
ustalonych) mamy
![]() |
o ile .
<+-> Korzystamy z lematu Sauer'a, aby pokazać, że dla dostatecznie dużych
.
Dla skończonych przestrzeni hipotez mamy
![]() |
Twierdzenie Niech . Wówczas każdy
algorytm niesprzeczny
jest PAC oraz wymagana liczba przykładów
dla
wynosi
![]() |
Dolne ograniczenia:
Jeśli i
, to
1. Wyuczalność Kiedy każdy ,,wzorowy uczeń” będzie PAC-owy?
2. Liczba przykładów Ile przykładów musi mieć uczeń, by się nauczyć?
<2->
Skończoność wymiaru \block
<2-> jest
wyuczalna;
<3-> Wówczas
3. Ocena ucznia
![]() |
na podstawie losowych przykładów
![]() |
Kiedy i jak szybko ?
Skończoność wymiaru
<2->[3] Dla algorytmów typu ERM,
szybko.
Znaleźć optimum nieznanej funkcji
(
), gdzie
są skończonymi zbiorami.
Działanie algorytmu przeszukiwania dla funkcji
jest identyfikowany z wektorem:
![]() |
Ocena algorytmu: ;
Np.
Warunek NFL: Dla dowolnej funkcji , i dla dowolnych algorytmów
![]() |
jest zamknięta wzg. permutacji: dla dowolnej funkcji
i
dowolnej permutacji
mamy
Twierdzenie o NFL
zachodzi równoważność
![]() |
Prawdopodobieństwo wylosowania niepustej klasy funkcji zamkniętej wzg. permutacji wynosi:
![]() |
Algorytm dobrze się uczy pojęcia
jeśli
jest mały.
Niech .
Czy można stwierdzić wiedzieć, że uczy się
wszystkich pojęć z
lepiej od
?
”No Free Lunch theorem” (Wolpert, Schaffer) w wersji problemów uczenia się głosi, że:
Żaden algorytm nie może być najlepszy w uczeniu wszystkich pojęć.
Każdy algorytm jest najlepszy dla takiej samej liczby pojęć
Ale interesuje nas tylko pewna klasa problemów czyli klasa pojęć
Wniosek: Należy znaleźć odp. algorytm do każdego problemu.
Treść automatycznie generowana z plików źródłowych LaTeXa za pomocą oprogramowania wykorzystującego LaTeXML.
strona główna | webmaster | o portalu | pomoc
© Wydział Matematyki, Informatyki i
Mechaniki UW, 2009-2010. Niniejsze materiały są udostępnione bezpłatnie na licencji Creative Commons Uznanie autorstwa-Użycie niekomercyjne-Bez utworów zależnych 3.0 Polska.
Projekt współfinansowany przez Unię Europejską w ramach
Europejskiego Funduszu Społecznego.
Projekt współfinansowany przez Ministerstwo Nauki i Szkolnictwa Wyższego i przez Uniwersytet Warszawski.