Np. Pokazać, że dla każdego
zachodzi
![]() |
<+-> Indukcja pełna:
<+-> Indukcja niepełna: czy wystarczy sprawdzić, np.
Podejście indukcyjne: Wnioskowanie na podstawie skończonego zbioru obserwacji
<2-> Jakie prawa rządzą procesem indukcyjnego uczenia się pojęć? <3-> Szukamy teorii obejmującej zagadnienia: \onslide\block
Szansy na skuteczne wyuczanie się pojęć;
Niezbędnej liczby przykładów treningowych;
Złożoności przestrzeni hipotez;
Jakości aproksymacji;
Metod reprezentacji danych treningowych;
<+-> Niech
– (skończony lub nieskończony) zbiór obiektów;
– klasa pojęć w
, tj.
![]()
– pojęcie docelowe lub funkcja celu;
<+-> Dane są
skończona próbka etykietowanych obiektów:
gdzie
.
przestrzeń hipotez
;
<+-> Szukana
hipoteza
będąca dobrą aproksymacją pojęcia
.
<+-> Wymagane
dobra jakość aproksymacji
szybki czas wyuczania.
0.65
<+-> Pojęcie: ”człowieka o średniej budowie ciała”.
<+-> Dane – czyli osoby – są reprezentowane przez ich
wagę
i wzrost
i są etykietowane przez
i
.
<+-> Dodatkowa wiedza: szukane pojęcie można wyrazić za pomocą PROSTOKĄTA
<7->
0.35\column\onslide<4->Uczenie prostokąta
\block
<+->
;
<+->
zbiór prostokątów;
<+-> Przykład zbioru treningowego
,
,
,
,
,
,
, ![]()
<+-> ![]()
Uczenie półosi (lub dyskretyzacji):
Uczenie hiperpłaszczyzny:
gdzie
.
Uczenie jednomianów Boolowskich:
= zbiór jednomianów Boolowskich o
zmiennych.
Błąd rzeczywisty
– przestrzeń
probabilistyczna na
;
<+-> Błąd hipotezy
względem funkcji celu
:
gdzie
.
<+->[Statystyka:] Jeśli przykłady z
są wybrane zgodnie z miarą prawdopodobieństwa
w sposób niezależny
oraz
, to
<+->
,
<+-> z prawdopodobieństwem ![]()
![]() |
Idea modelu PAC (Probably Approximately
Correct): Określenie warunków, przy których uczeń (algorytm
uczenia się) z ,,dużym prawdopodobieństwem”
znajdzie ,,dobrą hipotezę” na podstawie danych
.
<2>
PAC-owy uczeń Niech \block
będzie algorytmem uczenia się, jeśli
dla każdych
, istnieje
liczba
taka, że dla dowolnego
pojęcia
, dla dowolnego rozkładu
na
i dla
mamy
Wówczas mówimy w skrócie, że
jest PAC dla klasy
(“prawdopodobnie aproksymacyjnie poprawny”).
= dopuszczalny poziom błędu;
= poziom
zaufania.
![]()
![]()
znaleźć
na podstawie losowo wygenerowanych przykładów
![]()
<2->Algorytm: \block
Set
;
;
<3-> Twierdzenie: Powyższy algorytm jest PAC \block
<+->
.
<+->Niech
.
<+-> Wówczas ![]()
<+->Stąd
<+-> Aby to prawdopodobieństwo było
, wystarczy
przyjąć ![]()
Niech
będzie rozkładem dyskretnym zdefiniowanym
przez
, …,
– dla pewnych
– takich, że
.
Niech
.
Jeśli
jest PAC, i jeśli
to warunek
jest równoważny z
. Stąd dla każdego
, istnieje
taka,
że dla dowolnego
i ![]()
Wówczas mówimy, że prawdopodobnie
jest dokładnym algorytmem ( jest
PEC – probably exactly correct)
<+-> Niech
i niech
zbiór hipotez zgodnych z
na próbce
.
<+->
– zbiór
-złych hipotez
<4->
Definicja: Potencjalna wyuczalność
Mówimy, że \block
jest potencjalnie
wyuczalna za pomocą
, jeśli dla każdego rozkładu
na
i dowolnego pojęcia
oraz dla dowolnych
istnieje
takie, że
<1-> Algorytm
nazywamy
niesprzecznym jeśli
dla
każdego zbioru
.
Twierdzenie W przestrzeni potencjalnie wyuczalnej, każdy wzorowy uczeń (niesprzeczny algorytm) jest PAC-owy.
<2->
Twierdzenie (Haussler, 1988)
Jeśli
i
, to
jest potencjalnie wyuczalna.
Dowód: Niech
(tzn.
). Wówczas
Aby
wystarczy wybrać
![]()
<+-> Niech
. Niech
<+->
jest liczbą podziałów
zbioru elementów
wyznaczonych przez
. Mamy
.
<+-> Gdy
,
mówimy, że
rozbija
.
<+-> Niech ![]()
<+-> Na przykład: W przypadku klasy pojęć ”półosi” postaci
mamy
.
Uwagi:
<+-> Jeśli
, to istnieje pewien zbiór o mocy
taki, że
może definiować każdy jego podzbiór (
rozbija ten zbiór).
<+-> Maksymalna wartość
, dla której
można
uważać za siłę wyrażalności przestrzeni ![]()
<3->
Definicja: wymiar \block
Wymiarem Vapnika-Chervonenkisa przestrzeni hipotez
nazywamy liczbę
gdzie maksimum wynosi
jeśli ten zbiór jest nieograniczony.
0.7
<+->
okręgi … ![]()
<+->
prostokąty … ![]()
<+->
funkcje progowe …
jeśli “+” są zawsze po prawej stronie;
jeśli “+” mogą być po obu stronach
<+->
przedziały … ![]()
VC(H) = 2 jeśli “+” są zawsze w środku
VC(H) = 3 jeśli w środku mogą być zarówno “+” i “-”
<+->
półpłaszczyzny w
…
![]()
<+-> czy istnieje
dla której
?
0.3
Twierdzenie
Dla każdej liczby naturalnej
, niech
będzie perceptronem o
wejściach rzeczywistych. Wówczas
Dowód:
: Wynika z Twierdzenia Radona: Dla dowolnego zbioru
zawierającego
punktów w przestrzeni
istnieje niepusty podzbiór
taki, że
Wystarczy wybrać
i pokazać, że każdy jego podzbiór jest definiowany przez jakiś perceptron.
Twierdzenie
Jeśli
to
.
<+-> (Lemat Sauer'a) Jeśli
i
, to
<+-> Wniosek:
![]()
<+-> Jeśli
,
oraz ![]()
![]() |
Twierdzenie: (Warunek konieczny)
Jeśli przestrzeń hipotez ma nieskończony wymiar
to
nie jest potencjalnie wyuczalna.
<2-> Twierdzenie: (fundamentalne) Jeśli przestrzeń hipotez ma skończony wymiar VC, to jest ona potencjalnie wyuczalna. \block
<+-> Definiujemy
<+-> Szukamy górnego ograniczenia
dla
, które powinno
- być niezależne od
i
(rozkład).
- dążyć do 0 przy ![]()
<+-> Twierdzenie Niech
będzie przestrzenią
hipotez określonych na
. Dla dowolnych
,
,
(ale
ustalonych) mamy
o ile
.
<+-> Korzystamy z lematu Sauer'a, aby pokazać, że
dla dostatecznie dużych
.
Dla skończonych przestrzeni hipotez
mamy
Twierdzenie Niech
. Wówczas każdy
algorytm niesprzeczny
jest PAC oraz wymagana liczba przykładów
dla
wynosi
Dolne ograniczenia:
![]()
Jeśli
i
, to ![]()
![]()
1. Wyuczalność Kiedy każdy ,,wzorowy uczeń” będzie PAC-owy?
2. Liczba przykładów Ile przykładów musi mieć uczeń, by się nauczyć?
<2->
Skończoność wymiaru \block![]()
<2->
jest
wyuczalna;
<3-> Wówczas ![]()
3. Ocena ucznia
na podstawie
losowych przykładów
![]() |
Kiedy i jak szybko
?
Skończoność wymiaru ![]()
<2->[3] Dla algorytmów typu ERM,
szybko.
Znaleźć optimum nieznanej funkcji
(
), gdzie
są skończonymi zbiorami.
Działanie algorytmu przeszukiwania
dla funkcji
jest identyfikowany z wektorem:
Ocena algorytmu:
;
Np. ![]()
Warunek NFL: Dla dowolnej funkcji
, i dla dowolnych algorytmów ![]()
jest zamknięta wzg. permutacji: dla dowolnej funkcji
i
dowolnej permutacji
mamy ![]()
Twierdzenie o NFL
zachodzi równoważność
Prawdopodobieństwo wylosowania niepustej klasy funkcji zamkniętej wzg. permutacji wynosi:
![]() |
Algorytm
dobrze się uczy pojęcia
jeśli
jest mały.
Niech
.
Czy można stwierdzić wiedzieć, że
uczy się
wszystkich pojęć z
lepiej od
?
”No Free Lunch theorem” (Wolpert, Schaffer) w wersji problemów uczenia się głosi, że:
Żaden algorytm nie może być najlepszy w uczeniu wszystkich pojęć.
Każdy algorytm jest najlepszy dla takiej samej liczby pojęć
Ale interesuje nas tylko pewna klasa problemów czyli klasa pojęć
![]()
Wniosek: Należy znaleźć odp. algorytm do każdego problemu.
Treść automatycznie generowana z plików źródłowych LaTeXa za pomocą oprogramowania wykorzystującego LaTeXML.
strona główna | webmaster | o portalu | pomoc
© Wydział Matematyki, Informatyki i
Mechaniki UW, 2009-2010.
Niniejsze materiały są udostępnione bezpłatnie na licencji Creative Commons Uznanie autorstwa-Użycie niekomercyjne-Bez utworów zależnych 3.0 Polska.
Projekt współfinansowany przez Unię Europejską w ramach
Europejskiego Funduszu Społecznego.
Projekt współfinansowany przez Ministerstwo Nauki i Szkolnictwa Wyższego i przez Uniwersytet Warszawski.