Zagadnienia

9. Teoria systemów uczących się

9.1. Teoria systemów uczących się

9.1.1. Wstęp do komputerowego uczenia się pojęć

  • Np. Pokazać, że dla każdego nN zachodzi

    Ψn:12+22++n2=nn+12n+16
  • <+-> Indukcja pełna:

    Ψ1 oraz n1ΨnΨn+1
  • <+-> Indukcja niepełna: czy wystarczy sprawdzić, np.

    Ψ1,Ψ2,Ψ3,Ψ4?
\block

Podejście indukcyjne: Wnioskowanie na podstawie skończonego zbioru obserwacji

\onslide

<2-> Jakie prawa rządzą procesem indukcyjnego uczenia się pojęć? <3-> Szukamy teorii obejmującej zagadnienia: \onslide\block

  • Szansy na skuteczne wyuczanie się pojęć;

  • Niezbędnej liczby przykładów treningowych;

  • Złożoności przestrzeni hipotez;

  • Jakości aproksymacji;

  • Metod reprezentacji danych treningowych;

  • <+-> Niech

    • X – (skończony lub nieskończony) zbiór obiektów;

    • C – klasa pojęć w X, tj. C=f:X0,1

    • cC – pojęcie docelowe lub funkcja celu;

  • <+-> Dane są

    • skończona próbka etykietowanych obiektów:

      D=x1,cx1,,xm,cxmSm,c

      gdzie x1,,xmX.

    • przestrzeń hipotez H=h:X0,1;

  • <+-> Szukana

    • hipoteza hH będąca dobrą aproksymacją pojęcia c.

  • <+-> Wymagane

    • dobra jakość aproksymacji

    • szybki czas wyuczania.

\columns\column

0.65

  • <+-> Pojęcie: ”człowieka o średniej budowie ciała”.

  • <+-> Dane – czyli osoby – są reprezentowane przez ich wagękg i wzrostcm i są etykietowane przez + i -.

  • <+-> Dodatkowa wiedza: szukane pojęcie można wyrazić za pomocą PROSTOKĄTA

\onslide

<7-> 0.35\column\onslide<4->Uczenie prostokąta \block

  • <+-> X=2;

  • <+-> C=H= zbiór prostokątów;

  • <+-> Przykład zbioru treningowego

    ((84,184),+), ((70,170),+), ((75,163),-), ((80,180),+), ((81,195),-), ((63,191),-), ((77,187),-), ((68,168),+)

  • <+-> ((79,183,?)

  • Uczenie półosi (lub dyskretyzacji):

    X=;C=H=λ,:α
  • Uczenie hiperpłaszczyzny:

    X=n;H={fw0,w1,,wn:n{0,1}|}

    gdzie fw0,,wnx1,,xn=sgnw0+w1x1++wnxn.

  • Uczenie jednomianów Boolowskich:

    X=0,1n;c:0,1n0,1;

    H=Mn = zbiór jednomianów Boolowskich o n zmiennych.

\block

Błąd rzeczywisty

  • Ω=X,μ – przestrzeń probabilistyczna na X;

  • <+-> Błąd hipotezy hH względem funkcji celu c:

    erΩh,c=erΩch=μXhc

    gdzie Xhc=xX:hxcx.

<+->[Statystyka:] Jeśli przykłady z D są wybrane zgodnie z miarą prawdopodobieństwa μ w sposób niezależny oraz D30, to

  • <+-> erΩcherDch=DXhcD,

  • <+-> z prawdopodobieństwem 1-ε

    erΩc-erDcsε2erDc1-erDcD

9.1.2. Model PAC (probably approximately correct)

\block

Idea modelu PAC (Probably Approximately Correct): Określenie warunków, przy których uczeń (algorytm uczenia się) z ,,dużym prawdopodobieństwem” znajdzie ,,dobrą hipotezę” na podstawie danych D.

\onslide

<2> PAC-owy uczeń Niech \blockL będzie algorytmem uczenia się, jeśli

dla każdych 0<ε,δ<1, istnieje liczba m0=m0ε,δ taka, że dla dowolnego pojęcia cC, dla dowolnego rozkładu Ω na X i dla m>m0 mamy

μmDSm,c:erΩLD<ε>1-δ

Wówczas mówimy w skrócie, że L jest PAC dla klasy C (“prawdopodobnie aproksymacyjnie poprawny”). ε = dopuszczalny poziom błędu; 1-δ = poziom zaufania.

  • H=C={fλ:{0,1}:fλ(x)=1xλ}

  • c=fλ0

  • znaleźć λ0 na podstawie losowo wygenerowanych przykładów D=x1,fλ0x1,,xm,fλ0xm

\onslide

<2->Algorytm: \block

  1. Set λ*:=mini1,,mxi:fλ0xi=1;

  2. LD:=fλ*;

\onslide

<3-> Twierdzenie: Powyższy algorytm jest PAC \block

  • <+-> erΩcfλ*=μλ0,λ*.

  • <+->Niech β0=supβ:μλ0,β<ε.

  • <+-> Wówczas erΩc(fλ*)εxiD:xi[λ0,β0];

  • <+->Stąd

    μmx1,,xm:xiD:xiλ0,β01-εm
    μmDSm,fλ0:erΩfλ*ε1-1-εm
  • <+-> Aby to prawdopodobieństwo było >1-δ, wystarczy przyjąć mm0=1εln1δ

  • Niech Ω będzie rozkładem dyskretnym zdefiniowanym przez μ1=μx1, …, μn=μxn – dla pewnych x1,,xnX – takich, że μ1++μn=1. Niech εmin=miniμi.

  • Jeśli L jest PAC, i jeśli εεmin to warunek erΩcLD<ε jest równoważny z erΩcLD=0. Stąd dla każdego δ, istnieje m0=m0εmin,δ taka, że dla dowolnego cC i Ω

    m>m0μmDSm,t|erΩLD=0>1-δ
  • Wówczas mówimy, że prawdopodobnie L jest dokładnym algorytmem ( jest PEC – probably exactly correct)

9.1.3. Wyuczalność klasy pojęć

  • <+-> Niech D=x1,cx1,,xm,cxm i niech

    Hc(D)={hH:h|D=c|D}

    zbiór hipotez zgodnych z c na próbce D.

  • <+-> Bεc=hH:erΩhε – zbiór ε-złych hipotez

\onslide

<4-> Definicja: Potencjalna wyuczalność Mówimy, że \blockC jest potencjalnie wyuczalna za pomocą H, jeśli dla każdego rozkładu Ω na X i dowolnego pojęcia cC oraz dla dowolnych 0<ε,δ<1 istnieje m0=m0ε,δ takie, że

mm0μmDSm,c:HcDBεc=>1-δ
\onslide

<1-> Algorytm L nazywamy niesprzecznym jeśli LDHcD dla każdego zbioru D.

\block

Twierdzenie W przestrzeni potencjalnie wyuczalnej, każdy wzorowy uczeń (niesprzeczny algorytm) jest PAC-owy.

\onslide

<2->

\block

Twierdzenie (Haussler, 1988) Jeśli C=H i C<, to C jest potencjalnie wyuczalna.

Dowód: Niech hBε (tzn. erΩhε). Wówczas

μmDSm,c:erDh=01-εm
μm{D:Hc(D)Bε}|Bε|(1-ε)m|H|(1-ε)m

Aby H1-εm<δ wystarczy wybrać mm0=1εlnHδ

9.2. Wymiar Vapnika-Chervonenkisa

9.2.1. Wymiar Vapnika Chervonenkisa (ang. VC dimension)

  • <+-> Niech x=x1,,xmXm. Niech

    ΠHx=hx1,,hxm0,1m:hH
  • <+-> ΠHx jest liczbą podziałów zbioru elementów x wyznaczonych przez H. Mamy ΠHx2m.

  • <+-> Gdy ΠHx=2m, mówimy, że H rozbija x.

  • <+-> Niech ΠHm=maxxXmΠHx

  • <+-> Na przykład: W przypadku klasy pojęć ”półosi” postaci α, mamy ΠHm=m+1.

Uwagi:

  • <+-> Jeśli ΠHm=2m, to istnieje pewien zbiór o mocy m taki, że H może definiować każdy jego podzbiór (H rozbija ten zbiór).

  • <+-> Maksymalna wartość m, dla której ΠHm=2m można uważać za siłę wyrażalności przestrzeni H

\onslide

<3-> Definicja: wymiar \blockVCdim Wymiarem Vapnika-Chervonenkisa przestrzeni hipotez H nazywamy liczbę

VCdimH=maxm:ΠHm=2m

gdzie maksimum wynosi jeśli ten zbiór jest nieograniczony.

\columns\column

0.7

  • <+-> H={okręgi … }VC(H)=3

  • <+-> H={prostokąty … }VC(H)=4

  • <+-> H={funkcje progowe … }

    VCH=1 jeśli “+” są zawsze po prawej stronie;

    VCH=2 jeśli “+” mogą być po obu stronach

  • <+-> H={przedziały … }

    VC(H) = 2 jeśli “+” są zawsze w środku

    VC(H) = 3 jeśli w środku mogą być zarówno “+” i “-”

  • <+-> H={ półpłaszczyzny w 2} VC(H)=3

  • <+-> czy istnieje H dla której VCH=?

\column

0.3

\block

Twierdzenie Dla każdej liczby naturalnej n, niech Pn będzie perceptronem o n wejściach rzeczywistych. Wówczas

VCdimPn=n+1

Dowód:

  • VCdimPnn+1: Wynika z Twierdzenia Radona: Dla dowolnego zbioru E zawierającego n+2 punktów w przestrzeni Rn istnieje niepusty podzbiór SE taki, że

    convSconvES
  • VCdim(Pn)n+1: Wystarczy wybrać x=0,e1,,en i pokazać, że każdy jego podzbiór jest definiowany przez jakiś perceptron.

\block

Twierdzenie

  1. Jeśli H< to VCdimHlogH.

  2. <+-> (Lemat Sauer'a) Jeśli VCdimH=d0 i m1, to

    ΠHm1+m1++md=Φd,m
  3. <+-> Wniosek: Φd,memddΠHmemdd

  4. <+-> Jeśli X<, H2X oraz H>1

    X<VCdimH>lnH1+lnX

9.2.2. Podstawowe twierdzenia teorii uczenia się

\block

Twierdzenie: (Warunek konieczny) Jeśli przestrzeń hipotez ma nieskończony wymiar VCdim to nie jest potencjalnie wyuczalna.

\onslide

<2-> Twierdzenie: (fundamentalne) Jeśli przestrzeń hipotez ma skończony wymiar VC, to jest ona potencjalnie wyuczalna. \block

  1. <+-> Definiujemy

    Qmε=DSm,c:HcDBε
  2. <+-> Szukamy górnego ograniczenia fm,ε dla μmQmε, które powinno

    - być niezależne od cC i μ (rozkład).

    - dążyć do 0 przy m

  3. <+-> Twierdzenie Niech H będzie przestrzenią hipotez określonych na X. Dla dowolnych c, μ, ε (ale ustalonych) mamy

    μmQmε<2ΠH2m2-εm/2

    o ile m8/ε.

  4. <+-> Korzystamy z lematu Sauer'a, aby pokazać, że μmQmε<δ dla dostatecznie dużych m.

  • Dla skończonych przestrzeni hipotez H mamy

    mLH,δ,ε1εlnHδ=1εlnH+ln1/δ
  • Twierdzenie Niech VCdimH=d1. Wówczas każdy algorytm niesprzeczny L jest PAC oraz wymagana liczba przykładów dla L wynosi

    mLH,δ,ε4εdlog12ε+log2δ
  • Dolne ograniczenia:

    • mLH,δ,εd1-ε

    • Jeśli δ1/100 i ε1/8, to mLH,δ,ε>d-132ε

    • mLH,δ,ε>1-εεln1δ

\block

1. Wyuczalność Kiedy każdy ,,wzorowy uczeń” będzie PAC-owy?

\block

2. Liczba przykładów Ile przykładów musi mieć uczeń, by się nauczyć?

\onslide

<2-> Skończoność wymiaru \blockVCdim()

  1. <2-> VCdimC=d<C jest wyuczalna;

  2. <3-> Wówczas L1ε,1δ,d<mε,δ<U1ε,1δ,d

\block

3. Ocena ucznia

Rα=minαAQΩchαdμ

na podstawie N losowych przykładów

RαN=minαiD1NNi=1Qchαi

Kiedy i jak szybko RαNRα?

\block

Skończoność wymiaru VCdim()

  1. <2->[3] Dla algorytmów typu ERM, RαNRα szybko.

9.2.3. Appendix: ,,Nie ma nic za darmo” czyli “Non Free Lunch Theorem”

  • Znaleźć optimum nieznanej funkcji f:SW (fF), gdzie S,W są skończonymi zbiorami.

  • Działanie algorytmu przeszukiwania A dla funkcji f jest identyfikowany z wektorem:

    VAf,t=s1,fs1,s2,fs2,,st,fst
  • Ocena algorytmu: M:VAf,t|A,f,tR;

    Np. MVAf,t=mini|fsi=fmax

  • Warunek NFL: Dla dowolnej funkcji M, i dla dowolnych algorytmów A,A

    fFMVAf,S=fFMVAf,S
  • F jest zamknięta wzg. permutacji: dla dowolnej funkcji fF i dowolnej permutacji σPermS mamy σfF

\block

Twierdzenie o NFL

  • zachodzi równoważność

    NFLF jest zamknięta wzg. permutacji
  • Prawdopodobieństwo wylosowania niepustej klasy funkcji zamkniętej wzg. permutacji wynosi:

    2S+W-1S-12SW-1
  • Algorytm L dobrze się uczy pojęcia c jeśli erΩc jest mały.

  • Niech PX=c:X0,1.

    Czy można stwierdzić wiedzieć, że L1 uczy się wszystkich pojęć z PX lepiej od L2?

  • ”No Free Lunch theorem” (Wolpert, Schaffer) w wersji problemów uczenia się głosi, że:

    • Żaden algorytm nie może być najlepszy w uczeniu wszystkich pojęć.

    • Każdy algorytm jest najlepszy dla takiej samej liczby pojęć

    • Ale interesuje nas tylko pewna klasa problemów czyli klasa pojęć CPX

    • Wniosek: Należy znaleźć odp. algorytm do każdego problemu.

Treść automatycznie generowana z plików źródłowych LaTeXa za pomocą oprogramowania wykorzystującego LaTeXML.

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu Społecznego.

Projekt współfinansowany przez Ministerstwo Nauki i Szkolnictwa Wyższego i przez Uniwersytet Warszawski.