Zagadnienia

14. Markowowskie Monte Carlo V. Elementarna teoria łańcuchów Markowa

14.1. Podstawowe określenia i oznaczenia

W tym rozdziale rozważamy jednorodny łańcuch Markowa X0,X1,,Xn, na skończonej przestrzeni stanów X=1,,d. Będziemy posługiwać się wygodną i zwięzłą notacją wektorowo-macierzową. Macierz przejścia o wymiarach d×d oznaczamy P=Px,yx,yX. Rozkład początkowy utożsamiamy z wektorem wierszowym ξ=ξ1,,ξx,,ξd. W dalszym ciągu, mówiąc o łańcuchu Markowa, będziemy mieli na myśli ustaloną macierz przejścia P i dowolnie wybrany rozkład początkowy ξ. Przyjmujemy oznaczenie Pξ(). W szczególności, Px()=P(|X0=x), dla xX. Analogicznie będziemy oznaczali wartość oczekiwaną: Eξ lub Ex. Zauważmy, że P(Xn+2=y|Xn=x)=zP(x,z)P(z,y)=P2(x,y). Ogólniej, macierz przejścia w m krokach jest m-tą potęgą macierzy P:

P(Xn+m=y|Xn=x)=Pm(x,y).

Rozkład brzegowy zmiennej losowej Xn jest wektorem ξPn:

PXn=x=ξPnx.

Z macierzą stochastyczną P związany jest graf skierowany opisujący możliwe przejścia łańcucha. Jest to graf X,E, gdzie zbiorem wierzchołków jest przestrzeń stanów, zaś EX×X jest zbiorem takich par x,y, że Px,y>0. Pojęcia, o których teraz będziemy mówić, są związane tylko ze strukturą grafu, czyli z położeniem niezerowych elementów macierzy przejścia.

Mówimy, że stan y jest osiągalny ze stanu x, jeśli x=y lub istnieje liczba naturalna n1 i ciąg stanów x=x0,x1,x2,,xn-1,xn=y taki, że Pxi-1,xi>0 dla i=1,,n. Równoważnie, Pnx,y>0 dla pewnego n0. Będziemy stosowali oznaczenie ,,xy”.

Stany x i y komunikują się, co zapiszemy ,,xy”, jeśli xy i yx.

Stan x jest istotny, jeśli dla każdego y takiego, że xy mamy yx. W przeciwnym razie stan x nazywamy nieistotnym. Stan x jest więc nieistotny, jeśli istnieje stan y do którego można przejść z x, ale nie można wrócić do x. Zbiór stanów istotnych oznaczymy przez C, zaś zbiór stanów nieistotnych przez T. Zbiór C jest (dla łańcucha o skończonej przestrzeni stanów) zawsze niepusty. Zbiór T może być pusty.

Jeśli xy dla dowolnych x,yX, czyli wszystkie stany komunikują się, to łańcuch nazywamy nieprzywiedlnym. Oczywiście, wszystkie stany łańcucha nieprzywiedlnego są istotne, X=C. Łańcuch nieprzywiedlny nazywamy nieokresowym, jeśli dla dowolnych x,yX istnieje n0 takie, że dla każdego nn0 mamy Pnx,y. Wspomnijmy, że przyjęta przez nas definicja nieokresowości bywa formułowana w nieco inny, ale równoważny sposób. Dla naszych potrzeb wystarczy następujące proste spostrzeżenie: jeśli łańcuch jest nieprzywiedlny i Px,x>0 dla przynajmniej jednego stanu x, to łańcuch jest nieokresowy. Łatwo zauważyć, że dla łańcucha nieprzywiedlnego i nieokresowego, dla dostatecznie dużych n macierz Pn ma wszystkie elementy niezerowe. Wynika to z faktu, że rozważamy łańcuchy ze skończoną przestrzenią stanów.

Jeśli xy dla dowolnych x,yC, czyli wszystkie stany istotne komunikują się, to łańcuch nazywamy jednoklasowym. Łańcuch jednoklasowy może mieć niepusty zbiór stanów nieistotnych T. Łańcuch jednoklasowy możemy ,,przerobić” na nieprzywiedlny jeśli ograniczymy przestrzeń do stanów istotnych. Macierz P|C=Px,yx,yC jest, jak łatwo widzieć, stochastyczna.

Interesują nas głównie łańcuchy, które ,,zmierzają w kierunku położenia równowagi”. Aby uściślić co to znaczy ,,równowaga”, przypomnijmy pojęcie stacjonarności. Rozkład π jest stacjonarny jeśli dla każdego stanu y,

πy=xπxPx,y.

W notacji macierzowej: π=πP. Stąd oczywiście wynika, że π=πPn.

Poniższy prosty fakt można uzasadnić na wiele sposobów. W następnym podrozdziale przytoczymy, wraz z dowodem, piękne twierdzenie Kaca (Twierdzenie 14.2), które implikuje Twierdzenie 14.1.

Twierdzenie 14.1

Jeśli łańcuch Markowa jest nieprzywiedlny, to istnieje dokładnie jeden rozkład stacjonarny π, przy tym πx>0 dla każdego xX.

Z Twierdzenia 14.1 łatwo wynika następujący wniosek.

Wniosek 14.1

Jeśli łańcuch Markowa jest jednoklasowy, to istnieje dokładnie jeden rozkład stacjonarny π, przy tym πx>0 dla każdego xC, czyli dla wszystkich stanów istotnych oraz πx=0 dla każdego xT, czyli dla stanów nieistotnych.

Uwaga 14.1

Podkreślmy stale obowiązujące w tym rozdziale założenie, że przestrzeń stanów jest skończona. To założenie jest istotne w Twierdzeniu 14.1 i to samo dotyczy dalszych rozważań. Istnieją co prawda odpowiedniki sformułowanych tu twierdzeń dla przypadku ogólnej przestrzeni stanów (nieskończonej, a nawet ,,ciągłej” takiej jak Rd) ale wymagają one dodatkowych, niełatwych do sprawdzenia założeń. Przystępny i bardzo elegancki wykład teorii łańcuchów Markowa na ogólnej przestrzeni stanów można znaleźć w pracy Nummelina [17]. Przeglądowy artykuł Robertsa i Rosenthala [20] zawiera dużo dodatkowych informacji na ten temat. Obie cytowane prace koncentrują się na tych własnościach łańcuchów, które są istotne z punktu widzenia algorytmów Monte Carlo. Z kolei piękna książka Brémaud [4] ogranicza się do przestrzeni dyskretnych (skończonych lub przeliczalnych).

14.2. Regeneracja

Przedstawimy w tym podrozdziale konstrukcję, która prowadzi do łatwch i eleganckich dowodów twierdzeń granicznych. Podstawowa idea jest następująca. Wyróżnia się jeden ustalony stan, powiedzmy zX. W każdym momencie wpadnięcia w z, następuje ,,odnowienie” i dalsza ewolucja łańcucha jest niezależna od przeszłości.

Niech, dla zX,

Tz=minn>0:Xn=z. (14.1)

Przyjmujemy przy tym naturalną konwencję: Tz=, jeśli Xnz dla każdego n1. Zmienna losowa Tz jest więc czasem pierwszego dojścia do stanu z. Jeśli założymy, że łańcuch startuje z punktu z, to Tz jest czasem pierwszego powrotu.

Lemat 14.1

Jeżeli łańcuch jest nieprzywiedlny, to istnieją stałe c i γ<1 takie, że dla dowolnego rozkładu początkowego ξ,

PξTz>ncγn.
Dowód

Dla uproszczenia przyjmijmy dodatkowe założenie, że łańcuch jest nieokresowy. Wtedy dla dostatecznie dużych k wszystkie elementy macierzy Pk są niezerowe. Ustalmy k i znajdźmy liczbę δ>0 taką, że Pkx,zδ dla wszystkich x (jest to możliwe, bo łańcuch ma skończoną liczbę stanów). Dla dowolnego n, dobierzmy takie m, że mkn<m+1k. Mamy wówczas

Pξ(Ty>n)Pξ(Ty>mk)Pξ(X0z,Xkz,,Xmkz)=x0z,x1z,,xmzξ(x0)Pk(x0,x1)Pk(xm-1,xm)(1-δ)mcγn,

dla γ=1-δ1/k i c=1-δ-1.

W przypadku łańcucha okresowego dowód nieco się komplikuje i, choć nie jest trudny, zostanie pominięty.

Wniosek 14.2

Dla łańcucha nieprzywiedlnego mamy PξTz<=1, co więcej EξTz<, co więcej EξTzk< dla dowolnego k, a nawet EξexpλTz< przynajmniej dla pewnych dostatecznie małych wartości λ>0 (w istocie dla λ<-logγ).

Podamy teraz bardzo ciekawą interpretację rozkładu stacjonarnego, wykazując przy okazji jego istnienie (Twierdzenie 14.1). Ustalmy dowolnie wybrany stan z. Udowodnimy, że średni czas, spędzony przez łańcuch w stanie y pomiędzy wyjściem z z i pierwszym powrotem do z jest proporcjonalny do πy, prawdopodobieństwa stacjonarnego.

Twierdzenie 14.2 (Kaca)

Załóżmy, że łańcuch jest nieprzywiedlny. Ustalmy zX i zdefiniujmy miarę α wzorem

αy=Ezi=0Tz-1IXi=y=Ezi=1TzIXi=y.

Wtedy:

(i) Miara α jest stacjonarna, czyli αP=α.

(ii) Miara α jest skończona, αX=EzTz=m<.

(iii) Unormowana miara α/m=π jest jedynym rozkładem stacjonarnym.

Dowód

Dla uproszczenia będziemy pisali Tz=T, Pz=P i Ez=E. Zauważmy, że

α(x)=Ei=0T-1I(Xi=x)=Ei=0I(Xi=x,T>i)=i=0P(Xi=x,T>i).

Udowodnimy teraz (i). Jeśli yz, to

xα(x)P(x,y)=xi=0P(Xi=x,T>i)P(x,y)=i=0xP(Xi=x,T>i)P(x,y)=i=0P(Xi+1=y,T>i+1)=i=1P(Xi=y,T>i)=α(y),

ponieważ PX0=y=0, bo PX0=z=1. Dla y=z mamy z kolei

xα(x)P(x,z)=xi=0P(Xi=x,T>i)P(x,z)=i=0xP(Xi=x,T>i)P(x,z)=i=0P(Xi+1=z,T=i+1)=i=1P(T=i)=1=α(z),

co kończy dowód (i).

Część (ii) jest łatwa. Równość

αX=yαy=ET

wynika wprost z definicji miary α. Fakt, że m=ET< jest wnioskiem z Lematu 14.1.

Punkt (iii): istnienie rozkładu stacjonarnego

πy=αym.

jest natychmiastowym wnioskiem z (i) i (ii). Jednoznaczność rozkładu stacjonarnego dla jest nietrudna do bezpośredniego udowodnienia. Pozostawiamy to jako ćwiczenie. W najbardziej interesującym nas przypadku łańcucha nieokresowego, jednoznaczność wyniknie też ze Słabego Twierdzenia Ergodycznego, które udowodnimy w następnym podrozdziale.

Odnotujmy ważny wniosek wynikający z powyższego twierdzenia:

πz=1EzTz.

Zjawisko odnowienia, czyli regeneracji pozwala sprowadzić badanie łańcuchów Markowa do rozpatrywania niezależnych zmiennych losowych, a więc do bardzo prostej i dobrze znanej sytuacji. Aby wyjaśnić to bliżej, zauważmy następującą oczywistą równość. Na mocy własności Markowa i jednorodności,

P(Xn+1=x1,,Xn+k=xk|Tz=n)P(Xn+1=x1,,Xn+k=xk|Xn=z)=Pz(X1=x1,,Xk=xk).

Zatem warunkowo, dla Tz=n, łańcuch ,,regeneruje się w momencie n” i zaczyna się zachowywać dokładnie tak, jak łańcuch który wystartował z punktu z w chwili 0. Niezależnie od przeszłości! Ponieważ z jest ustalone, będziemy odtąd pomijali górny indeks przy T=Tz. Zdefiniujmy kolejne momenty odnowienia, czyli czasy odwiedzin stanu z:

T=T1=minn>0:Xn=z,Tk=minn>Tk-1:Xn=z.

Momenty 0<T1<<Tk< dzielą trajektorię łańcucha na następujące ,,losowe wycieczki”, czyli losowej długości ciągi zmiennych losowych:

X0,,XT1-1T1, XT1,,XT2-1T2-T1, XT2,,XT3-1T3-T2,
XT1=z XT2=z

Wycieczka zaczyna się w punkcie z i kończy tuż przed powrotem do z. Oznaczmy k-tą wycieczkę symbolem Ξk:

Ξ=Ξ1=X0,,XT-1,T,Ξk=XTk-1,,XTk-1,Tk-Tk-1

Z tego, co powiedzieliśmy wcześniej wynika, że wszystkie ,,wycieczki” są niezależne. Co więcej wycieczki Ξk mają ten sam rozkład, z wyjątkiem być może początkowej, czyli Ξ1. Jeśli rozkład początkowy jest skupiony w punkcie z, to również wycieczka Ξ1 ma ten sam rozkład (0 jest wtedy momentem odnowienia).

Podejście regeneracyjne, czyli rozbicie łańcucha na niezależne wycieczki prowadzi do ładnych i łatwych dowodów PWL i CTG dla łańcuchów Markowa. Sformułujemy najpierw pewną wersję Mocnego Prawa Wielkich Liczb. Rozważmy funkcję f o wartościach rzeczywistych, określoną na przestrzeni stanów. Przypomnijmy, że Eπf=xXπxfx.

Twierdzenie 14.3 (Mocne Twierdzenie Ergodyczne)

Jeśli Xn jest nieprzywiedlnym łańcuchem Markowa, to dla dowolnego rozkładu początkowego ξ i każdej funkcji f:XR,

1ni=0n-1fXnEπfn

z prawdopodobieństwem 1.

Dowód

Zdefiniujmy sumy blokowe:

Ξ0f=i=0T-1fXi,Ξkf=i=TkTk+1-1fXi.

Niech Nn=maxk:Tkn, czyli TNn jest ostatnią regeneracją przed momentem n:

0,,T1-1, T1,, TNn,,n,,TNn+1-1, TNn+1,
    
X=z X=z   X=z

Oczywiście,

TNnn<TNn+1. (14.2)

Wiemy, że EzT=m<. Ponieważ Tk jest sumą k niezależnych zmiennych losowych (długości wycieczek) to wnioskujemy, ze Tk/km z prawdopodobieństwem 1, na mocy zwykłego Prawa Wielkich Liczb. Rzecz jasna, tak samo Tk+1/km. Podzielmy nierówność (14.2) stronami przez Nn i przejdźmy do granicy (korzystając z tego, że Nn prawie na pewno). Twierdzenie o trzech ciągach pozwala wywnioskować, że

Nnn1mp.n.

Załóżmy teraz, że f0 i powtórzmy bardzo podobne rozumowanie dla sum

j=1NnΞjfSnf=i=0n-1fXij=1Nn+1Ξjf. (14.3)

Po lewej i po prawej stronie mamy sumy niezależnych składników Ξjf. Korzystamy z PWL dla niezależnych zmiennych, dzielimy (14.3) stronami przez Nn i przejchodzimy do granicy. Otrzymujemy

SnfNnEzΞfp.n.

a więc

SnfnEzΞfm=1mxαxfx=xπxfxp.n.

Ostatnia równość wynika z Twierdzenia Kaca. Przypomnijmy, że αx jest ,,średnim czasem spędzonym w stanie x” podczas pojedynczej wycieczki.

Jeśli funkcja f nie jest nieujemna, to możemy zastosować rozkład f=f+-f- i wykorzystać już udowodniony wynik.

Na podobnej idei oparty jest ,,regeneracyjny” dowód Centralnego Twierdzenia Granicznego (istnieją też zupełnie inne dowody).

Twierdzenie 14.4 (Centralne Twierdzenie Graniczne)

Jeśli Xn jest łańcuchem nieprzywiedlnym, to dla dowolnego rozkładu początkowego ξ i każdej funkcji f:XR,

1n(i=0n-1[f(Xi)-Eπf])dN(0,σas2(f)),(n).

Ponadto, dla dowolnego rozkładu początkowego ξ zachodzi wzór (10.4), czyli 1/nVarξi=0n-1fXi σas2f przy n.

Szkic dowodu

Trochę więcej jest tu technicznych zawiłości niż w dowodzie PWL, wobec tego zdecydowałem się pominąć szczegóły. W istocie, przedstawię tylko bardzo pobieżnie główną ideę. Bez straty ogólności załóżmy, że πf=0. Tak jak w dowodzie PWL, sumę Snf=i=0n-1fXi przybliżamy sumą niezależnych składników, które odpowiadają całkowitym wycieczkom: SnfSTNnf=j=1NnΞjf. Ze zwykłego CTG dla niezależnych zmiennych o jednakowym rozkładzie otrzymujemy

1kj=1kΞj(f)dN(0,VarzΞ(f)).

Jeśli ,,podstawimy” w miejsce k zmienną losową Nn i wykorzystamy fakt, że Nnn/m (PWL gwarantuje, że Nn/n1/m), to nie powinien dziwić następujący wniosek:

1nSn(f)dN(0,VarzΞ(f)/m).

W ten sposób ,,otrzymujemy” tezę.

Przytoczony powyżej rozumowanie daje ciekawe przedstawienie asymptotycznej wariancji:

σas2f=VarzΞf/EzT. (14.4)

Istnieje wiele wyrażeń na asymptotyczną wariancję, przy tym różne wzory wymagają różnych założeń. Najbardziej znany jest wzór (10.5). Sformułujemy w jawny sposób potrzebne założenia, i przepiszemy ten wzór w postaci macierzowej. Najpierw musimy wprowadzić jeszcze parę nowych oznaczeń. Wygodnie będzie utożsamić funkcję f z wektorem kolumnowym

f=f1fd.

Niech

Π=diagπ1,,πd,

gdzie π oznacza, jak zwykle, rozkład stacjonarny. Możemy teraz napisać

EπfX0=xπxfx=πf

oraz

VarπfX0=Eπf2X0-EπfX02=fΠf-fTππTf=fΠI-1πf.

Podobnie,

CovπfX0,fXn=EπfX0fXm-EπfX02=fΠPnf-fππf=fΠPn-1πf.

W powyższym wzorze, I jest macierzą identycznościową, 1 oznacza kolumnę jedynek. Łatwo sprawdzić, że Pn-1π=P-1πn dla n>0 (ale nie dla n=0). Jeśli P jest macierzą przejścia nieprzywiedlnego i nieokresowego łańcucha Markowa, to Pn-1π0 przy n na mocy Słabego Twierdzenia Ergodycznego. Stąd wynika zbieżność następujących szeregów:

A=n=0Pn-1π,Z=n=0P-1πn=I-P+1π-1.

Macierz Z nazywamy macierzą fundamentalną. Ponieważ P0-1π=I-1π zaś P-1π0=I więc Z=A+1π.

Stwierdzenie 14.1 (Asymptotyczna wariancja)

Jeśli łańcuch jest nieprzywiedlny i nieokresowy, to zachodzi wzór (10.5), czyli

σas2f=σ2fn=-ρnf,

gdzie σ2f=VarπfX0 i ρnf=corrπfX0,fXn, W postaci macierzowej asymptotyczna wariancja wyraża się następująco

σas2f=f2ΠZ-ππ-Πf=f2ΠA+ππ-Πf.
Szkic dowodu

Załóżmy, że rozkładem początkowym jest π i skorzystamy ze stacjonarności łańcucha:

1nVarπi=0n-1fXi=1ni=0n-1VarπXi+2ni=0n-1j=in-1CovπfXi,fXj=VarπfX0+2k=1n-1n-knCovπfX0,fXkVarπfX0+2k=1CovπfX0,fXk,n.

Poprawność przejścia do granicy w ostatniej linijce wynika z elementarnego faktu, że dla dowolnego ciągu liczbowego an mamy limnk=1n-1n-knak=k=1ak, o ile szereg po prawej stronie równości jest zbieżny. To zaś, przy założeniu nieprzywiedlności i nieokresowości, wynika ze STE (skorzystaliśmy już z tego faktu uzasadniając poprawność definicji Z i A).

Pokazaliśmy w ten sposób, że 1/nVarπi=0n-1fXi zmierza do granicy, która jest równa prawej stronie wzoru (10.5). Pominiemy uzasadnienie, że można zastąpić rozkład stacjonarny π przez dowolny rozkład początkowy ξ oraz że wzór (10.5) definiuje tę samą wielkość co (14.4).

Macierzowe wyrażenia σas2f wynikają ze wzorów na kowariancje oraz z określenia macierzy A i Z.

Zauważmy, że ani CTG ani PWL nie wymagały założenia o nieokresowości ale w 14.1 to założenie jest potrzebne.

Jak widać, asymptotyczna wariancja wyraża się w postaci formy kwadratowej σas2f=fCf o współczynnikach

Cx,y=πxAx,y+Ay,xπy+πxπy-πxIx=y,=πxZx,y+Zy,xπy-πxπy-πxIx=y.

Okazuje się, że ,,asymptotyczne obiążenie” estymatora θn=1/ni=0n-1fXi wartości oczekiwanej θ=Eπf można napisać w postaci formy dwuliniowej ξAf, gdzie ξ jest rozkładem początkowym. Podsumowując,

Varξθn=1nfCf+o1n,Eξθn-θf=1nξAf+o1n.

Uzasadnienie drugiej części powyższego wzoru pozostawiam jako ćwiczenie. Stąd z łatwością otrzymujemy ważny wzór (10.6) z Rozdziału 10 (wyrażenie na błąd średniokwadratowy).

14.3. Łańcuchy sprzężone i zbieżność rozkładów

Dowód Słabego Twierdzenia Ergodycznego, który przedstawimy, opiera się na tak zwanym sprzęganiu (ang. coupling), czyli metodzie ,,dwóch cząstek”. Ta metoda, jak się okaże, nie tylko pozwala udowodnić zbieżność rozkładów prawdopodobieństwa, ale daje w wielu przypadkach bardzo dobre oszacowania szybkości zbieżności.

14.3.1. Odległość pełnego wahania

Najpierw zajmiemy się określeniem odległości między rozkładami. Dla naszych celów najbardziej przydatna będzie następująca metryka. Niech ν i λ będą dwoma rozkładami prawdopodobieństwa na skończonej przestrzeni X. Odległość pełnego wahania pomiędzy ν i λ określamy wzorem

ν-λtv=maxAXνA-λA. (14.5)

Jak zwykle, możemy utożsamić rozkład prawdopodobieństwa na X z funkcją, przypisującą prawdopodobieństwa pojedynczym punktom xX. Zauważmy, że

ν-λtv=12xXνx-λx. (14.6)

Istotnie, ponieważ rozpatrujemy dwie miary probabilistyczne, dla których νX=λX=1, więc ν-λ=νB-λB dla B=x:νx>λx. Ale xBνx-λx=xXBλx-νx=12xXνx-λx.

Dla zmiennej losowej X:ΩX napis Xν będzie oznaczał fakt, że X ma rozkład prawdopodobieństwa ν, czyli PX=x=νx,

Lemat 14.2

Jeżeli X,Y:ΩX są dwiema zmiennymi losowymi określonymi na tej samej przestrzeni probabilistycznej i Xν i Yλ, to

ν-λtvPXY.
Dowód

Niech d=PXY. Dla dowolnego AX mamy

ν(A)=P(XA)P(YA)+P(XY)=λ(A)+d.

Symetrycznie, νAλA+d. Zatem ν-λtvd.

Interesujące jest, że Lemat 14.2 daje się, w pewnym sensie, odwrócić. Co prawda, to nie będzie potrzebne w dowodzie Słabego Twioerdzenia Ergodycznego, ale później okaże się bardzo pomocne.

Lemat 14.3

Jeżeli ν i λ są rozkładami prawdopodobieństwa na X, to istnieją zmienne losowe X i Y określone na tej samej przestrzeni probabilistycznej, takie, że Xν i Yλ i

ν-λtv=PXY.
Dowód

Niech ν-λtv=d. Bez straty ogólności możemy przyjąć, że X i Y są zmiennymi losowymi określonymi na przestrzeni probabilistycznej Ω=X×X. Należy podać łączny rozkład zmiennych losowych X i Y, czyli miarę probabilistyczną χ na X×X taką, że yχx,y=νx, xχx,y=λy i xχx,x=1-d.

Niech

χx,x=minνx,λx=νxdla xA;λxdla xB,

gdzie A=x:νxλx i B=x:νx>λx.

Mamy oczywiście d=1-xχx,x i jest jasne, że tabelka łącznego rozkładu χx,y=PX=x,Y=y musi być postaci macierzy blokowej

xA{DA0xB{GDByAyB,

gdzie DA i DB są macierzami diagonalnymi. Pozostaje tylko odpowiednio ,,rozmieścić pozostałą masę prawdopodobieństwa” d w macierzy G. Możemy na przykład przyjąć, dla xB i yA,

χx,y=1dνx-λxλy-νy.

Mamy wtedy yAχx,y=νx-λx, więc yχx,y=νx dla xB i podobnie xχx,y=λx dla yA. Określony przez nas rozkład łączny χ ma więc masę 1-d na przekątnej i żądane rozkłady brzegowe.

14.3.2. Sprzęganie

Rozważmy ,,podwójny” łańcuch Markowa Xn,Xn na przestrzeni stanów X×X. Przypuśćmy, że każda z dwóch ,,współrzędnych”, oddzielnie rozpatrywana, jest łańcuchem o macierzy przejścia P. Mówiąc dokładniej, zakładamy, że

P(Xn+1=y,Xn+1=y|Xn=x,Xn=x,Xn-1,Xn-1,,X0,X0)=P¯((x,x),(y,y)),

gdzie macierz przejścia P¯ podwójnego łańcucha spełnia następujące warunki:

yP¯x,x,y,y=Px,ydla każdego xyP¯x,x,y,y=Px,ydla każdego x. (14.7)

Widać, że X0,X1,,Xn, jest łańcuchem Markowa z prawdopodobieństwami przejścia P i to samo można powiedzieć o X0,X1,,Xn,. Załóżmy ponadto, że od momentu, gdy oba łańcuchy się spotkają, dalej ,,poruszają się” już razem. Innymi słowy,

P¯x,x,y,y=Px,yjeśli y=y,0jeśli yy.

Nazwiemy konstrukcję takiej pary sprzęganiem łańcuchów (bardziej znany jest angielski termin coupling).

Oznaczmy przez T moment spotkania się łańcuchów:

T=minn>0:Xn=Xn. (14.8)

Podstawową rolę odgrywa następujące spostrzeżenie:

P(Xn)-P(Xn)tvP(XnXn)=P(T>n). (14.9)

Jeśli teraz łańcuch Xn ,,wystartuje” z rozkładu stacjonarnego, czyli X0π to Xnπ dla każdego n i otrzymujemy

P(Xn)-π()tvP(T>n). (14.10)

Aby udowodnić zbieżność P(Xn)π() wystarczy skonstruować parę łańcuchów sprzężonych, które się spotkają z prawdopodobieństwem 1: PT<=1. Możemy teraz udowodnić (10.1), przynajmniej dla łańcuchów na skończonej przestrzeni stanów.

Twierdzenie 14.5 (Słabe Twierdzenie Ergodyczne)

Jeśli łańcuch Markowa na skończonej przestrzeni stanów jest nieprzywiedlny i nieokresowy, to

P(Xn)-π()tv0. (14.11)
Dowód

Rozważmy parę łańcuchów sprzężonych, które poruszają się niezależnie aż do momentu spotkania.

P¯x,x,y,y=Px,yPx,yjeśli xx,Px,yjeśli x=x i y=y,0jeśli x=x i  yy. (14.12)

Żeby pokazać, że PT<=1 wystarczy zauważyć, że do przed momentem spotkania, łańcuch podwójny ewoluuje zgodnie z prawdopodobieństwami przejścia

P~x,x,y,y=Px,yPx,y. (14.13)

Łańcuch odpowiadający P~ jest nieprzywiedlny. Istotnie, możemy znaleźć takie n0, że dla nn0 wszystkie elementy macierzy Pn są niezerowe. Stąd Pnx,x,y,y=Pnx,yPnx,y>0 dla dowolnych x,x,y,y. Wystarczy teraz powołać się na Wniosek 14.2: podwójny łańcuch z prawdopodobieństwem 1 prędzej czy później dojdzie do każdego punktu przestrzeni X×X, a zatem musi dojść do ,,przekątnej” x,x:xX.

Uwaga 14.2

W dowodzie Twierdzenia 14.5 wykorzystaliśmy w istotny sposób nieokresowość macierzy przejścia P (dla pojedynczego łańcucha), choć to mogło nie być wyraźnie widoczne. Jeśli P jest nieprzywiedlna ale okresowa, wtedy P~ jest nieprzywiedlna. Na przykład, niech X=0,1 i

P=0110.

Wtedy, oczywiście, P~n0,0,0,1=0 bo Pn0,0=0 dla nieparzystych n zaś Pn0,1=0 dla parzystych n.

Ten sam trywialny przykład pokazuje, że dla łańcuchów okresowych teza Słabego Twierdzenia Ergodycznego nie jest prawdziwa.

W istocie, przytoczony przez nas dowód Twierdzenia 14.5 daje nieco więcej, niż tylko zbieżność rozkładów. Z Wniosku 14.2 wynika, że

P(Xn)-π()tvcγn (14.14)

dla pewnych stałych c< i γ<1. Dla naszych celów takie ogólnikowe stwierdzenie nie jest wystarczające. Skupimy się na przykładach łańcuchów używanych w algorytmach MCMC, dla których znajdziemy jawne oszacowania, z konkretnymi stałymi. Zobaczymy, że użycie niezależnych kopii łańcucha w dowodzie Twierdzenia 14.5, wzór (14.12) jest konstrukcją dalece nieoptymalną. W wielu przykładach istnieją łańcuchy sprzężone znacznie szybciej ,,zmierzające do spotkania”.

Przykład 14.1 (Błądzenie po kostce)

Niech X=0,1n i π=UX, czyli πx=1/2n dla każdego x. Rozważmy łańcuch Markowa Xn, którego krok polega na wylosowaniu jednej, losowo wybranej współrzędnej z rozkładu 1/2,1/2 na zbiorze 0,1 i pozostawieniu pozostałych współrzędnych bez zmian. Formalnie,

Px,y=12di=1dIx-i=y-i.

Jest to zatem ,,losowe błądzenie” wzdłuż krawędzi n-wymiarowej kostki lub inaczej próbnik Gibbsa. Rzecz jasna, dokładne genrowanie z rozkładu jednostajnego na kostce jest łatwe i nie ptrzebujemy do tego łańcuchów Markowa, ale nie o to teraz chodzi. Chcemy zilustrować jak metoda sprzęgania pozwala oszacować szybkość zbieżności łańcucha na możliwie prostym przykładzie. Skonstruujmy parę łańcuchów sprzężonych w taki sposób: wybieramy współrzędną i oraz losujemy jej nową wartość z rozkładu 1/2,1/2 po czym zmieniamy w ten sam sposób obie kopie. Formalnie,

P¯x,x,y,y=12di=1dIx-i=y-i,x-i=y-i,yi=yi.

Jest jasne, że to jest poprawny coupling (sprzęganie), to znaczy spełnione są równania (14.12). Spotkanie obu kopii nastąpi najpóźniej w momencie gdy każda ze współrzędnych zostanie wybrana przynajmniej raz. Zatem

PT>n1-1dn.

Nie trudno wyobrazić sobie, że dla niezależnego couplingu określonego wzorem (14.12), czasu oczekiwania na spotkanie obu kopii jest na ogół dużo, dużo dłuższy.

Treść automatycznie generowana z plików źródłowych LaTeXa za pomocą oprogramowania wykorzystującego LaTeXML.

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu Społecznego.

Projekt współfinansowany przez Ministerstwo Nauki i Szkolnictwa Wyższego i przez Uniwersytet Warszawski.