W tym rozdziale zajmiemy się problemem oszacowania błędu markowowskich algorytmów Monte Carlo. W odróżnieniu od wstępnych rozważań w Rozdziale 10, będą nas interesowały ścisłe nierówności, a nie oceny oparte na twierdzeniach granicznych. Skupimy się na rozkładzie spektralnym macierzy przejścia. Jest to najbardziej znana i zapewne najskuteczniejsza metoda otrzymywania dobrych oszacowań, przynajmniej dla łańcuchów odwracalnych na przestrzeni skończonej.
Rozważmy łańcuch nieprzywiedlny i odwracalny z macierzą przejścia i rozkładem stacjonarnym . Zakładamy więc, że dla dowolnych spełniona jest zależność
Niech
Warunek odwracalności możemy zapisać w postaci . Wyposażmy przestrzeń w iloczyn skalarny
gdzie traktujemy jak wektory kolumnowe. Oczywiście, norma funkcji jest zdefiniowana wzorem . Macierz traktujemy jako operator działający z lewej strony na funkcje, z prawej strony na rozkłady prawdopodobieństwa. Zgodnie z regułami mnożenia macierzy i wektorów, wzory na i są następujące:
Odwracalność implikuje
Znaczy to, że jest macierzą operatora samosprzężonego względem iloczynu skalarnego . W skrócie powiemy, że jest -samosprzężona. Wartości własne są rzeczywiste i zawarte w przedziale . Uporządkujmy je w kolejności malejącej:
Wiadomo, że jest pojedynczą wartością własną. Jeśli łańcuch jest nieokresowy, to . Niech
Reprezentacja spektralna macierzy jest następująca:
gdzie
lub, równoważnie, . Zauważmy, że kolumny macierzy
są prawostronnymi wektorami własnymi macierzy tworzącymi bazę -ortonormalną. Mamy więc (oczywiście, jest tu wektorem jedynek) oraz
Lewostronne wektory własne (zapisane wierszowo) są postaci : mamy . W szczególności, . Zapiszmy reprezentację spektralną w bardziej jawnej formie:
przy tym
Zauważmy jeszcze, że pierwszy (lub raczej - zerowy) składnik jest macierzą stabilną (o jednakowych wierszach):
Reprezentacja spektralna prowadzi do zgrabnych wyrażeń na potęgi macierzy. Łatwo zauważyć, że , czyli
(15.1) |
Wiemy, że wszystkie wartości własne z wyjątkiem zerowej () oraz, być może, ostatniej () są co do modułu mniejsze niż 1. Jeżeli więc , to wszystkie składniki sumy we wzorze (15.1) z wyjątkiem początkowego zmierzają do zera i w rezultacie
Jest to nic innego jak teza Słabego Twierdzenia Ergodycznego (Twierdzenie 14.5), otrzymana zupełnie inną metodą, przy założeniu odwracalności. Można pokazać, że warunek jest równoważny nieokresowości, i jest konieczny (jeśli to łańcuch ma okres 2).
Następujący lemat będzie podstawą dalszych rozważań i umożliwi ,,przerobienie” STE na jawne wyniki. Zdefiniujmy
Załóżmy, że łańcuch jest nieokresowy, więc . Pokażemy, że operator ograniczony do podprzestrzeni ortogonalnej do funkcji stałych jest zwężający, ze stałą .
Jeżeli to .
Wystarczy zauważyć, że
Korzystamy tu z faktu, że jest samosprzężony, ze wzoru (15.1) i z tego, że .
∎Przejdźmy teraz do jawnych oszacowań szybkości zbieżności w STE. Wyniki zawarte z tym podrozdziale pochodzą z pracy Diaconisa i Strooka [5]. Dla rozkładu prawdopodobieństwa definiujemy ,,odległość” od rozkładu stacjonarnego wzorem
Ta ,,odległość” nie ma własności symetrii, więc nie jest metryką, ale to nie przeszkadza. Istotna jest interpretacja jako ,,odstępstwa od stacjonarności”. Wykorzystamy podejście spektralne, w szczególności Lemat 15.1. Niech .
Jeśli łańcuch odwracalny, nieprzywiedlny i nieokresowy ma rozkład początkowy , to
Zastosujmy Lemat 15.1 do wektora który, jak łatwo zauważyć, jest prostopadły do 1. Otrzymujemy
Dla łańcucha o rozkładzie początkowym skupionym w punkcie ,
Istotnie, mamy jeszcze jedno wyrażenie na ,,odległość” : dla dowolnego rozkładu ,
Wystarczy teraz podstawić , aby otrzymać .
Istnieje prosta nierówność pomiędzy normą pełnego wahania i ,,odległością” :
Wynika to z następującego rachunku:
Stąd natychmiast otrzymujemy wniosek
Rozważmy zadanie obliczania wartości oczekiwanej dla pewnej funkcji . Niech oznacza ,,scentrowaną” funkcję . Natychmiast widać, że i możemy zastosować Lemat 15.1. Stąd już tylko mały krok do oszacowania różnicy między wartością oczekiwaną i wartością stacjonarną .
Jeśli łańcuch jest odwracalny, nieprzywiedlny, nieokresowy i ma rozkład początkowy , to
gdzie jest wariancją stacjonarną funkcji .
Mamy
Rozważmy teraz naturalny estymator
Jest to średnia wzdłuż trajektorii łańcucha, dlugości i ,,opóźniona” o . Idea jest jasna: ignorujemy początkowy odcinek trajektorii długości (tak zwany okres burn-in) aby dać łańcuchowi czas na zbliżenie od rozkładu stacjonarnego. Później obliczmy średnią. W ten sposób redukujemy obciążenie. Precyzuje to następujący wniosek.
Dla dowolnego mamy
Wynika to z nierówności trójkąta i wzoru na sumę szeregu geometrycznego:
Zwróćmy uwagę, że obciążenie maleje w tempie geometrycznym przy ale zachowuje sią zaledwie jak przy ustalonym i (ponieważ początkowe wyrazy sumy mają na obciążenie wpływ dominujący).
Oszacowanie błędu średniokwadratowego (BŚK) estymatora MCMC jest znaczne trudniejsze i subtelniejsze, niż obciążenia.
Zacznijmy od wyprowadzenia kolejnego wzoru na asymptotyczną wariancję. Przypomnijmy, że zgodnie ze Stwierdzeniem 14.1,
gdzie
Skorzystajmy z reprezentacji spektralnej macierzy :
Z definicji macierzy i wzoru (15.1), ponieważ , więc
Wreszcie, ponieważ , więc
Zauważmy teraz, że wektor zawiera współrzędne wektora w bazie ON złożonej z prawych wektorów własnych: . Udowodniliśmy w ten sposób następujący fakt.
Dla łańcucha odwracalnego, wzór na asymptotyczną wariancję przybiera postać
gdzie .
Wynika stąd ważna nierówność.
Dla łańcucha odwracalnego mamy następujące oszacowanie asymptotycznej wariancji:
gdzie jest największą wartością własną mniejszą od 1, a jest wariancją stacjonarną.
Istotnie,
a łatwo widzieć, że . Zwróćmy uwagę, że we Wniosku 15.3 występuje , a nie (największa co do modułu wartość własna mniejsza od 1).
Na zakończenie przytoczę jeszcze kilka sugestywnych wzorów.
Macierz jest nazywana laplasjanem. Zauważmy, że
Ponieważ
uzasadnia to interpretację macierzy jako ,,uogólnionej odwrotności” laplasjanu.
Dorzućmy przy okazji jeszcze jedno wyrażenie na asymptotyczną wariancję:
Jeśli , to i ostatni wzór możemy przepisać w postaci
Wyniki w tym podrozdziale zostały otrzymane przez Aldousa [1]. Pomysł polega na tym, żeby najpierw otrzymać nierówność dla łańcucha stacjonarnego, a potem postarać się o uogólnienie dla łańcucha o dowolnym rozkładzie początkowym. Przypomnijmy oznaczenia , .
Dla dla łańcucha nieprzywiedlnego, odwracalnego i stacjonarnego, można oszacować w następujący sposób:
gdzie , zaś jest największą wartością własną mniejszą od .
Korzystamy ze stacjonarności i z rozkładu spektralnego macierzy .
Zwróćmy uwagę na miejsce, w którym pomijamy składniki odpowiadające ujemnym wartościom własnym. Uzasadnienie jest takie, że dla , , składniki sumy są naprzemian ujemne i dodatnie, o malejących wartościach bezwzględnych. Stąd wynika, że i można tę sumę w nierówności opuścić. Jest to ciekawe zjawisko: ujemne wartości własne pomagają, zmniejszają błąd! Działają podobnie jak zmienne antytetyczne.
∎Niech teraz oznacza błąd średniokwadratowy dla łańcucha startującego z punktu ,
Rozpatrzmy łańcuch o rozkładzie początkowym . Niech
będzie średnią długości obliczany po odrzuceniu początkowych zmiennych.
Dla dla łańcucha nieprzywiedlnego, odwracalnego startującego z dowolnego rozkładu , można oszacować w następujący sposób:
gdzie i .
Nierówność podane przez Aldousa w cytowanej pracy była nieco inna.
Dla dla łańcucha nieprzywiedlnego, odwracalnego startującego z dowolnego rozkładu mamy następujące oszacowanie błędu :
gdzie .
Istotnie, załóżmy, że łańcuch startuje z deterministycznie wybranego punktu , czyli . Jeśli otrzymamy oszacowanie niezależne od , dowód będzie zakończony.
i zastosujmy Stwierdzenie 15.4. Wykorzystaliśmy tu nierówność , która wynika z rozkładu spektralnego:
W powyższym wzorze symbol oznacza wektor , gdzie jedynka stoi na -tym miejscu. Skorzystaliśmy z nierówności Schwarza.
∎Treść automatycznie generowana z plików źródłowych LaTeXa za pomocą oprogramowania wykorzystującego LaTeXML.
strona główna | webmaster | o portalu | pomoc
© Wydział Matematyki, Informatyki i Mechaniki UW, 2009-2010. Niniejsze materiały są udostępnione bezpłatnie na licencji Creative Commons Uznanie autorstwa-Użycie niekomercyjne-Bez utworów zależnych 3.0 Polska.
Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu Społecznego.
Projekt współfinansowany przez Ministerstwo Nauki i Szkolnictwa Wyższego i przez Uniwersytet Warszawski.