W tym rozdziale zajmiemy się problemem oszacowania błędu markowowskich algorytmów Monte Carlo. W odróżnieniu od wstępnych rozważań w Rozdziale 10, będą nas interesowały ścisłe nierówności, a nie oceny oparte na twierdzeniach granicznych. Skupimy się na rozkładzie spektralnym macierzy przejścia. Jest to najbardziej znana i zapewne najskuteczniejsza metoda otrzymywania dobrych oszacowań, przynajmniej dla łańcuchów odwracalnych na przestrzeni skończonej.
Rozważmy łańcuch nieprzywiedlny i odwracalny z macierzą przejścia i
rozkładem stacjonarnym
. Zakładamy więc, że dla dowolnych
spełniona jest zależność
![]() |
Niech
![]() |
Warunek odwracalności możemy zapisać w postaci .
Wyposażmy przestrzeń
w iloczyn skalarny
![]() |
gdzie traktujemy jak wektory kolumnowe. Oczywiście, norma funkcji
jest zdefiniowana
wzorem
. Macierz
traktujemy jako operator działający z lewej strony na
funkcje, z prawej strony na rozkłady prawdopodobieństwa. Zgodnie z regułami mnożenia macierzy i wektorów, wzory na
i
są następujące:
![]() |
Odwracalność implikuje
![]() |
Znaczy to, że jest macierzą operatora samosprzężonego względem
iloczynu skalarnego
. W skrócie powiemy, że
jest
-samosprzężona. Wartości własne
są rzeczywiste i zawarte w przedziale
.
Uporządkujmy je w kolejności malejącej:
![]() |
Wiadomo, że jest pojedynczą wartością własną. Jeśli
łańcuch jest nieokresowy, to
. Niech
![]() |
Reprezentacja spektralna macierzy jest następująca:
![]() |
gdzie
![]() |
lub, równoważnie, . Zauważmy, że kolumny macierzy
![]() |
są prawostronnymi wektorami własnymi macierzy tworzącymi bazę
-ortonormalną. Mamy więc
(oczywiście,
jest tu wektorem jedynek) oraz
![]() |
Lewostronne wektory własne (zapisane wierszowo) są postaci
:
mamy
. W szczególności,
.
Zapiszmy reprezentację spektralną
w bardziej jawnej formie:
![]() |
przy tym
![]() |
Zauważmy jeszcze, że pierwszy (lub raczej - zerowy) składnik jest macierzą stabilną (o jednakowych wierszach):
![]() |
Reprezentacja spektralna prowadzi do zgrabnych wyrażeń na potęgi macierzy. Łatwo zauważyć, że
, czyli
![]() |
(15.1) |
Wiemy, że wszystkie wartości własne z wyjątkiem zerowej (
) oraz, być może, ostatniej
(
) są co do modułu mniejsze niż 1. Jeżeli więc
, to wszystkie
składniki sumy we wzorze (15.1) z wyjątkiem początkowego zmierzają do zera i w rezultacie
![]() |
Jest to nic innego jak teza Słabego Twierdzenia Ergodycznego (Twierdzenie 14.5), otrzymana zupełnie inną metodą,
przy założeniu odwracalności. Można pokazać, że warunek jest równoważny nieokresowości, i jest
konieczny (jeśli
to łańcuch ma okres 2).
Następujący lemat będzie podstawą dalszych rozważań i umożliwi ,,przerobienie” STE na jawne wyniki. Zdefiniujmy
![]() |
Załóżmy, że łańcuch jest nieokresowy, więc . Pokażemy, że operator
ograniczony do podprzestrzeni
ortogonalnej do
funkcji stałych jest zwężający, ze stałą
.
Jeżeli to
.
Wystarczy zauważyć, że
![]() |
Korzystamy tu z faktu, że jest samosprzężony, ze wzoru (15.1) i z tego, że
.
Przejdźmy teraz do jawnych oszacowań szybkości zbieżności w STE.
Wyniki zawarte z tym podrozdziale pochodzą z pracy Diaconisa i Strooka [5].
Dla rozkładu prawdopodobieństwa definiujemy ,,odległość”
od rozkładu stacjonarnego
wzorem
![]() |
Ta ,,odległość” nie ma własności symetrii, więc nie jest metryką, ale to nie przeszkadza. Istotna jest
interpretacja jako ,,odstępstwa od stacjonarności”. Wykorzystamy
podejście spektralne, w szczególności Lemat 15.1. Niech
.
Jeśli łańcuch odwracalny, nieprzywiedlny i nieokresowy ma rozkład początkowy , to
![]() |
Zastosujmy Lemat 15.1 do wektora który, jak łatwo zauważyć, jest prostopadły do 1.
Otrzymujemy
![]() |
Dla łańcucha o rozkładzie początkowym skupionym w punkcie ,
![]() |
Istotnie, mamy jeszcze jedno wyrażenie na ,,odległość” : dla dowolnego rozkładu
,
![]() |
Wystarczy teraz podstawić , aby otrzymać
.
Istnieje prosta nierówność pomiędzy normą pełnego wahania i ,,odległością” :
![]() |
Wynika to z następującego rachunku:
![]() |
Stąd natychmiast otrzymujemy wniosek
![]() |
Rozważmy zadanie obliczania wartości oczekiwanej dla pewnej funkcji
. Niech
oznacza ,,scentrowaną” funkcję
. Natychmiast widać, że
i możemy zastosować
Lemat 15.1. Stąd już tylko mały krok do oszacowania różnicy między
wartością oczekiwaną
i wartością stacjonarną
.
Jeśli łańcuch jest odwracalny, nieprzywiedlny, nieokresowy i ma rozkład początkowy , to
![]() |
gdzie jest wariancją stacjonarną funkcji
.
Mamy
![]() |
Rozważmy teraz naturalny estymator
![]() |
Jest to średnia wzdłuż trajektorii łańcucha, dlugości i ,,opóźniona” o
. Idea jest jasna: ignorujemy początkowy
odcinek trajektorii długości
(tak zwany okres burn-in) aby dać łańcuchowi czas na zbliżenie od rozkładu
stacjonarnego. Później obliczmy średnią. W ten sposób redukujemy obciążenie. Precyzuje to następujący wniosek.
Dla dowolnego mamy
![]() |
Wynika to z nierówności trójkąta i wzoru na sumę szeregu geometrycznego:
![]() |
Zwróćmy uwagę, że obciążenie maleje w tempie geometrycznym przy ale zachowuje sią zaledwie jak
przy ustalonym
i
(ponieważ początkowe wyrazy sumy mają na obciążenie wpływ dominujący).
Oszacowanie błędu średniokwadratowego (BŚK) estymatora MCMC jest znaczne trudniejsze i subtelniejsze, niż obciążenia.
Zacznijmy od wyprowadzenia kolejnego wzoru na asymptotyczną wariancję. Przypomnijmy, że zgodnie ze Stwierdzeniem 14.1,
![]() |
gdzie
![]() |
Skorzystajmy z reprezentacji spektralnej macierzy :
![]() |
Z definicji macierzy i wzoru (15.1), ponieważ
, więc
![]() |
Wreszcie, ponieważ , więc
![]() |
Zauważmy teraz, że wektor zawiera współrzędne wektora
w bazie ON złożonej z prawych wektorów własnych:
. Udowodniliśmy w ten sposób następujący fakt.
Dla łańcucha odwracalnego, wzór na asymptotyczną wariancję przybiera postać
![]() |
gdzie .
Wynika stąd ważna nierówność.
Dla łańcucha odwracalnego mamy następujące oszacowanie asymptotycznej wariancji:
![]() |
gdzie jest największą wartością własną mniejszą od 1, a
jest wariancją stacjonarną.
Istotnie,
![]() |
a łatwo widzieć, że . Zwróćmy uwagę, że we Wniosku
15.3 występuje
, a nie
(największa co do modułu wartość własna mniejsza od 1).
Na zakończenie przytoczę jeszcze kilka sugestywnych wzorów.
Macierz jest nazywana laplasjanem. Zauważmy, że
![]() |
Ponieważ
![]() |
uzasadnia to interpretację macierzy jako ,,uogólnionej odwrotności” laplasjanu.
Dorzućmy przy okazji jeszcze jedno wyrażenie na asymptotyczną wariancję:
![]() |
Jeśli , to
i ostatni wzór możemy przepisać w postaci
![]() |
Wyniki w tym podrozdziale zostały otrzymane przez Aldousa [1].
Pomysł polega na tym, żeby najpierw otrzymać nierówność dla łańcucha stacjonarnego,
a potem postarać się o uogólnienie dla łańcucha o dowolnym rozkładzie początkowym.
Przypomnijmy oznaczenia ,
.
Dla dla łańcucha nieprzywiedlnego, odwracalnego i stacjonarnego, można oszacować w następujący sposób:
![]() |
gdzie , zaś
jest największą wartością własną mniejszą od
.
Korzystamy ze stacjonarności i z rozkładu spektralnego macierzy .
![]() |
Zwróćmy uwagę na miejsce, w którym pomijamy składniki odpowiadające ujemnym wartościom własnym.
Uzasadnienie jest takie, że dla , , składniki sumy
są
naprzemian ujemne i dodatnie, o malejących wartościach bezwzględnych. Stąd wynika, że
i można tę sumę w nierówności opuścić. Jest to ciekawe zjawisko:
ujemne wartości własne pomagają, zmniejszają błąd! Działają podobnie jak zmienne antytetyczne.
Niech teraz oznacza błąd średniokwadratowy dla łańcucha startującego z punktu
,
![]() |
Rozpatrzmy łańcuch o rozkładzie początkowym . Niech
![]() |
będzie średnią długości obliczany po odrzuceniu
początkowych zmiennych.
Dla dla łańcucha nieprzywiedlnego, odwracalnego startującego z dowolnego rozkładu ,
można oszacować w następujący sposób:
![]() |
gdzie i
.
Nierówność podane przez Aldousa w cytowanej pracy była nieco inna.
Dla dla łańcucha nieprzywiedlnego, odwracalnego startującego z dowolnego rozkładu mamy następujące oszacowanie błędu
:
![]() |
gdzie .
Istotnie, załóżmy, że łańcuch startuje z deterministycznie wybranego punktu
, czyli
. Jeśli otrzymamy oszacowanie niezależne od
, dowód będzie zakończony.
![]() |
i zastosujmy Stwierdzenie 15.4. Wykorzystaliśmy tu nierówność , która wynika z rozkładu
spektralnego:
![]() |
W powyższym wzorze symbol oznacza wektor
, gdzie jedynka stoi na
-tym miejscu. Skorzystaliśmy
z nierówności Schwarza.
Treść automatycznie generowana z plików źródłowych LaTeXa za pomocą oprogramowania wykorzystującego LaTeXML.
strona główna | webmaster | o portalu | pomoc
© Wydział Matematyki, Informatyki i
Mechaniki UW, 2009-2010. Niniejsze materiały są udostępnione bezpłatnie na licencji Creative Commons Uznanie autorstwa-Użycie niekomercyjne-Bez utworów zależnych 3.0 Polska.
Projekt współfinansowany przez Unię Europejską w ramach
Europejskiego Funduszu Społecznego.
Projekt współfinansowany przez Ministerstwo Nauki i Szkolnictwa Wyższego i przez Uniwersytet Warszawski.