W tym rozdziale zajmiemy się problemem oszacowania błędu markowowskich algorytmów Monte Carlo. W odróżnieniu od wstępnych rozważań w Rozdziale 10, będą nas interesowały ścisłe nierówności, a nie oceny oparte na twierdzeniach granicznych. Skupimy się na rozkładzie spektralnym macierzy przejścia. Jest to najbardziej znana i zapewne najskuteczniejsza metoda otrzymywania dobrych oszacowań, przynajmniej dla łańcuchów odwracalnych na przestrzeni skończonej.
Rozważmy łańcuch nieprzywiedlny i odwracalny z macierzą przejścia
i
rozkładem stacjonarnym
. Zakładamy więc, że dla dowolnych
spełniona jest zależność
Niech
![]() |
Warunek odwracalności możemy zapisać w postaci
.
Wyposażmy przestrzeń
w iloczyn skalarny
gdzie
traktujemy jak wektory kolumnowe. Oczywiście, norma funkcji
jest zdefiniowana
wzorem
. Macierz
traktujemy jako operator działający z lewej strony na
funkcje, z prawej strony na rozkłady prawdopodobieństwa. Zgodnie z regułami mnożenia macierzy i wektorów, wzory na
i
są następujące:
Odwracalność
implikuje
Znaczy to, że
jest macierzą operatora samosprzężonego względem
iloczynu skalarnego
. W skrócie powiemy, że
jest
-samosprzężona. Wartości własne
są rzeczywiste i zawarte w przedziale
.
Uporządkujmy je w kolejności malejącej:
Wiadomo, że
jest pojedynczą wartością własną. Jeśli
łańcuch jest nieokresowy, to
. Niech
Reprezentacja spektralna macierzy
jest następująca:
gdzie
lub, równoważnie,
. Zauważmy, że kolumny macierzy
są prawostronnymi wektorami własnymi macierzy
tworzącymi bazę
-ortonormalną. Mamy więc
(oczywiście,
jest tu wektorem jedynek) oraz
Lewostronne wektory własne
(zapisane wierszowo) są postaci
:
mamy
. W szczególności,
.
Zapiszmy reprezentację spektralną
w bardziej jawnej formie:
przy tym
Zauważmy jeszcze, że pierwszy (lub raczej - zerowy) składnik jest macierzą stabilną (o jednakowych wierszach):
Reprezentacja spektralna prowadzi do zgrabnych wyrażeń na potęgi macierzy. Łatwo zauważyć, że
, czyli
| (15.1) |
Wiemy, że wszystkie wartości własne
z wyjątkiem zerowej (
) oraz, być może, ostatniej
(
) są co do modułu mniejsze niż 1. Jeżeli więc
, to wszystkie
składniki sumy we wzorze (15.1) z wyjątkiem początkowego zmierzają do zera i w rezultacie
Jest to nic innego jak teza Słabego Twierdzenia Ergodycznego (Twierdzenie 14.5), otrzymana zupełnie inną metodą,
przy założeniu odwracalności. Można pokazać, że warunek
jest równoważny nieokresowości, i jest
konieczny (jeśli
to łańcuch ma okres 2).
Następujący lemat będzie podstawą dalszych rozważań i umożliwi ,,przerobienie” STE na jawne wyniki. Zdefiniujmy
Załóżmy, że łańcuch jest nieokresowy, więc
. Pokażemy, że operator
ograniczony do podprzestrzeni
ortogonalnej do
funkcji stałych jest zwężający, ze stałą
.
Jeżeli
to
.
Wystarczy zauważyć, że
Korzystamy tu z faktu, że
jest samosprzężony, ze wzoru (15.1) i z tego, że
.
Przejdźmy teraz do jawnych oszacowań szybkości zbieżności w STE.
Wyniki zawarte z tym podrozdziale pochodzą z pracy Diaconisa i Strooka [5].
Dla rozkładu prawdopodobieństwa
definiujemy ,,odległość”
od rozkładu stacjonarnego
wzorem
![]() |
Ta ,,odległość” nie ma własności symetrii, więc nie jest metryką, ale to nie przeszkadza. Istotna jest
interpretacja
jako ,,odstępstwa od stacjonarności”. Wykorzystamy
podejście spektralne, w szczególności Lemat 15.1. Niech
.
Jeśli łańcuch odwracalny, nieprzywiedlny i nieokresowy ma rozkład początkowy
, to
Zastosujmy Lemat 15.1 do wektora
który, jak łatwo zauważyć, jest prostopadły do 1.
Otrzymujemy
Dla łańcucha o rozkładzie początkowym skupionym w punkcie
,
![]() |
Istotnie, mamy jeszcze jedno wyrażenie na ,,odległość”
: dla dowolnego rozkładu
,
Wystarczy teraz podstawić
, aby otrzymać
.
Istnieje prosta nierówność pomiędzy normą pełnego wahania i ,,odległością”
:
![]() |
Wynika to z następującego rachunku:
Stąd natychmiast otrzymujemy wniosek
![]() |
Rozważmy zadanie obliczania wartości oczekiwanej
dla pewnej funkcji
. Niech
oznacza ,,scentrowaną” funkcję
. Natychmiast widać, że
i możemy zastosować
Lemat 15.1. Stąd już tylko mały krok do oszacowania różnicy między
wartością oczekiwaną
i wartością stacjonarną
.
Jeśli łańcuch jest odwracalny, nieprzywiedlny, nieokresowy i ma rozkład początkowy
, to
gdzie
jest wariancją stacjonarną funkcji
.
Mamy
Rozważmy teraz naturalny estymator
![]() |
Jest to średnia wzdłuż trajektorii łańcucha, dlugości
i ,,opóźniona” o
. Idea jest jasna: ignorujemy początkowy
odcinek trajektorii długości
(tak zwany okres burn-in) aby dać łańcuchowi czas na zbliżenie od rozkładu
stacjonarnego. Później obliczmy średnią. W ten sposób redukujemy obciążenie. Precyzuje to następujący wniosek.
Dla dowolnego
mamy
Wynika to z nierówności trójkąta i wzoru na sumę szeregu geometrycznego:
![]() |
Zwróćmy uwagę, że obciążenie maleje w tempie geometrycznym przy
ale zachowuje sią zaledwie jak
przy ustalonym
i
(ponieważ początkowe wyrazy sumy mają na obciążenie wpływ dominujący).
Oszacowanie błędu średniokwadratowego (BŚK) estymatora MCMC jest znaczne trudniejsze i subtelniejsze, niż obciążenia.
Zacznijmy od wyprowadzenia kolejnego wzoru na asymptotyczną wariancję. Przypomnijmy, że zgodnie ze Stwierdzeniem 14.1,
gdzie
Skorzystajmy z reprezentacji spektralnej macierzy
:
![]() |
Z definicji macierzy
i wzoru (15.1), ponieważ
, więc
![]() |
Wreszcie, ponieważ
, więc
![]() |
Zauważmy teraz, że wektor
zawiera współrzędne wektora
w bazie ON złożonej z prawych wektorów własnych:
. Udowodniliśmy w ten sposób następujący fakt.
Dla łańcucha odwracalnego, wzór na asymptotyczną wariancję przybiera postać
![]() |
gdzie
.
Wynika stąd ważna nierówność.
Dla łańcucha odwracalnego mamy następujące oszacowanie asymptotycznej wariancji:
gdzie
jest największą wartością własną mniejszą od 1, a
jest wariancją stacjonarną.
Istotnie,
![]() |
a łatwo widzieć, że
. Zwróćmy uwagę, że we Wniosku
15.3 występuje
, a nie
(największa co do modułu wartość własna mniejsza od 1).
Na zakończenie przytoczę jeszcze kilka sugestywnych wzorów.
Macierz
jest nazywana laplasjanem. Zauważmy, że
Ponieważ
![]() |
uzasadnia to interpretację macierzy
jako ,,uogólnionej odwrotności” laplasjanu.
Dorzućmy przy okazji jeszcze jedno wyrażenie na asymptotyczną wariancję:
Jeśli
, to
i ostatni wzór możemy przepisać w postaci
Wyniki w tym podrozdziale zostały otrzymane przez Aldousa [1].
Pomysł polega na tym, żeby najpierw otrzymać nierówność dla łańcucha stacjonarnego,
a potem postarać się o uogólnienie dla łańcucha o dowolnym rozkładzie początkowym.
Przypomnijmy oznaczenia
,
.
Dla dla łańcucha nieprzywiedlnego, odwracalnego i stacjonarnego,
można oszacować w następujący sposób:
![]() |
gdzie
, zaś
jest największą wartością własną mniejszą od
.
Korzystamy ze stacjonarności i z rozkładu spektralnego macierzy
.
Zwróćmy uwagę na miejsce, w którym pomijamy składniki odpowiadające ujemnym wartościom własnym.
Uzasadnienie jest takie, że dla ,
, składniki sumy
są
naprzemian ujemne i dodatnie, o malejących wartościach bezwzględnych. Stąd wynika, że
i można tę sumę w nierówności opuścić. Jest to ciekawe zjawisko:
ujemne wartości własne pomagają, zmniejszają błąd! Działają podobnie jak zmienne antytetyczne.
Niech teraz
oznacza błąd średniokwadratowy dla łańcucha startującego z punktu
,
Rozpatrzmy łańcuch o rozkładzie początkowym
. Niech
![]() |
będzie średnią długości
obliczany po odrzuceniu
początkowych zmiennych.
Dla dla łańcucha nieprzywiedlnego, odwracalnego startującego z dowolnego rozkładu
,
można oszacować w następujący sposób:
![]() |
gdzie
i
.
Nierówność podane przez Aldousa w cytowanej pracy była nieco inna.
Dla dla łańcucha nieprzywiedlnego, odwracalnego startującego z dowolnego rozkładu
mamy następujące oszacowanie błędu
:
![]() |
gdzie
.
Istotnie, załóżmy, że łańcuch startuje z deterministycznie wybranego punktu
, czyli
. Jeśli otrzymamy oszacowanie niezależne od
, dowód będzie zakończony.
i zastosujmy Stwierdzenie 15.4. Wykorzystaliśmy tu nierówność
, która wynika z rozkładu
spektralnego:
W powyższym wzorze symbol
oznacza wektor
, gdzie jedynka stoi na
-tym miejscu. Skorzystaliśmy
z nierówności Schwarza.
Treść automatycznie generowana z plików źródłowych LaTeXa za pomocą oprogramowania wykorzystującego LaTeXML.
strona główna | webmaster | o portalu | pomoc
© Wydział Matematyki, Informatyki i
Mechaniki UW, 2009-2010.
Niniejsze materiały są udostępnione bezpłatnie na licencji Creative Commons Uznanie autorstwa-Użycie niekomercyjne-Bez utworów zależnych 3.0 Polska.
Projekt współfinansowany przez Unię Europejską w ramach
Europejskiego Funduszu Społecznego.
Projekt współfinansowany przez Ministerstwo Nauki i Szkolnictwa Wyższego i przez Uniwersytet Warszawski.