Najważniejsze algorytmy MCMC są oparte na idei odwracalności łańcucha Markowa.
Łańcuch o jądrze jest odwracalny względem rozkładu prawdopodobieństwa , jeśli dla dowolnych mamy
W skrócie,
Odwracalność implikuje, że rozkład jest stacjonarny. jest to dlatego ważne, że sprawdzanie odwracalności jest stosunkowo łatwe.
Jeśli to .
.
∎To jest pierwszy historycznie i wciąż najważniejszy algorytm MCMC. Zakładamy, że umiemy generować łańcuch Markowa z pewnym jądrem . Pomysł Metropolisa polega na tym, żeby zmodyfikować ten łańcuch wprowadzając specjalnie dobraną regułę akceptacji w taki sposób, żeby wymusić zbieżność do zadanego rozkładu . W dalszym ciągu systematycznie utożsamiamy rozkłady prawdopodobieństwa z ich gęstościami, aby nie mnożyć oznaczeń. Mamy zatem:
Rozkład docelowy: .
Rozkład ,,propozycji”: .
Reguła akceptacji:
Algorytm Metropolisa-Hastingsa (MH) interpretujemy jako ,,błądzenie losowe” zgodnie z jądrem przejścia , zmodyfikowane poprzez odrzucanie niektórych ruchów, przy czym reguła akceptacji/odrzucania zależy w specjalny sposób od . Pojedynczy krok algorytmu jest następujący.
function |
Gen ; { propozycja } |
Gen |
if } then |
begin |
; { ruch odrzucony z pr-stwem } |
end |
Łańcuch Markowa powstaje zgodnie z następującym schematem:
Gen ; { start } |
for to |
begin |
{ krok } |
end |
Jądro przejścia M-H jest następujące:
Dla przestrzeni skończonej, jądro łańcucha MH redukuje się do macierzy prawdopodobieństwprzejścia. Wzór jest w tym przypadku bardzo prosty: dla ,
Jądro przejścia MH jest odwracalne względem .
Ograniczmy się do przestrzeni skończonej, żeby nie komplikować oznaczeń. W ogólnym przypadku dowód jest w zasadzie taki sam, tylko napisy stają się mniej czytelne. Niech (bez straty ogólności)
Wtedy
Uwagi historyczne:
Metropolis w 1953 zaproponował algorytm, w którym zakłada się symetrię rozkładu propozycji, . Warto zauważyć, że wtedy łańcuch odpowiadający (błądzenie bez eliminacji ruchów) ma rozkład stacjonarny jednostajny. Reguła akceptacji przybiera postać
Hastings w 1970 uogólnił rozważania na przypadek niesymetrycznego .
Uwaga ważna:
Algorytm MH wymaga znajomości gęstość tylko z dokładnością do proporcjonalności, bez stałej normującej.
Drugim podstawowym algorytmem MCMC jest próbnik Gibbsa (PG) (Gibbs Sampler, GS). Załóżmy, że przestrzeń na której żyje docelowy rozkład ma strukturę produktową: . Przyjmijmy następujące oznaczenia:
Jeśli to : wektor z pominiętą -tą współrzędną.
Rozkład docelowy (gęstość): .
Pełne rozkłady warunkowe (full conditionals):
Mały krok PG jest zmianą -tej współrzędnej (wylosowaniem nowej wartości z rozkładu warunkowego):
Prawdopodobieństwo przejścia małego kroku PG (w przypadku przestrzeni skończonej) jest takie:
Mały krok PG jest -odwracalny.
Niech . Wtedy
(skorzystaliśmy z symetrii).
∎Oczywiście, trzeba jeszcze zadbać o to, żeby łańcuch generowany przez PG był nieprzywiedlny. Trzeba zmieniać wszystkie współrzędne, nie tylko jedną. Istnieją dwie zasadnicze odmiany próbnika Gibbsa, różniące się spoobem wyboru współrzędnych do zmiany.
Losowy wybór współrzędnych, ,,LosPG”.
Systematyczny wybór współrzędnych, ,,SystemPG”.
Losowy PG. Wybieramy współrzędną -tą z prawdopodobieństwem . .
function |
Gen ; |
Gen ; { zmieniamy -tą współrzędną } |
; { wszystkie inne współrzędne pozostawiamy bez zmian } |
Jądro przejścia w ,,dużym” kroku losowego PG jest takie:
LosPG jest odwracalny.
Systematyczny PG. Współrzędne są zmieniane w porządku cyklicznym.
function |
begin |
Gen ; |
Gen ; |
Gen ; |
end |
Jądro przejścia w ,,dużym” kroku systematycznego PGjest następujące.
Systematyczny PG nie jest odwracalny. Ale jest -stacjonarny, bo .
Przy projektowaniu konkretnych realizacji PG pojawia się szereg problemów, ważnych zarówno z praktycznego jak i teoretycznego punktu widzenia. Jak wybrać rozkład w losowym PG? Jest raczej jasne, że niektóre współrzędne powinny być zmieniane częściej, a inne rzadziej. Jak dobrać kolejność współrzędnych w systematycznym PG? Czy ta kolejność ma wpływ na tempo zbieżności łańcucha. Wreszczie, w wielu przykładach można zmieniać całe ,,bloki” współrzędnych na raz.
Systematyczny PG jest uważany za bardziej efektywny i częściej stosowany w praktyce. Z drugiej strony jest trudniejszy do analizy teoretycznej, niż losowy PG.
Treść automatycznie generowana z plików źródłowych LaTeXa za pomocą oprogramowania wykorzystującego LaTeXML.
strona główna | webmaster | o portalu | pomoc
© Wydział Matematyki, Informatyki i Mechaniki UW, 2009-2010. Niniejsze materiały są udostępnione bezpłatnie na licencji Creative Commons Uznanie autorstwa-Użycie niekomercyjne-Bez utworów zależnych 3.0 Polska.
Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu Społecznego.
Projekt współfinansowany przez Ministerstwo Nauki i Szkolnictwa Wyższego i przez Uniwersytet Warszawski.