Algorytmy MCMC zrewolucjonizowały statystykę bayesowską. Stworzyły możliwość obliczania (w przybliżeniu) rozkładów a posteriori w sytuacji, gdy dokładne, analityczne wyrażenia są niedostępne. W ten sposób statystycy uwolnili się od koniecznośći używania nadmiernie uproszczonych modeli. Zaczęli śmiało budować modele coraz bardziej realistyczne, zwykle o strukturze hierarchicznej. Przedstawię to na jednym dość typowym przykładzie, opartym na pracy [21]. Inne przykłady i doskonały wstęp do tematyki zastosowań MCMC można znaleźć w pracy Geyera [7].
Zacznijmy od opisania problemu tak zwanych ,,małych obszarów”, który jest dość ważny w dziedzinie badań reprezentacyjnych, czyli w tak zwanej ,,statystyce oficjalnej”. Wyobraźmy sobie, że w celu zbadania kondycji przedsiębiorstw losuje się próbkę, która liczy (powiedzmy) 3500 przedsiębiorstw z całego kraju. Na podstawie tej losowej próbki można dość wiarygodnie szacować (estymować) pewne parametry opisujące populację przedsiębiorstw w kraju. Czy jednak można z rozsądną dokłdnością oszacować sprzedaż w powiecie garwolińskim? W Polsce mamy ponad 350 powiatów. Na jeden powiat przypada średnio 10 przedsiębiorstw wybranych do próbki. Małe obszary to pod-populacje w których rozmiar próbki nie jest wystarczający, aby zastosować ,,zwykłe” estymatory (średnie z próbki). Podejście bayesowskie pozwala ,,pożyczać informację” z innych obszarów. Zakłada się, że z każdym małym obszarem związany jest nieznany parametr, który staramy się estymować. Obserwacje pochodzące z określonego obszaru mają rozkład prawdopodobieństwa zależny od odpowiadającego temu obszarowi parameru. Parametry, zgodnie z filozofią bayesowską, traktuje się jak zmienne losowe. W najprostszej wersji taki model jest zbudowany w następujący sposób.
Ciekawe, że ten sam model pojawia się w różnych innych zastosowanianich, na przykład w matematyce ubezpieczeniowej. Przytoczymy klasyczny rezultat dotyczący tego modelu, aby wyjaśnić na czym polega wspomniane ,,pożyczanie informacji”.
W modelu przedstawionym powyżej, łatwo obliczyć estymator bayesowski (przy kwadratowej funkcji straty), czyli wartość oczekiwaną a posteriori. Następujący wzór jest bardzo dobrze znany specjalistom od małych obszarów i aktuariuszom.
Estymator bayesowski dla
Uzupełnijmy rozpatrywany powyżej model, dobudowując ,,wyższe piętra” hierarchii. potraktujemy mianowicie
parametry rozkładów a priori:
Zakładamy przy tym, że
Łączny rozkład prawdopodobieństwa wszystkich zmiennych losowych w modelu ma postać
We wzorze powyżej i w dalej traktujemy (trochę nieformalnie)
To jest rozkład ,,docelowy”
Rozkłady warunkowe poszczególnych współrzędnych są proste i łatwe do generowania. Można te rozkłady ,,odczytać” uważnie patrząc na rozkład łączny:
Dla ustalenia uwagi zajmijmy się rozkładem warunkowym zmiennej
Jest to zatem rozkład
(12.1) |
gdzie, rzecz jasna,
Próbnik Gibbsa ma w tym modelu przestrzeń stanów
jest złożona z następujących ,,małych kroków”:
Wylosuj
Wylosuj
Wylosuj
Wylosuj
Łańcuch Markowa jest zbieżny do rozkładu a posteriori:
Najbardziej interesujące są w tym hierarchicznym modelu zmienne
Aproksymacją MCMC interesującej nas wielkości są średnie wzdłuż trajektorii łańcucha:
gdzie
Na Rysunku 12.1 pokazane są dwie przykładowe trajektorie współrzędnej
Metody MCMC w połączeniu z ideą losowania istotnego (Rozdział 8) znajdują zastosowanie również w statystyce ,,częstościowej”, czyli nie-bayesowskiej. Pokażę przykład, w którym oblicza się meodami Monte carlo estymator największej wiarogodności.
Niech
Rolę parametru gra macierz
W zastosowaniach ,,przestrzennych” indeks
Parametr
,,Pełne” rozkłady warunkowe (full conditionals) są w modelu auto-logistycznym bardzo proste:
gdzie
Symulowanie
Estymator największej wiarogodności obliczany metodą Monte Carlo został zaproponowany w pracy Geyer and Thopmpson (1992, JRSS). Rozważmy bardziej ogólną wykładniczą rodzinę rozkładów prawdopodobieństwa:
gdzie
Kłopot jest ze stałą normującą
Pozwala to wyrazić wielkość
Powyższe rozważania nie są niczym nowym: to jest po prostu przedstawiony w Rozdziale 8 schemat
losowania istotnego, w specjalnym przypadku rodziny wykładniczej.
Jeśli celem jest maksymalizacja wiarogodności
Jeśli umiemy generować zmienne losowe o rozkładzie
Aproksymacja logarytmu wiarogodności polega na wstawieniu
Pozostaje wiele szczegółów do dopracowania. Umiemy obliczać wiarogodność jako funkcję
Treść automatycznie generowana z plików źródłowych LaTeXa za pomocą oprogramowania wykorzystującego LaTeXML.
strona główna | webmaster | o portalu | pomoc
© Wydział Matematyki, Informatyki i Mechaniki UW, 2009-2010. Niniejsze materiały są udostępnione bezpłatnie na licencji Creative Commons Uznanie autorstwa-Użycie niekomercyjne-Bez utworów zależnych 3.0 Polska.
Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu Społecznego.
Projekt współfinansowany przez Ministerstwo Nauki i Szkolnictwa Wyższego i przez Uniwersytet Warszawski.