Algorytmy MCMC zrewolucjonizowały statystykę bayesowską. Stworzyły możliwość obliczania (w przybliżeniu) rozkładów a posteriori w sytuacji, gdy dokładne, analityczne wyrażenia są niedostępne. W ten sposób statystycy uwolnili się od koniecznośći używania nadmiernie uproszczonych modeli. Zaczęli śmiało budować modele coraz bardziej realistyczne, zwykle o strukturze hierarchicznej. Przedstawię to na jednym dość typowym przykładzie, opartym na pracy [21]. Inne przykłady i doskonały wstęp do tematyki zastosowań MCMC można znaleźć w pracy Geyera [7].
Zacznijmy od opisania problemu tak zwanych ,,małych obszarów”, który jest dość ważny w dziedzinie badań reprezentacyjnych, czyli w tak zwanej ,,statystyce oficjalnej”. Wyobraźmy sobie, że w celu zbadania kondycji przedsiębiorstw losuje się próbkę, która liczy (powiedzmy) 3500 przedsiębiorstw z całego kraju. Na podstawie tej losowej próbki można dość wiarygodnie szacować (estymować) pewne parametry opisujące populację przedsiębiorstw w kraju. Czy jednak można z rozsądną dokłdnością oszacować sprzedaż w powiecie garwolińskim? W Polsce mamy ponad 350 powiatów. Na jeden powiat przypada średnio 10 przedsiębiorstw wybranych do próbki. Małe obszary to pod-populacje w których rozmiar próbki nie jest wystarczający, aby zastosować ,,zwykłe” estymatory (średnie z próbki). Podejście bayesowskie pozwala ,,pożyczać informację” z innych obszarów. Zakłada się, że z każdym małym obszarem związany jest nieznany parametr, który staramy się estymować. Obserwacje pochodzące z określonego obszaru mają rozkład prawdopodobieństwa zależny od odpowiadającego temu obszarowi parameru. Parametry, zgodnie z filozofią bayesowską, traktuje się jak zmienne losowe. W najprostszej wersji taki model jest zbudowany w następujący sposób.
– badana cecha dla -tej wylosowanej jednostki -tego obszaru, , ,
– interesująca nas średnia w -tym obszarze,
– średnia w całej populacji.
Ciekawe, że ten sam model pojawia się w różnych innych zastosowanianich, na przykład w matematyce ubezpieczeniowej. Przytoczymy klasyczny rezultat dotyczący tego modelu, aby wyjaśnić na czym polega wspomniane ,,pożyczanie informacji”.
W modelu przedstawionym powyżej, łatwo obliczyć estymator bayesowski (przy kwadratowej funkcji straty), czyli wartość oczekiwaną a posteriori. Następujący wzór jest bardzo dobrze znany specjalistom od małych obszarów i aktuariuszom.
Estymator bayesowski dla -tego obszaru jest średnią ważoną (estymatora opartego na danych z tego obszaru) i wielkości , która opisuje całą populację, a nie tylko -ty obszar. Niestety, proste estymator napisany powyżej zależy od parametrów , i , które w praktyce są nieznane i które trzeba estymować. Konsekwentnie bayesowskie podejście polega na traktowaniu również tych parametrów jako zmiennych losowych, czyli nałożeniu na nie rozkłądów a priori. Powstaje w ten sposób model hierarchiczny.
Uzupełnijmy rozpatrywany powyżej model, dobudowując ,,wyższe piętra” hierarchii. potraktujemy mianowicie parametry rozkładów a priori: , i jako zmienne losowe i wyspecyfikujemy ich rozkłady a priori.
,
,
,
,
.
Zakładamy przy tym, że , i są a priori niezależne (niestety, są one zależne a posteriori). Na szczycie hierarchii mamy ,,hiperparametry” , , , , , , o których musimy założyć, ze są znanymi liczbami.
Łączny rozkład prawdopodobieństwa wszystkich zmiennych losowych w modelu ma postać
We wzorze powyżej i w dalej traktujemy (trochę nieformalnie) i jako pojedyncze symbole nowych zmiennych, żeby nie mnożyć oznaczeń. Rozkład prawdopodobieństwa a posteriori jest więc taki:
To jest rozkład ,,docelowy” , na przestrzeni , ze nieznaną stałą normującą . Choć wygląda na papierze dość prosto, ale obliczenie rozkładów brzegowych, wartości oczekiwanych i innych charakterystyk jest, łagodnie mówiąc, trudne.
Rozkłady warunkowe poszczególnych współrzędnych są proste i łatwe do generowania. Można te rozkłady ,,odczytać” uważnie patrząc na rozkład łączny:
Dla ustalenia uwagi zajmijmy się rozkładem warunkowym zmiennej . Kolorem niebieskim oznaczyliśmy te czynniki łącznej gęstości, które zawierają . Pozostałe, czarne czynniki traktujemy jako stałe. Stąd widać, jak wygląda rozkład warunkowy ,, przynajmniej z dokładnością do proporcjonalności:
Jest to zatem rozkład . Zupełnie podobnie rozpoznajemy inne (pełne) rozkłady warunkowe:
(12.1) |
gdzie, rzecz jasna, , i . Zwróćmy uwagę, że współrzędne wektora są warunkowo niezależne (pełny rozkład warunkowy nie zależy od ). Dzięki temy możemy w próbniku Gibbsa potraktować jako cały ,,blok” współrządnych i zmieniać ,,na raz”.
Próbnik Gibbsa ma w tym modelu przestrzeń stanów składającą się z punktów . Reguła przejścia próbnika w wersji systematycznej (duży krok ,,SystemPG”),
jest złożona z następujących ,,małych kroków”:
Wylosuj ,
Wylosuj ,
Wylosuj ,
Wylosuj .
Łańcuch Markowa jest zbieżny do rozkładu a posteriori:
Najbardziej interesujące są w tym hierarchicznym modelu zmienne (pozostałe zmienne można uznać za ,,parametry zkłócające). Dla ustalenia uwagi zajmijmy się zmienną (powiedzmy, wartością średnią w pierwszym małym obszarze). Estymator bayesowski jest to wartość oczekiwana a posteriori tej zmiennej:
Aproksymacją MCMC interesującej nas wielkości są średnie wzdłuż trajektorii łańcucha:
gdzie dla .
Na Rysunku 12.1 pokazane są dwie przykładowe trajektorie współrzędnej dla PG poruszającego się po przestrzeni wymiarowej (model uwzględniający 1000 małych obszarów). Dwie trajektorie odpowiadają dwum różnym punktom startowym. Dla innych zmiennych rysunki wyglądają bardzo podobnie. Uderzające jest to, jak szybko trajektoria zdaje się ,,osiągać” rozkład stacjonarny, przynajmniej wizualnie. Na Rysunku 12.2 pokazane są kolejne ,,skumulowane” średnie dla tych samych dwóch trajektorii zmiennej .
Metody MCMC w połączeniu z ideą losowania istotnego (Rozdział 8) znajdują zastosowanie również w statystyce ,,częstościowej”, czyli nie-bayesowskiej. Pokażę przykład, w którym oblicza się meodami Monte carlo estymator największej wiarogodności.
Niech będzie wektorem (konfiguracją) binarnych zmiennych losowych na przestrzeni . Rozważmy następujący rozkład Gibbsa:
Rolę parametru gra macierz . Zakłąd się, że jest to maciezrz symetryczna . Stała normująca jest typowo (dla dużych ) niemożliwa do obliczenia. Stanowi to, jak dalej zobaczymy, poważny problem dla statystyków.
W zastosowaniach ,,przestrzennych” indeks interpretuje się jako ,,miejsce”. Zbiór miejsc wyposażony jest w strukturę grafu. Krawędzie łączą miejsca ,,sąsiadujące”. Piszemy . Tego typu modele mogą opisywać na przykład rozprzestrzenianie się chorób lub występowanie pewnych gatunków. Wartośc oznacza obecność gatunku lub występowanie choroby w miejscu . Najprostszy model zakłada, że każda zmienna zależy tylko od swoich ,,sąsiadów” i to w podobny sposób w całym rozpatrywanym obszarze. W takim modelu mamy tylko dwa parametry :
Parametr opisuje ,,skłonność” pojedynczej zmiennej do przyjmowania wartości 1, zaś parametr odpowiada za zależność od zmiennych sąsiadujących (zakaźność choroby, powiedzmy). W typowej dla statystyki przestrzennej sytuacji, rozpatruje się nawet dziesiątki tysięcy ,,miejsc”. Stała jest wtedy sumą niewyobrażalnie wielu (dokładnie ) składników.
,,Pełne” rozkłady warunkowe (full conditionals) są w modelu auto-logistycznym bardzo proste:
gdzie . Zatem:
Symulowanie jest łatwe za pomocą próbnika Gibbsa (PG):
,
,
Estymator największej wiarogodności obliczany metodą Monte Carlo został zaproponowany w pracy Geyer and Thopmpson (1992, JRSS). Rozważmy bardziej ogólną wykładniczą rodzinę rozkładów prawdopodobieństwa:
gdzie jest wektorem statystyk dostatecznych. Rozkłady autologistyczne tworzą rodzinę wykładniczą. Wystarczy ustawić w wektor, statystykami są i . Logarytm wiarogodności jest dany pozornie prostym wzorem:
Kłopot jest ze stałą normującą , która w bardziej skomplikowanych modelach jest trudna lub wręcz niemożliwa do obliczenia. Wspomnieliśmy, że tak właśnie jest dla typowych modeli autologistycznych. Istnieje jednak prosty sposób aproksymacji stałej metodą MC. Istotnie, wybierzmy (w zasadzie dowolny) punkt i zauważmy, że
Pozwala to wyrazić wielkość jako wartość oczekiwaną względem rozkładu :
Powyższe rozważania nie są niczym nowym: to jest po prostu przedstawiony w Rozdziale 8 schemat losowania istotnego, w specjalnym przypadku rodziny wykładniczej. Jeśli celem jest maksymalizacja wiarogodności , to nieznana stała zupełnie nie przeszkadza (bo interesującą nas funkcję wiarygodności wystarczy znać z dokładnością do stałej).
Jeśli umiemy generować zmienne losowe o rozkładzie , to sposób przybliżonego obliczania jest w zasadzie oczywisty. Generujemy próbkę MC: , gdzie jest w zasadzie dowolne, zaś jest możliwie największe. Obliczamy
Aproksymacja logarytmu wiarogodności polega na wstawieniu w miejsce we wzorze na :
Pozostaje wiele szczegółów do dopracowania. Umiemy obliczać wiarogodność jako funkcję , ale trzeba jeszcze znależć maksimum tej funkcji. Dobór nie wpływa na poprawność rozumowania ale może mieć zasadniczy wpływ na efektywność algorytmu. Nie będziemy się w to zagłębiać. Wspomnimy tylko, jak omawiana metoda jest związana z markowowskimi metodami Monte Carlo, MCMC. Wróćmy do rozkładu auto-logistycznego. Jak losować próbkę z tego rozkładu? Tu przychodzi z pomocą próbnik Gibbsa. W rzeczy samej, mamy do czynienia z kolejną aproksymacją: PG jest tylko przybliżonym algorytmem generowania z rozkładu , które to losowanie pozwala obliczać wiarogodność w przybliżeniu. Momo wszystko, metody MCMC oferują pewne wyjście lepsze niż bezradne rozłożenie rąk.
Treść automatycznie generowana z plików źródłowych LaTeXa za pomocą oprogramowania wykorzystującego LaTeXML.
strona główna | webmaster | o portalu | pomoc
© Wydział Matematyki, Informatyki i Mechaniki UW, 2009-2010. Niniejsze materiały są udostępnione bezpłatnie na licencji Creative Commons Uznanie autorstwa-Użycie niekomercyjne-Bez utworów zależnych 3.0 Polska.
Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu Społecznego.
Projekt współfinansowany przez Ministerstwo Nauki i Szkolnictwa Wyższego i przez Uniwersytet Warszawski.