Zagadnienia

4. Warunkowa wartość oczekiwana

Warunkowa wartość oczekiwana jest jednym z kluczowych pojęć w teorii prawdopodobieństwa. Zacznijmy od sytuacji gdy warunkujemy względem zdarzenia.

Definicja 4.1

Załóżmy, że Ω,F,P jest przestrzenią probabilistyczną oraz B jest zdarzeniem o dodatnim prawdopodobieństwie. Niech X będzie całkowalną zmienną losową. Warunkową wartością oczekiwaną X pod warunkiem B nazywamy liczbę

E(X|B)=ΩX(ω)P(dω|B).
Stwierdzenie 4.1

Przy założeniach jak wyżej,

E(X|B)=1PBBXdP. (*)
Dowód:

Stosujemy standardową metodę komplikacji zmiennej X.

1. Załóżmy najpierw, że X=1A, gdzie AF. Wówczas

E(X|B)=P(A|B)=PABPB=1PBB1AdP.

2. Z liniowości, dowodzona równość zachodzi także dla zmiennych prostych (kombinacji liniowych indykatorów zdarzeń).

3. Teraz jeśli X jest nieujemną zmienną losową, to bierzemy niemalejący ciąg Xn zmiennych prostych zbieżny prawie na pewno do X. Pisząc (*) dla Xn i zbiegając z n dostajemy (*) dla X, na mocy twierdzenia Lebesgue'a o monotonicznym przejściu do granicy pod znakiem całki.

4. Jeśli X jest dowolną zmienną losową, to rozważamy rozbicie X=X+-X- i stosujemy (*) dla X+ oraz X-; po odjęciu stronami dostajemy (*) dla X.

Przechodzimy do definicji warunkowej wartości oczekiwanej względem σ-ciała.

Definicja 4.2

Załóżmy, że Ω,F,P jest przestrzenią probabilistyczną, M jest pod-σ-ciałem F, a X jest całkowalną zmienną losową. Warunkową wartością oczekiwaną X pod warunkiem M nazywamy taką zmienną losową η, że są spełnione następujące dwa warunki.

1) η jest mierzalna względem M.

2) Dla każdego BM,

BηdP=BXdP.

Oznaczenie: E(X|M).

W szczególności gdy X=1A, AF, to definiujemy prawdopodobieństwo warunkowe zdarzenia A pod warunkiem M poprzez P(A|M)=E(1A|M).

Twierdzenie 4.1

Załóżmy, że X jest całkowalną zmienną losową, a M jest pod-σ-ciałem F. Wówczas warunkowa wartość oczekiwana istnieje i jest wyznaczona jednoznacznie z dokładnością do równości p.n.

Dowód:

Dla dowolnego BM definiujemy νB=BXdP. Funkcja ν:MR jest przeliczalnie addytywną funkcją zbioru. Ponadto jeśli PB=0, to νB=0 (jest to tzw. absolutna ciągłość ν względem P). Na mocy twierdzenia Radona-Nikodyma istnieje M-mierzalna zmienna losowa η będąca gęstością ν względem P, tzn. taka, że dla wszystkich BM,

BXP=νB=BηdP.

Jednoznaczność jest oczywista: jeśli η1, η2 są zmiennymi losowymi spełniającymi 1) oraz 2), to w szczególności, dla każdego BM, Bη1dP=Bη2dP, skąd η1=η2 p.n.

Uwaga: Warto tu przyjrzeć się warunkowej wartości oczekiwanej zmiennej X względem σ-ciała M generowanego przez co najwyżej przeliczalne rozbicie Bn zbiorów o dodatnim prawdopodobieństwie. Bardzo łatwo wyznaczyć tę zmienną w oparciu o powyższą definicję. Mianowicie, jak widać z warunku 1), E(X|M) musi być stała na każdym zbiorze Bn, n=1, 2,; własność 2) natychmiast implikuje, iż E(X|M)=E(X|Bn) na zbiorze Bn. To w jednoznaczny sposób opisuje warunkową wartość oczekiwaną.

Przechodzimy do pojęcia warunkowej wartości oczekiwanej względem zmiennej losowej. Będziemy potrzebować następującego pomocniczego faktu.

Lemat 4.1

Załóżmy, że Y jest zmienną losową. Wówczas każda zmienna losowa X mierzalna względem σY ma postać fY dla pewnej funkcji borelowskiej f.

Dowód:

Ponownie stosujemy metodę komplikacji zmiennej.

1. Załóżmy, że X=1A, gdzie AσY. Wówczas A={YB} dla pewnego B, skąd X=1BY, czyli jako f możemy wziąć indykator 1B.

2. Jeśli X jest zmienną prostą, to jako f bierzemy kombinację liniową odpowiednich indykatorów (patrz poprzedni punkt).

3. Załóżmy, że X jest nieujemną zmienną losową. Istnieje niemalejący ciąg Xn prostych, σY-mierzalnych zmiennych losowych zbieżny do X. Na mocy 2), mamy Xn=fnY dla pewnego ciągu funkcyjnego fn. Jak łatwo sprawdzić, wystarczy wziąć

fx=limnfnx jeśli granica istnieje,0jeśli granica nie istnieje.

4. Jeśli teraz X jest dowolną zmienną losową, to mamy X=X+-X-=f+Y-f-Y=fY, gdzie f+, f- to funkcje borelowskie odpowiadające σY-mierzalnym X+ oraz X-.

Definicja 4.3

Załóżmy, że X,Y są zmiennymi losowymi, przy czym X jest całkowalna. Definiujemy warunkową wartość oczekiwaną X pod warunkiem Y jako

E(X|Y)=E(X|σ(Y)).

Uwaga: Na mocy lematu mamy E(X|Y)=f(Y) dla pewnej funkcji borelowskiej f. Liczbę fy możemy interpretować jako E(X|Y=y).

Przykłady:

1. Załóżmy, że X, Y posiadają rozkłady skokowe. Oznaczmy

PY(y)=P(Y=y) oraz PX,Y(x,y)=P(X=x,Y=y).

Jeśli h jest dowolną funkcją borelowską taką, że hXL1, to

E(h(X)|Y)=xSXh(x)PX,Yx,YPYY.

Aby to wykazać, należy sprawdzić, iż prawa strona (oznaczana dalej przez η) spełnia własności 1) i 2) z definicji E(h(X)|σ(Y)). Pierwszy warunek jest jasny - η, jako funkcja Y, jest σY-mierzalna. Zajmijmy się zatem drugim warunkiem. niech BσY. Ponieważ Y ma rozkład dyskretny, B jest co najwyżej przeliczalną sumą zdarzeń postaci Y=y oraz zdarzenia o prawdopodobieństwie 0. Wystarczy więc sprawdzić 2) dla zbiorów B postaci Y=y. Mamy

{Y=y}ηdP={Y=y}xSXhxPX,Yx,yPYydP=xSXhxPX,Yx,y

oraz

{Y=y}hXdP=xSXhx{Y=y}1{X=x}dP=xSXhxPX,Yx,y.

2. Konkretny przykład. Załóżmy, że X, Y są niezależnymi zmiennymi losowymi o rozkładzie Poissona z parametrami λ,μ, odpowiednio. Wyznaczymy E(X|X+Y).

Wiadomo, że X+Y ma rozkład Poissona z parametrem λ+μ. Stąd

PX+Yk=λ+μkk!e-λ+μ,k=0, 1, 2,.

Ponadto, jeśli k0, to

PX,X+Y(,k)=P(X=,X+Y=k)=P(X=)P(Y=k-)=λ!e-λμk-k-!e-μ

i

PX,X+Y,kPX+Yk=k!λμk-!k-!λ+μk=kλλ+μ1-λλ+μk-.

Stąd

E(X|X+Y)=λλ+μ(X+Y).

3. Załóżmy, że X,Y ma rozkład z gęstością g i niech gYy=Rgx,ydx będzie gęstością zmiennej Y. Zdefiniujmy gęstość warunkową wzorem

gX|Y(x|y)=gx,ygYyjeśli gYy0,0jeśli gYy=0.

Wówczas dla dowolnej funkcji borelowskiej h:RR mamy

E(h(X)|Y)=Rh(x)gX|Y(x|Y)dx. (*)

Istotnie, sprawdzimy, że prawa strona spełnia warunki 1) i 2) z definicji E(h(X)|Y). Oczywiście warunek 1) jest spełniony - prawa strona jest funkcją od Y. Przejdźmy do 2). Dla dowolnego BσY mamy, iż B={YA} dla pewnego AR oraz

Bh(X)dP=Ω1{YA}h(X)dP=R21{yA}h(x)g(x,y)dxdy=R1{yA}gY(y)Rh(x)gX|Y(x|y)dxdy=BRh(x)gX|Y(x|Y)dxdP.

Własności warunkowej wartości oczekiwanej

Załóżmy, że Ω,F,P jest ustaloną przestrzenią probabilistyczną i niech M będzie pewnym pod-σ-ciałem F. Ponadto, o wszystkich zmiennych losowych zakładamy, że są całkowalne.

0. Mamy E(E(X|M))=EX. Wynika to natychmiast z 2), jeśli weźmiemy B=Ω.

1. Niech α,βR. Wówczas

E(αX1+βX2|M)=αE(X1|M)+βE(X2|M).

Istotnie: sprawdzimy, że prawa strona (oznaczana dalej przez R) spełnia warunki 1) i 2) z definicji E(αX1+βX2|M). Pierwszy warunek jest oczywisty. Aby sprawdzić drugi zauważmy, że dla dowolnego BM,

BRdP=αBE(X1|MdP+βBE(X2|MdP=αBX1dP+βBX2dP=BαX1+βX2dP.

2. Jeśli X jest nieujemną zmienną losową, to E(X|M)0 p.n. Istotnie, niech B={E(X|M)<0}. Wówczas BM i

BE(X|M)dP=BXdP.

Widzimy, że gdyby zdarzenie B miało dodatnie prawdopodobieństwo, to lewa strona byłaby ujemna, a prawa - nieujemna.

3. Mamy

|E(X|M)|E(|X||M)p.n. (*)

Istotnie, na mocy 1. oraz 2. mamy, iż nierówność XY p.n. pociąga za sobą E(X|M)E(Y|M). Stąd, z prawdopodobieństwem 1,

E(X1|M)E(|X1||M)

i

-E(X1|M)E(|X1||M).

Biorąc wartość oczekiwaną obu stron w (*) dostajemy, na mocy 0.,

E(|E(X|M)|)E|X|.

Innymi słowy, operator liniowy E(|M):L1(Ω,F,P)L1(Ω,F,P) jest kontrakcją.

4. Warunkowa wersja twierdzenia Lebesgue'a o monotonicznym przejściu do granicy. Załóżmy, że XnX. Wówczas E(Xn|M)E(X|M) p.n.

Aby to wykazać, zacznijmy od obserwacji iż na mocy 1. i 2., ciąg (E(Xn|M)) jest z prawdopodobieństwem 1 niemalejący, a więc w szczególności zbieżny. Oznaczmy jego granicę przez η, E(X1|M)η. Niech teraz BM. Mamy, na mocy 2) oraz bezwarunkowego twierdzenia Lebesgue'a,

BX=limnBXn=limnBE(Xn|M)=Bη.

Ponieważ η jest M-mierzalna, to z powyższej równości wynika, iż η=E(X|M).

5. Analogicznie dowodzimy warunkowe wersje twierdzenia Lebesgue'a o zmajoryzowanym przejściu do granicy pod znakiem całki oraz lematu Fatou.

6. Załóżmy, że X1 jest mierzalna względem M oraz X1X2 jest całkowalna. Wówczas

E(X1X2|M)=X1E(X2|M)p.n. (+)

W szczególności, biorąc X21, dostajemy, iż E(X1|M)=X1.

Sprawdzamy, że prawa strona spełnia warunki 1) oraz 2) z definicji E(X1X2|M). Warunek 1) jest oczywisty, pozostaje więc sprawdzić drugi. Zastosujemy metodę komplikacji zmiennej X1.

a) Jeśli X1=1A, gdzie AM, to dla dowolnego BM,

BX1E(X2|M)dP=ABE(X2|M)dP=ABX2dP=BX1X2dP.

b) Jeśli X1 jest zmienną prostą, to wzór + dostajemy na mocy a) oraz liniowości warunkowych wartości oczekiwanych.

c) Jeśli X1 jest nieujemną zmienną losową, to istnieje niemalejący ciąg Yn M-mierzalnych zmiennych prostych, zbieżny p.n. do X1. Rozbijmy X2=X2+-X2- i zastosujmy b) do zmiennych Yn oraz X2+:

E(YnX2+|M)=YnE(X2+|M).

Zbiegając z n i korzystając z warunkowej wersji twierdzenia Lebesgue'a (własność 4.), dostajemy

E(X1X2+|M)=X1E(X2+|M).

Zastępując X2+ przez X2- i powtarzając rozumowanie, dostajemy

E(X1X2-|M)=X1E(X2-|M)

i po odjęciu stronami dostajemy (+).

d) Jeśli X1 jest dowolną zmienną losową, to rozbijamy ją na różnicę X1+-X1-, stoujemy c) do zmiennych X1+, X2, oraz X1-, X2, i odejmujemy stronami uzyskane równości.

7. Jeśli M1M2 są pod-σ-ciałami F, to

E(X|M1)=E(E(X|M2)|M1)=E(E(X|M1)|M2). (=)

Zacznijmy od obserwacji, iż wyrażenia stojące po skrajnych stronach są równe. Wynika to natychmiast z poprzedniej własności: zmienna losowa E(X|M1) jest mierzalna względem M2. Wystarczy więc udowodnić, że pierwsze dwa wyrazy w (=) są równe. Weźmy BM1. Mamy BM2, a więc

BE(X|M1)=BX=BE(X|M2)=BE(E(X|M2)|M1),

skąd teza.

8. Załóżmy, że X jest niezależna od M. Wówczas E(X|M)=EX. Istotnie, sprawdzimy, że EX spełnia warunki 1) i 2) w definicji E(X|M). Warunek 1) jest oczywisty: EX jest zmienn:a losową stałą, a więc mierzalną względem każdego σ-ciała. Niech teraz BM. Mamy na mocy niezależności 1B oraz X,

BEXdP=E1BEX=E1BX=BXdP.

9. Nierówność Jensena. Załóżmy, że f:RR jest funkcją wypukłą taką, że fX jest zmienną całkowalną. Wówczas

E(f(X)|M)f(E(X|M)).

Będzie nam potrzebny następujący prosty fakt. Dowód pozostawiamy jako proste ćwiczenie.

Lemat 4.2

Załóżmy, że f:RR jest funkcją wypukłą. Wówczas istnieją ciągi an, bn takie, że dla dowolnego xR,

fx=supnanx+bn.

Powróćmy do dowodu 9. Dla ciągów an, bn, gwarantowanych przez powyższy lemat, mamy fXanX+bn dla każdego n. Stąd, na mocy 1. oraz 2., z prawdopodobieństwem 1,

E(f(X)|M)anE(X|M)+bn.

Poniweaż ciągi an, bn są przeliczalne, to możemy wziąć supremum po n po prawej stronie i dalej nierówno'sć będzie zachodziła z prawdopodobieństwem 1:

E(f(X)|M)supn(anE(X||M)+bn)=f(E(X|M)).

Jako wniosek, dostajemy, iż dla p1 i XLpΩ,F,P,

E(|X|p|M)[E(|X||M)]p.

Stąd po wzięciu wartości oczekiwanej obu stron, E(|E(X|M)|p)E|X|p, czyli

||E(X|M)||p||X||p.

Zatem warunkowa wartość oczekiwana E(|M) jest kontrakcją w Lp.

4.1. Zadania

1. Załóżmy, że X, Y są zmiennymi losowymi a G jest σ-ciałem takim, że X jest mierzalne względem G, a Y jest niezależne od G. Niech ϕ:R2R będzie funkcją borelowską taką, że ϕX,Y jest całkowalną zmienną losową. Udowodnić, że

E[ϕ(X,Y)|G]=Φ(X),

gdzie Φx=Eϕx,Y.

2. Załóżmy, że X jest całkowalną zmienną losową, a σ-ciało G jest niezależne od X oraz od σ-ciała M. Udowodnić, że

E(X|σ(G,M))=E(X|M).

3. Zmienna losowa X,Y ma gęstość

gx,y=x32e-xy+11{x>0,y>0}.

Wyznaczyć E(Y|X) oraz E(Y2|X).

4. Zmienna losowa X,Y ma rozkład Gaussa o wartości oczekiwanej 0, VarX=σ12, VarY=σ22, CovX,Y=c. Obliczyć P(YB|X) (dla BBR) oraz E(Y|X).

5. Zmienne losowe X, Y są niezależne i mają rozkład wykładniczy z parametrem 1. Obliczyć P(XB|X+Y) (dla BBR) oraz E(sinX|X+Y).

6. Zmienne losowe ε1,ε2,ε3 są niezależne i mają ten sam rozkład Pεi=-1=Pεi=1=1/2, i=1, 2, 3. Obliczyć E(ε1|ε1+ε2+ε3) oraz E(ε1ε2|e1+e2e3).

7. Wiadomo, że p procent monet stanowią monety fałszywe, z orłem po obu stronach. Losujemy ze zwracaniem n monet i każdą z nich wykonujemy rzut. Niech F oznacza liczbę losowań, w wyniku których wyciągnięto monetę fałszywą, O - liczba wyrzuconych orłów. Udowodnić, że E(F|O)=2p100+pO.

8. Zmienna losowa X ma rozkład wykładniczy z parametrem 1, zaś Y jest zmienną losową taką, że jeśli X=x, to Y ma rozkład wykładniczy z parametrem x.

a) Wyznaczyć rozkład Y.

b) Obliczyć P(X>r|Y).

9. Losujemy ze zwracaniem po jednej karcie z talii 52 kart tak długo aż wyciągniemy pika. Niech Y oznacza zmienną losową równą liczbie wyciągniętych kart, a X zmienną losową równą liczbie wyciągniętych kierów. Wyznaczyć E(Y|X=4) oraz E(X|Y=4).

10. Zmienne lsowe X, Y są niezależne i mają rozkład wykładniczy z parametrem 1. Obliczyć E(X|X+Y) oraz E(X|min(X,Y)).

Treść automatycznie generowana z plików źródłowych LaTeXa za pomocą oprogramowania wykorzystującego LaTeXML.

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu Społecznego.

Projekt współfinansowany przez Ministerstwo Nauki i Szkolnictwa Wyższego i przez Uniwersytet Warszawski.