Zagadnienia

3. Centralne Twierdzenie Graniczne

Centralne twierdzenie graniczne dotyczy zachowania się rozkładu sum niezależnych zmiennych losowych, przy odpowiedniej normalizacji i pewnych dodatkowych założeniach. Intuicyjnie, suma dużej liczby ,,małych”, niezależnych zmiennych losowych ma rozkład normalny. Główny wynik niniejszego rozdziału jest następujący.

Twierdzenie 3.1 (Lindeberg)

Załóżmy, że dla każdego n, zmienne X1n, X2n, , Xrnn są niezależnymi zmiennymi losowymi o średniej 0, takimi, że

k=1rnEXkn2n1.

Dodatkowo, załóżmy, że jest spełniony warunek Lindeberga

k=1rnEXkn21{|Xkn|>ε}n0dla każdego ε>0. (L)

Wówczas X1n+X2n++XrnnN0,1.

Powstaje tu naturalne pytanie, co tak naprawdę mówi warunek Lindeberga. Intuicyjnie rzecz biorąc, oznacza on, iż przy n zbiegającym do nieskończoności, zmienne X1n, X2n, , Xrnn są ,,równie małe”. Innymi słowy, w n-tym wierszu nie ma zmiennych losowych, które byłyby dominujące w stosunku do pozostałych. Ściślej, mamy następujące dwie własności.

Wnioski z warunku Lindeberga

1. Mamy maxkrnXknP0. Istotnie, dla każdego ε>0,

P(maxkrn|Xkn|>ε)=P(k=1rn{|Xkn|>ε})k=1rnP(|Xkn|>ε)ε-2k=1rnEXkn21{|Xkn|>ε}n0.

2. Mamy maxkrnEXkn20. Rzeczywiście, dla dowolnego ε>0,

EXkn2=EXkn21{|Xkn|>ε}+EXkn21{|Xkn|ε}l=1rnEXln21{|Xln|>ε}+ε22ε2,

o ile n jest dostatecznie duże.

Sformułujmy teraz nieco inną wersję CTG.

Twierdzenie 3.2

Załóżmy, że X1,X2,, są niezależnymi zmiennymi losowymi całkowalnymi z kwadratem, mn:=EXn, σn2=VarXn, bn2=k=1nσn2. Jeśli jest spełniony warunek Lindeberga

bn-2k=1nEXk-mk21{|Xk-mk|>εbn}n0, (L)

to

X1+X2++Xn-m1-m2--mnbnN0,1.

Wynika to bezpośrednio z twierdzenia Lindeberga, przy rn=n, Xkn=Xk-mk/bn.

Powstaje naturalne pytanie: kiedy warunek Lindeberga jest spełniony? Podamy tu kilka własności wymuszających ten warunek.

Stwierdzenie 3.1

Załóżmy, że X1, X2, są niezależne i mają ten sam rozkład o dodatniej wariancji. Oznaczmy m=EX1, σ2=VarX1. Wówczas warunek Lindeberga jest spełniony i

X1+X2++Xn-nmnσN0,1.
Dowód:

Wystarczy sprawdzić warunek Lindeberga. Mamy

1nσ2k=1nEXn-m21{|Xn-m|>εσn}=1σ2EX1-m21{|X1-m|>εσn}0,

na mocy twierdzenia Lebesgue'a.

Sprawdzenie dwóch poniższych warunków pozostawiamy jako ćwiczenie.

Stwierdzenie 3.2

Załóżmy, że X1,X2, są wspólnie ograniczonymi niezależnymi zmiennymi losowymi spełniającymi warunek k=1nVarXk. Wówczas spełniony jest warunek Lindeberga.

Stwierdzenie 3.3 (Lapunow)

Załóżmy, że dla każdego n, X1n, X2n, , Xrnn są niezależnymi, scentrowanymi zmiennymi losowymi spełniającymi warunki

k=1rnEXkn2n1

oraz

k=1rnEXkn2+δn0dla pewnego δ>0.

Wówczas jest spełniony warunek Lindeberga.

Przechodzimy do dowodu twierdzenia Lindeberga.

Lemat 3.1

Załóżmy, że a1,a2,,an, b1,b2,,bn są liczbami zespolonymi, z których każda ma moduł niewiększy niż 1. Wówczas

a1a2an-b1b2bnk=1nak-bk.
Dowód:

Stosujemy indukcję. Dla n=1 nierówność jest oczywista. Dalej, załóżmy, że jest ona prawdziwa dla pewnego n spróbujmy ją udowodnić dla n+1. Oznaczając a=a1a2an, b=b1b2bn, mamy

a1a2an+1-b1b2bn+1=aan+1-bbn+1aan+1-abn+1+abn+1-bbn+1=aan+1-bn+1+bn+1a-bk=1n+1ak-bk,

co kończy dowód.

Lemat 3.2

Dla dowolnego yR oraz k=0, 1, 2, mamy

eiy-1+iy+iy22!++iykk!yk+1k+1!.
Dowód:

Stosujemy indukcję. Dla k=0 mamy

eiy-1=i0yeixdxy.

Dalej, załóżmy, że nierówność zachodzi dla pewnego k. Wówczas

eiy-1+iy+iy22!++iyk+1k+1!=i0yeix-1+ix+ix22!++ixkk!dx0yeix-1+ix+ix22!++ixkk!dx0yxk+1k+1!dx=yk+2k+2!.

Dowód jest zakończony.

Dowód twierdzenia Lindeberga:

Oznaczmy σkn=EXkn21/2, k=1, 2,,rn, n=1, 2,. Na mocy twierdzenia Levy-Cramera wystarczy udowodnić, że dla każdego tR, φX1n+X2n++Xrnnte-t2/2. Ustalmy więc tR. Mamy

An:=φX1n+X2n++Xrnnt-e-t2/2=k=1rnφXknt-k=1rne-σkn2t2/2+e-t2k=1rnσkn2/2-e-t2/2Dn.

Stosujemy teraz pierwszy z powyższych lematów oraz fakt, iż e-x=1-x+rx, gdzie rx/xx00. W konsekwencji,

Ank=1rnφXkn-1+σkn2t22Bn+k=1rnrt2σkn2/2Cn+Dn.

Wystarczy wykazać, że Bn,Cn,Dn dążą do 0. Zbieżność ciągu Dn do 0 jest oczywista na mocy warunku k=1rnσkn21. Zajmijmy się teraz ciągiem Cn. Ustalmy ε>0. Istnieje δ>0 taka,że jeśli x<δ, to rx/x<ε. Jak już wiemy, warunek Lindeberga pociąga za sobą, iż dla dostatecznie dużych n, maxkrnt2σkn2/2<δ, a co za tym idzie,

Cn=k=1rnrt2σkn2/2t2σkn2/2t2σkn2/2<t2ε2k=1rnσkn2t2ε2,

a więc ciąg Cn zbiega do 0. Wreszcie, dla ustalonego ε>0, korzystając z drugiego z powyższych lematów (z k=2 oraz z k=3),

φXkn-1+σkn2t22=EeitXkn-1-itXkn+t2Xkn2/2EeitXkn-1-itXkn+t2Xkn2/21{|Xkn|ε}+EeitXkn-1-itXkn+t2Xkn2/21{|Xkn|>ε}EXknt361{|Xkn|ε}+EeitXkn-1-itXkn1{|Xkn|>ε}+Et2Xkn221{|Xkn|>ε}t3ε6σkn2+2Et2Xkn221{|Xkn|>ε}.

Zatem

Bnt36εk=1rnσkn2+t2k=1rnEXkn21{|Xkn|>ε}2t36ε+ε

dla dostatecznie dużych n. Stąd teza.

Jako wniosek, otrzymujemy

Twierdzenie 3.3 (de Moivre'a-Laplace'a)

Załóżmy, że ξn ma rozkład Bernoulliego z parametrami n, p. Wówczas

ξn-npnp1-pN0,1.
Dowód:

Niech X1,X2, będą niezależnymi zmiennymi losowymi o tym samym rozkładzie dwupunktowym PXn=0=1-p, PXn=1=p. Mamy

ξn-npnp1-pX1+X2++Xn-npnp1-p

i wystarczy skorzystać z odpowiedniej wersji CTG.

Sformułujmy teraz uogólnienie twierdzenia Lindeberga. Dowodzi się je w sposób analogiczny.

Twierdzenie 3.4

Załóżmy, że dla każdego n zmienne X1n, X2n, , Xrnn są niezależne i całkowalne z kwadratem. Oznaczmy mkn:=EXkn i przypuśćmy, że

k=1rnEXknnm,k=1rnVarXknnσ2

oraz

k=1rnEXkn-mkn21{|Xkn-mkn|>ε}0. (L)

Wówczas X1n+X2n++XrnnNm,σ2.

Centralne twierdzenie graniczne pozwala badać zachowanie dystrybuant sum niezależnych zmiennych losowych. Istotnie, zbieżność

X1+X2++Xn-m1+m2++mnbnN0,1

jest równoważna zbieżności punktowej dystrybuant:

PX1+X2++Xn-m1+m2++mnbnxΦx=12π-xe-y2/2dy.

Co więcej, zbieżność jest jednostajna względem xR (por. zadanie 9 z rozdziału o słabej zbieżności). Zatem dla każdego ε>0 istnieje numer n0 taki, że dla nn0,

supxR|P(X1+X2++Xnxbn+(m1+m2++mn))-Φ(x)|<ε,

czyli

supyR|P(X1+X2++Xny)-Φ(y-m1-m2--mnbn)|<ε.

Powstaje naturalne pytanie w jaki sposób wyznaczać n0 w zależności od ε; innymi słowy, w jaki sposób szacować błąd związany z przybliżeniem dysrtybuanty sumy przez dystrybuantę standardowego rozkładu normalnego.

Twierdzenie 3.5 (Nierówność Berry-Essena)

Załóżmy, że X1, X2, , są niezależnymi scentrowanymi zmiennymi losowymi o tym samym rozkładzie i niech σ2=VarXn>0, ρ:=EXn3<. Wówczas

supxR|P(X1+X2++Xnnσx)-Φ(x)|cρσ3n,

gdzie jako c można wziąć 0,7655 (optymalna - czyli najmniejsza możliwa - wartość c nie jest znana).

W szczególności, przy założeniach twierdzenia de Moivre'a-Laplace'a,

supxR|P(ξn-npnp1-px)-Φ(x)|cp2+1-p2np1-p.

Jest to niezwykle użyteczny rezultat z punktu widzenia konkretnych zastosowań: w sposób jawny określa on tempo zbieżności.

3.1. Zadania

1. Sumujemy 10 000 liczb, każdą zaokrągloną z dokładnością do 10-m. Przypuśćmy, że błędy spowodowane przez zaokrąglenia są niezależnymi zmiennymi losowymi o rozkładzie jednostajnym na przedziale -10m/2,10m/2. Znaleźć przedział (możliwie krótki), do którego z prawdopodobieństwem 0,95 będzie należał błąd całkowity (tzn. po zsumowaniu).

2. Obliczyć

limne-nk=0nnkk!.

3. Udowodnić Stwierdzenie 10 oraz Stwierdzenie 11.

4. Dany jest ciąg Xn niezależnych zmiennych losowych, przy czym dla n1,

PXn=-1=PXn=1=121-1n2,PXn=-n=PXn=n=12n2.

Udowodnić, że

X1+X2++XnnN0,1,

mimo iż limnVarXn=2.

5. Zmienne losowe X1,X2, są niezależne, przy czym dla n1, PXn=n=PXn=-n=1/2. Niech sn2=k=1nVarXk. Czy ciąg zmiennych losowych

X1+X2++Xnsn

jest zbieżny wedlug rozkładu, a jeśli tak, to do jakiej granicy?

6. Załóżmy, że X jest zmienną losową spełniającą warunki

(i) EX2<,

(ii) Jeśli Y, Z są niezależne i mają ten sam rozkład co X, to XY+Z/2.

Wykazać, że X ma rozkład Gaussa o średniej 0.

7. Rzucono 900 razy kostką. Sumujemy oddzielnie parzyste liczby oczek i nieparzyste liczby oczek. Jakie jest przybliżone prawdopodobieństwo tego, że suma parzystych liczb oczek będzie o co najmniej 500 większa od sumy nieparzystych liczb oczek?

8. Liczba studentów przyjętych na pierwszy rok jest zmienną losową o rozkładzie Poissona z parametrem 100. Jeśli ta liczba przekroczy 120, tworzy się 2 grupy wykładowe. Obliczyć przybliżone prawdopodobieństwo (korzystając z CTG), że nie trzeba będzie tworzyć dwóch grup.

9. Dane są dwa ciągi Xn, Yn niezależnych zmiennych losowych, przy czym zmienne Xn mają ten sam rozkład wykładniczy z parametrem 1, a Yn mają rozkład Poissona z parametrem 1. Zbadać zbieżność według rozkładu ciągu

X1+X2++Xn2-Y1+Y2++Yn2nn.

Treść automatycznie generowana z plików źródłowych LaTeXa za pomocą oprogramowania wykorzystującego LaTeXML.

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu Społecznego.

Projekt współfinansowany przez Ministerstwo Nauki i Szkolnictwa Wyższego i przez Uniwersytet Warszawski.