3. Centralne Twierdzenie Graniczne
Centralne twierdzenie graniczne dotyczy zachowania się rozkładu sum niezależnych zmiennych losowych, przy odpowiedniej normalizacji i pewnych dodatkowych założeniach. Intuicyjnie, suma dużej liczby ,,małych”, niezależnych zmiennych losowych ma rozkład normalny. Główny wynik niniejszego rozdziału jest następujący.
Twierdzenie 3.1 (Lindeberg)
Załóżmy, że dla każdego n, zmienne X1n, X2n, …, Xrnn są niezależnymi zmiennymi losowymi o średniej 0, takimi, że
Dodatkowo, załóżmy, że jest spełniony warunek Lindeberga
|
∑k=1rnEXkn21{|Xkn|>ε}n→∞→0dla każdego ε>0. |
| (L) |
Wówczas X1n+X2n+…+Xrnn⇒N0,1.
Powstaje tu naturalne pytanie, co tak naprawdę mówi warunek Lindeberga. Intuicyjnie rzecz biorąc, oznacza on, iż przy n zbiegającym do nieskończoności,
zmienne X1n, X2n, …, Xrnn są
,,równie małe”. Innymi słowy, w n-tym wierszu nie ma zmiennych losowych, które byłyby dominujące w stosunku do pozostałych. Ściślej, mamy następujące
dwie własności.
Wnioski z warunku Lindeberga
1. Mamy maxk≤rnXknP→0. Istotnie, dla każdego ε>0,
|
P(maxk≤rn|Xkn|>ε)=P(⋃k=1rn{|Xkn|>ε})≤∑k=1rnP(|Xkn|>ε)≤ε-2∑k=1rnEXkn21{|Xkn|>ε}n→∞→0. |
|
2. Mamy maxk≤rnEXkn2→0. Rzeczywiście, dla dowolnego ε>0,
|
EXkn2=EXkn21{|Xkn|>ε}+EXkn21{|Xkn|≤ε}≤∑l=1rnEXln21{|Xln|>ε}+ε2≤2ε2, |
|
o ile n jest dostatecznie duże.
Sformułujmy teraz nieco inną wersję CTG.
Twierdzenie 3.2
Załóżmy, że X1,X2,…, są niezależnymi zmiennymi losowymi całkowalnymi z kwadratem, mn:=EXn, σn2=VarXn, bn2=∑k=1nσn2. Jeśli jest spełniony warunek Lindeberga
|
bn-2∑k=1nEXk-mk21{|Xk-mk|>εbn}n→∞→0, |
| (L) |
to
|
X1+X2+…+Xn-m1-m2-…-mnbn⇒N0,1. |
|
Wynika to bezpośrednio z twierdzenia Lindeberga, przy rn=n, Xkn=Xk-mk/bn.
∎
Powstaje naturalne pytanie: kiedy warunek Lindeberga jest spełniony? Podamy tu kilka własności wymuszających ten warunek.
Stwierdzenie 3.1
Załóżmy, że X1, X2, … są niezależne i mają ten sam rozkład o dodatniej wariancji. Oznaczmy m=EX1, σ2=VarX1. Wówczas warunek Lindeberga jest spełniony i
Dowód:
Wystarczy sprawdzić warunek Lindeberga. Mamy
|
1nσ2∑k=1nEXn-m21{|Xn-m|>εσn}=1σ2EX1-m21{|X1-m|>εσn}→0, |
|
na mocy twierdzenia Lebesgue'a.
∎
Sprawdzenie dwóch poniższych warunków pozostawiamy jako ćwiczenie.
Stwierdzenie 3.2
Załóżmy, że X1,X2,… są wspólnie ograniczonymi niezależnymi zmiennymi losowymi spełniającymi warunek ∑k=1nVarXk→∞. Wówczas spełniony jest warunek Lindeberga.
Stwierdzenie 3.3 (Lapunow)
Załóżmy, że dla każdego n, X1n, X2n, …, Xrnn są niezależnymi, scentrowanymi zmiennymi losowymi spełniającymi warunki
oraz
|
∑k=1rnEXkn2+δn→∞→0dla pewnego δ>0. |
|
Wówczas jest spełniony warunek Lindeberga.
Przechodzimy do dowodu twierdzenia Lindeberga.
Lemat 3.1
Załóżmy, że a1,a2,…,an, b1,b2,…,bn są liczbami zespolonymi, z których każda ma moduł niewiększy niż 1. Wówczas
|
a1a2…an-b1b2…bn≤∑k=1nak-bk. |
|
Dowód:
Stosujemy indukcję. Dla n=1 nierówność jest oczywista. Dalej, załóżmy, że jest ona prawdziwa dla pewnego n spróbujmy ją udowodnić dla n+1. Oznaczając a=a1a2…an, b=b1b2…bn, mamy
|
a1a2…an+1-b1b2…bn+1=aan+1-bbn+1≤aan+1-abn+1+abn+1-bbn+1=aan+1-bn+1+bn+1a-b≤∑k=1n+1ak-bk, |
|
co kończy dowód.
∎
Lemat 3.2
Dla dowolnego y∈R oraz k=0, 1, 2,… mamy
|
eiy-1+iy+iy22!+…+iykk!≤yk+1k+1!. |
|
Dowód:
Stosujemy indukcję. Dla k=0 mamy
Dalej, załóżmy, że nierówność zachodzi dla pewnego k. Wówczas
|
eiy-1+iy+iy22!+…+iyk+1k+1!=i∫0yeix-1+ix+ix22!+…+ixkk!dx≤∫0yeix-1+ix+ix22!+…+ixkk!dx≤∫0yxk+1k+1!dx=yk+2k+2!. |
|
Dowód jest zakończony.
∎
Dowód twierdzenia Lindeberga:
Oznaczmy σkn=EXkn21/2, k=1, 2,…,rn, n=1, 2,…. Na mocy twierdzenia Levy-Cramera wystarczy udowodnić, że dla każdego t∈R, φX1n+X2n+…+Xrnnt→e-t2/2. Ustalmy więc t∈R. Mamy
|
An:=φX1n+X2n+…+Xrnnt-e-t2/2=∏k=1rnφXknt-∏k=1rne-σkn2t2/2+e-t2∑k=1rnσkn2/2-e-t2/2︸Dn. |
|
Stosujemy teraz pierwszy z powyższych lematów oraz fakt, iż e-x=1-x+rx, gdzie rx/xx→0→0. W konsekwencji,
|
An≤∑k=1rnφXkn-1+σkn2t22︸Bn+∑k=1rnrt2σkn2/2︸Cn+Dn. |
|
Wystarczy wykazać, że Bn,Cn,Dn dążą do 0. Zbieżność ciągu Dn do 0 jest oczywista na mocy warunku ∑k=1rnσkn2→1. Zajmijmy się teraz ciągiem Cn. Ustalmy ε>0. Istnieje δ>0 taka,że jeśli x<δ, to rx/x<ε. Jak już wiemy, warunek Lindeberga pociąga za sobą, iż dla dostatecznie dużych n, maxk≤rnt2σkn2/2<δ, a co za tym idzie,
|
Cn=∑k=1rnrt2σkn2/2t2σkn2/2t2σkn2/2<t2ε2∑k=1rnσkn2→t2ε2, |
|
a więc ciąg Cn zbiega do 0. Wreszcie, dla ustalonego ε>0, korzystając z drugiego z powyższych lematów (z k=2 oraz z k=3),
|
φXkn-1+σkn2t22=EeitXkn-1-itXkn+t2Xkn2/2≤EeitXkn-1-itXkn+t2Xkn2/21{|Xkn|≤ε}+EeitXkn-1-itXkn+t2Xkn2/21{|Xkn|>ε}≤EXknt361{|Xkn|≤ε}+EeitXkn-1-itXkn1{|Xkn|>ε}+Et2Xkn221{|Xkn|>ε}≤t3ε6σkn2+2Et2Xkn221{|Xkn|>ε}. |
|
Zatem
|
Bn≤t36ε∑k=1rnσkn2+t2∑k=1rnEXkn21{|Xkn|>ε}≤2t36ε+ε |
|
dla dostatecznie dużych n. Stąd teza.
∎
Jako wniosek, otrzymujemy
Twierdzenie 3.3 (de Moivre'a-Laplace'a)
Załóżmy, że ξn ma rozkład Bernoulliego z parametrami n, p. Wówczas
Dowód:
Niech X1,X2,… będą niezależnymi zmiennymi losowymi o tym samym rozkładzie dwupunktowym PXn=0=1-p, PXn=1=p. Mamy
|
ξn-npnp1-p∼X1+X2+…+Xn-npnp1-p |
|
i wystarczy skorzystać z odpowiedniej wersji CTG.
∎
Sformułujmy teraz uogólnienie twierdzenia Lindeberga. Dowodzi się je w sposób analogiczny.
Twierdzenie 3.4
Załóżmy, że dla każdego n zmienne X1n, X2n, …, Xrnn są niezależne i całkowalne z kwadratem. Oznaczmy mkn:=EXkn i przypuśćmy, że
|
∑k=1rnEXknn→∞→m,∑k=1rnVarXknn→∞→σ2 |
|
oraz
|
∑k=1rnEXkn-mkn21{|Xkn-mkn|>ε}→0. |
| (L) |
Wówczas X1n+X2n+…+Xrnn⇒Nm,σ2.
Centralne twierdzenie graniczne pozwala badać zachowanie dystrybuant sum niezależnych zmiennych losowych. Istotnie, zbieżność
|
X1+X2+…+Xn-m1+m2+…+mnbn⇒N0,1 |
|
jest równoważna zbieżności punktowej dystrybuant:
|
PX1+X2+…+Xn-m1+m2+…+mnbn≤x→Φx=12π∫-∞xe-y2/2dy. |
|
Co więcej, zbieżność jest jednostajna względem x∈R (por. zadanie 9 z rozdziału o słabej zbieżności). Zatem dla każdego ε>0 istnieje numer n0 taki, że dla n≥n0,
|
supx∈R|P(X1+X2+…+Xn≤xbn+(m1+m2+…+mn))-Φ(x)|<ε, |
|
czyli
|
supy∈R|P(X1+X2+…+Xn≤y)-Φ(y-m1-m2-…-mnbn)|<ε. |
|
Powstaje naturalne pytanie w jaki sposób wyznaczać n0 w zależności od ε; innymi słowy, w jaki sposób szacować błąd związany z przybliżeniem dysrtybuanty sumy przez dystrybuantę standardowego rozkładu normalnego.
Twierdzenie 3.5 (Nierówność Berry-Essena)
Załóżmy, że X1, X2, …, są niezależnymi scentrowanymi zmiennymi losowymi o tym samym rozkładzie i niech σ2=VarXn>0, ρ:=EXn3<∞. Wówczas
|
supx∈R|P(X1+X2+…+Xnnσ≤x)-Φ(x)|≤cρσ3n, |
|
gdzie jako c można wziąć 0,7655 (optymalna - czyli najmniejsza możliwa - wartość c nie jest znana).
W szczególności, przy założeniach twierdzenia de Moivre'a-Laplace'a,
|
supx∈R|P(ξn-npnp1-p≤x)-Φ(x)|≤cp2+1-p2np1-p. |
|
Jest to niezwykle użyteczny rezultat z punktu widzenia konkretnych zastosowań: w sposób jawny określa on tempo zbieżności.
3.1. Zadania
1. Sumujemy 10 000 liczb, każdą zaokrągloną z dokładnością do 10-m. Przypuśćmy, że błędy spowodowane przez zaokrąglenia są niezależnymi zmiennymi losowymi o rozkładzie jednostajnym na przedziale -10m/2,10m/2. Znaleźć przedział (możliwie krótki), do którego z prawdopodobieństwem ≥0,95 będzie należał błąd całkowity (tzn. po zsumowaniu).
3. Udowodnić Stwierdzenie 10 oraz Stwierdzenie 11.
4. Dany jest ciąg Xn niezależnych zmiennych losowych, przy czym dla n≥1,
|
PXn=-1=PXn=1=121-1n2,PXn=-n=PXn=n=12n2. |
|
Udowodnić, że
mimo iż limn→∞VarXn=2.
5. Zmienne losowe X1,X2,… są niezależne, przy czym dla n≥1,
PXn=n=PXn=-n=1/2. Niech sn2=∑k=1nVarXk.
Czy ciąg zmiennych losowych
jest zbieżny wedlug rozkładu, a jeśli tak, to do jakiej
granicy?
6. Załóżmy, że X jest zmienną losową spełniającą warunki
(ii) Jeśli Y, Z są niezależne i mają ten sam rozkład co X, to X∼Y+Z/2.
Wykazać, że X ma rozkład Gaussa o średniej 0.
7. Rzucono 900 razy kostką. Sumujemy oddzielnie parzyste
liczby oczek i nieparzyste liczby oczek. Jakie jest przybliżone
prawdopodobieństwo tego, że suma parzystych liczb oczek będzie o co
najmniej 500 większa od sumy nieparzystych liczb oczek?
8. Liczba studentów przyjętych na pierwszy rok jest zmienną
losową o rozkładzie Poissona z parametrem 100. Jeśli ta liczba
przekroczy 120, tworzy się 2 grupy wykładowe. Obliczyć przybliżone
prawdopodobieństwo (korzystając z CTG), że nie trzeba będzie
tworzyć dwóch grup.
9. Dane są dwa ciągi Xn, Yn niezależnych zmiennych
losowych, przy czym zmienne Xn mają ten sam
rozkład wykładniczy z parametrem 1, a Yn mają rozkład
Poissona z parametrem 1. Zbadać zbieżność według rozkładu ciągu
|
X1+X2+…+Xn2-Y1+Y2+…+Yn2nn. |
|