Zagadnienia

3. Centralne Twierdzenie Graniczne

Centralne twierdzenie graniczne dotyczy zachowania się rozkładu sum niezależnych zmiennych losowych, przy odpowiedniej normalizacji i pewnych dodatkowych założeniach. Intuicyjnie, suma dużej liczby ,,małych”, niezależnych zmiennych losowych ma rozkład normalny. Główny wynik niniejszego rozdziału jest następujący.

Twierdzenie 3.1 (Lindeberg)

Załóżmy, że dla każdego n, zmienne X_{{1n}}, X_{{2n}}, \ldots, X_{{r_{n}n}} są niezależnymi zmiennymi losowymi o średniej 0, takimi, że

\sum _{{k=1}}^{{r_{n}}}\mathbb{E}X_{{kn}}^{2}\xrightarrow{n\to\infty}1.

Dodatkowo, załóżmy, że jest spełniony warunek Lindeberga

\sum _{{k=1}}^{{r_{n}}}\mathbb{E}X_{{kn}}^{2}1_{{\{|X_{{kn}}|>\varepsilon\}}}\xrightarrow{n\to\infty}0\quad\mbox{dla każdego }\varepsilon>0. (L)

Wówczas X_{{1n}}+X_{{2n}}+\ldots+X_{{r_{n}n}}\Rightarrow\mathcal{N}(0,1).

Powstaje tu naturalne pytanie, co tak naprawdę mówi warunek Lindeberga. Intuicyjnie rzecz biorąc, oznacza on, iż przy n zbiegającym do nieskończoności, zmienne X_{{1n}}, X_{{2n}}, \ldots, X_{{r_{n}n}} są ,,równie małe”. Innymi słowy, w n-tym wierszu nie ma zmiennych losowych, które byłyby dominujące w stosunku do pozostałych. Ściślej, mamy następujące dwie własności.

Wnioski z warunku Lindeberga

1. Mamy \max _{{k\leq r_{n}}}|X_{{kn}}|\xrightarrow{\mathbb{P}}0. Istotnie, dla każdego \varepsilon>0,

\begin{split}\mathbb{P}(\max _{{k\leq r_{n}}}|X_{{kn}}|>\varepsilon)&=\mathbb{P}\left(\bigcup _{{k=1}}^{{r_{n}}}\{|X_{{kn}}|>\varepsilon\}\right)\leq\sum _{{k=1}}^{{r_{n}}}\mathbb{P}(|X_{{kn}}|>\varepsilon)\\
&\leq\varepsilon^{{-2}}\sum _{{k=1}}^{{r_{n}}}\mathbb{E}X_{{kn}}^{2}1_{{\{|X_{{kn}}|>\varepsilon\}}}\xrightarrow{n\to\infty}0.\end{split}

2. Mamy \max _{{k\leq r_{n}}}\mathbb{E}X_{{kn}}^{2}\to 0. Rzeczywiście, dla dowolnego \varepsilon>0,

\mathbb{E}X_{{kn}}^{2}=\mathbb{E}X_{{kn}}^{2}1_{{\{|X_{{kn}}|>\varepsilon\}}}+\mathbb{E}X_{{kn}}^{2}1_{{\{|X_{{kn}}|\leq\varepsilon\}}}\leq\sum _{{l=1}}^{{r_{n}}}\mathbb{E}X_{{ln}}^{2}1_{{\{|X_{{ln}}|>\varepsilon\}}}+\varepsilon^{2}\leq 2\varepsilon^{2},

o ile n jest dostatecznie duże.

Sformułujmy teraz nieco inną wersję CTG.

Twierdzenie 3.2

Załóżmy, że X_{1},\, X_{2},\,\ldots,\, są niezależnymi zmiennymi losowymi całkowalnymi z kwadratem, m_{n}:=\mathbb{E}X_{n}, \sigma _{n}^{2}=VarX_{n}, b_{n}^{2}=\sum _{{k=1}}^{n}\sigma _{n}^{2}. Jeśli jest spełniony warunek Lindeberga

b_{n}^{{-2}}\sum _{{k=1}}^{n}\mathbb{E}|X_{k}-m_{k}|^{2}1_{{\{|X_{k}-m_{k}|>\varepsilon b_{n}\}}}\xrightarrow{n\to\infty}0, (L)

to

\frac{X_{1}+X_{2}+\ldots+X_{n}-m_{1}-m_{2}-\ldots-m_{n}}{b_{n}}\Rightarrow\mathcal{N}(0,1).

Wynika to bezpośrednio z twierdzenia Lindeberga, przy r_{n}=n, X_{{kn}}=(X_{k}-m_{k})/b_{n}.

Powstaje naturalne pytanie: kiedy warunek Lindeberga jest spełniony? Podamy tu kilka własności wymuszających ten warunek.

Stwierdzenie 3.1

Załóżmy, że X_{1}, X_{2}, \ldots są niezależne i mają ten sam rozkład o dodatniej wariancji. Oznaczmy m=\mathbb{E}X_{1}, \sigma^{2}=VarX_{1}. Wówczas warunek Lindeberga jest spełniony i

\frac{X_{1}+X_{2}+\ldots+X_{n}-nm}{\sqrt{n}\sigma}\Rightarrow\mathcal{N}(0,1).
Dowód:

Wystarczy sprawdzić warunek Lindeberga. Mamy

\frac{1}{n\sigma^{2}}\sum _{{k=1}}^{n}\mathbb{E}|X_{n}-m|^{2}1_{{\{|X_{n}-m|>\varepsilon\sigma\sqrt{n}\}}}=\frac{1}{\sigma^{2}}\mathbb{E}|X_{1}-m|^{2}1_{{\{|X_{1}-m|>\varepsilon\sigma\sqrt{n}\}}}\to 0,

na mocy twierdzenia Lebesgue'a.

Sprawdzenie dwóch poniższych warunków pozostawiamy jako ćwiczenie.

Stwierdzenie 3.2

Załóżmy, że X_{1},\, X_{2},\,\ldots są wspólnie ograniczonymi niezależnymi zmiennymi losowymi spełniającymi warunek \sum _{{k=1}}^{n}VarX_{k}\to\infty. Wówczas spełniony jest warunek Lindeberga.

Stwierdzenie 3.3 (Lapunow)

Załóżmy, że dla każdego n, X_{{1n}}, X_{{2n}}, \ldots, X_{{r_{n}n}} są niezależnymi, scentrowanymi zmiennymi losowymi spełniającymi warunki

\sum _{{k=1}}^{{r_{n}}}\mathbb{E}X_{{kn}}^{2}\xrightarrow{n\to\infty}1

oraz

\sum _{{k=1}}^{{r_{n}}}\mathbb{E}|X_{{kn}}|^{{2+\delta}}\xrightarrow{n\to\infty}0\qquad\mbox{dla pewnego }\delta>0.

Wówczas jest spełniony warunek Lindeberga.

Przechodzimy do dowodu twierdzenia Lindeberga.

Lemat 3.1

Załóżmy, że a_{1},\, a_{2},\,\ldots,\, a_{n}, b_{1},\, b_{2},\,\ldots,\, b_{n} są liczbami zespolonymi, z których każda ma moduł niewiększy niż 1. Wówczas

|a_{1}a_{2}\ldots a_{n}-b_{1}b_{2}\ldots b_{n}|\leq\sum _{{k=1}}^{n}|a_{k}-b_{k}|.
Dowód:

Stosujemy indukcję. Dla n=1 nierówność jest oczywista. Dalej, załóżmy, że jest ona prawdziwa dla pewnego n spróbujmy ją udowodnić dla n+1. Oznaczając a=a_{1}a_{2}\ldots a_{n}, b=b_{1}b_{2}\ldots b_{n}, mamy

\begin{split}|a_{1}a_{2}\ldots a_{{n+1}}-b_{1}b_{2}\ldots b_{{n+1}}|&=|aa_{{n+1}}-bb_{{n+1}}|\\
&\leq|aa_{{n+1}}-ab_{{n+1}}|+|ab_{{n+1}}-bb_{{n+1}}|\\
&=|a||a_{{n+1}}-b_{{n+1}}|+|b_{{n+1}}||a-b|\\
&\leq\sum _{{k=1}}^{{n+1}}|a_{k}-b_{k}|,\end{split}

co kończy dowód.

Lemat 3.2

Dla dowolnego y\in\mathbb{R} oraz k=0,\, 1,\, 2,\,\ldots mamy

\left|e^{{iy}}-\left(1+iy+\frac{(iy)^{2}}{2!}+\ldots+\frac{(iy)^{k}}{k!}\right)\right|\leq\frac{|y|^{{k+1}}}{(k+1)!}.
Dowód:

Stosujemy indukcję. Dla k=0 mamy

|e^{{iy}}-1|=\left|i\int _{0}^{y}e^{{ix}}dx\right|\leq|y|.

Dalej, załóżmy, że nierówność zachodzi dla pewnego k. Wówczas

\begin{split}&\left|e^{{iy}}-\left(1+iy+\frac{(iy)^{2}}{2!}+\ldots+\frac{(iy)^{{k+1}}}{(k+1)!}\right)\right|\\
&=\left|i\int _{0}^{y}e^{{ix}}-\left(1+ix+\frac{(ix)^{2}}{2!}+\ldots+\frac{(ix)^{k}}{k!}\right)dx\right|\\
&\leq\int _{0}^{{|y|}}\left|e^{{ix}}-\left(1+ix+\frac{(ix)^{2}}{2!}+\ldots+\frac{(ix)^{k}}{k!}\right)\right|dx\\
&\leq\int _{0}^{{|y|}}\frac{x^{{k+1}}}{(k+1)!}dx=\frac{|y|^{{k+2}}}{(k+2)!}.\end{split}

Dowód jest zakończony.

Dowód twierdzenia Lindeberga:

Oznaczmy \sigma _{{kn}}=(\mathbb{E}X_{{kn}}^{2})^{{1/2}}, k=1,\, 2,\,\ldots,\, r_{n}, n=1,\, 2,\,\ldots. Na mocy twierdzenia Levy-Cramera wystarczy udowodnić, że dla każdego t\in\mathbb{R}, \varphi _{{X_{{1n}}+X_{{2n}}+\ldots+X_{{r_{n}n}}}}(t)\to e^{{-t^{2}/2}}. Ustalmy więc t\in\mathbb{R}. Mamy

\begin{split} A_{n}:=&|\varphi _{{X_{{1n}}+X_{{2n}}+\ldots+X_{{r_{n}n}}}}(t)-e^{{-t^{2}/2}}|=\left|\prod _{{k=1}}^{{r_{n}}}\varphi _{{X_{{kn}}}}(t)-\prod _{{k=1}}^{{r_{n}}}e^{{-\sigma _{{kn}}^{2}t^{2}/2}}\right|\\
&+\underbrace{\left|e^{{-t^{2}\sum _{{k=1}}^{{r_{n}}}\sigma _{{kn}}^{2}/2}}-e^{{-t^{2}/2}}\right|}_{{D_{n}}}.\end{split}

Stosujemy teraz pierwszy z powyższych lematów oraz fakt, iż e^{{-x}}=1-x+r(x), gdzie r(x)/x\xrightarrow{x\to 0}0. W konsekwencji,

A_{n}\leq\underbrace{\sum _{{k=1}}^{{r_{n}}}\left|\varphi _{{X_{{kn}}}}-1+\frac{\sigma _{{kn}}^{2}t^{2}}{2}\right|}_{{B_{n}}}+\underbrace{\sum _{{k=1}}^{{r_{n}}}|r(t^{2}\sigma _{{kn}}^{2}/2)|}_{{C_{n}}}+D_{n}.

Wystarczy wykazać, że (B_{n}),\,(C_{n}),\,(D_{n}) dążą do 0. Zbieżność ciągu (D_{n}) do 0 jest oczywista na mocy warunku \sum _{{k=1}}^{{r_{n}}}\sigma _{{kn}}^{2}\to 1. Zajmijmy się teraz ciągiem (C_{n}). Ustalmy \varepsilon>0. Istnieje \delta>0 taka,że jeśli |x|<\delta, to |r(x)/x|<\varepsilon. Jak już wiemy, warunek Lindeberga pociąga za sobą, iż dla dostatecznie dużych n, \max _{{k\leq r_{n}}}t^{2}\sigma _{{kn}}^{2}/2<\delta, a co za tym idzie,

C_{n}=\sum _{{k=1}}^{{r_{n}}}\left|\frac{r(t^{2}\sigma _{{kn}}^{2}/2)}{t^{2}\sigma _{{kn}}^{2}/2}\right|t^{2}\sigma _{{kn}}^{2}/2<\frac{t^{2}\varepsilon}{2}\sum _{{k=1}}^{{r_{n}}}\sigma _{{kn}}^{2}\to\frac{t^{2}\varepsilon}{2},

a więc ciąg (C_{n}) zbiega do 0. Wreszcie, dla ustalonego \varepsilon>0, korzystając z drugiego z powyższych lematów (z k=2 oraz z k=3),

\begin{split}&\left|\varphi _{{X_{{kn}}}}-1+\frac{\sigma _{{kn}}^{2}t^{2}}{2}\right|=\left|\mathbb{E}(e^{{itX_{{kn}}}}-1-itX_{{kn}}+t^{2}X_{{kn}}^{2}/2)\right|\\
&\leq\mathbb{E}\left|e^{{itX_{{kn}}}}-1-itX_{{kn}}+t^{2}X_{{kn}}^{2}/2\right|1_{{\{|X_{{kn}}|\leq\varepsilon\}}}\\
&\quad+\mathbb{E}\left|e^{{itX_{{kn}}}}-1-itX_{{kn}}+t^{2}X_{{kn}}^{2}/2\right|1_{{\{|X_{{kn}}|>\varepsilon\}}}\\
&\leq\mathbb{E}\frac{|X_{{kn}}t|^{3}}{6}1_{{\{|X_{{kn}}|\leq\varepsilon\}}}+\mathbb{E}\left|e^{{itX_{{kn}}}}-1-itX_{{kn}}\right|1_{{\{|X_{{kn}}|>\varepsilon\}}}+\mathbb{E}\frac{t^{2}X_{{kn}}^{2}}{2}1_{{\{|X_{{kn}}|>\varepsilon\}}}\\
&\leq\frac{|t|^{3}\varepsilon}{6}\sigma _{{kn}}^{2}+2\mathbb{E}\frac{t^{2}X_{{kn}}^{2}}{2}1_{{\{|X_{{kn}}|>\varepsilon\}}}.\end{split}

Zatem

B_{n}\leq\frac{|t|^{3}}{6}\varepsilon\sum _{{k=1}}^{{r_{n}}}\sigma _{{kn}}^{2}+t^{2}\sum _{{k=1}}^{{r_{n}}}\mathbb{E}X_{{kn}}^{2}1_{{\{|X_{{kn}}|>\varepsilon\}}}\leq\frac{2|t|^{3}}{6}\varepsilon+\varepsilon

dla dostatecznie dużych n. Stąd teza.

Jako wniosek, otrzymujemy

Twierdzenie 3.3 (de Moivre'a-Laplace'a)

Załóżmy, że \xi _{n} ma rozkład Bernoulliego z parametrami n, p. Wówczas

\frac{\xi _{n}-np}{\sqrt{np(1-p)}}\Rightarrow\mathcal{N}(0,1).
Dowód:

Niech X_{1},\, X_{2},\,\ldots będą niezależnymi zmiennymi losowymi o tym samym rozkładzie dwupunktowym \mathbb{P}(X_{n}=0)=1-p, \mathbb{P}(X_{n}=1)=p. Mamy

\frac{\xi _{n}-np}{\sqrt{np(1-p)}}\sim\frac{X_{1}+X_{2}+\ldots+X_{n}-np}{\sqrt{np(1-p)}}

i wystarczy skorzystać z odpowiedniej wersji CTG.

Sformułujmy teraz uogólnienie twierdzenia Lindeberga. Dowodzi się je w sposób analogiczny.

Twierdzenie 3.4

Załóżmy, że dla każdego n zmienne X_{{1n}}, X_{{2n}}, \ldots, X_{{r_{n}n}} są niezależne i całkowalne z kwadratem. Oznaczmy m_{{kn}}:=\mathbb{E}X_{{kn}} i przypuśćmy, że

\sum _{{k=1}}^{{r_{n}}}\mathbb{E}X_{{kn}}\xrightarrow{n\to\infty}m,\qquad\sum _{{k=1}}^{{r_{n}}}\mbox{Var}X_{{kn}}\xrightarrow{n\to\infty}\sigma^{2}

oraz

\sum _{{k=1}}^{{r_{n}}}\mathbb{E}(X_{{kn}}-m_{{kn}})^{2}1_{{\{|X_{{kn}}-m_{{kn}}|>\varepsilon\}}}\to 0. (L)

Wówczas X_{{1n}}+X_{{2n}}+\ldots+X_{{r_{n}n}}\Rightarrow\mathcal{N}(m,\sigma^{2}).

Centralne twierdzenie graniczne pozwala badać zachowanie dystrybuant sum niezależnych zmiennych losowych. Istotnie, zbieżność

\frac{X_{1}+X_{2}+\ldots+X_{n}-(m_{1}+m_{2}+\ldots+m_{n})}{b_{n}}\Rightarrow\mathcal{N}(0,1)

jest równoważna zbieżności punktowej dystrybuant:

\begin{split}\mathbb{P}\bigg(\frac{X_{1}+X_{2}+\ldots+X_{n}-(m_{1}+m_{2}+\ldots+m_{n})}{b_{n}}&\leq x\bigg)\to\Phi(x)\\
&=\frac{1}{\sqrt{2\pi}}\int _{{-\infty}}^{x}e^{{-y^{2}/2}}dy.\end{split}

Co więcej, zbieżność jest jednostajna względem x\in\mathbb{R} (por. zadanie 9 z rozdziału o słabej zbieżności). Zatem dla każdego \varepsilon>0 istnieje numer n_{0} taki, że dla n\geq n_{0},

\sup _{{x\in\mathbb{R}}}|\mathbb{P}(X_{1}+X_{2}+\ldots+X_{n}\leq xb_{n}+(m_{1}+m_{2}+\ldots+m_{n}))-\Phi(x)|<\varepsilon,

czyli

\sup _{{y\in\mathbb{R}}}\left|\mathbb{P}(X_{1}+X_{2}+\ldots+X_{n}\leq y)-\Phi\left(\frac{y-m_{1}-m_{2}-\ldots-m_{n}}{b_{n}}\right)\right|<\varepsilon.

Powstaje naturalne pytanie w jaki sposób wyznaczać n_{0} w zależności od \varepsilon; innymi słowy, w jaki sposób szacować błąd związany z przybliżeniem dysrtybuanty sumy przez dystrybuantę standardowego rozkładu normalnego.

Twierdzenie 3.5 (Nierówność Berry-Essena)

Załóżmy, że X_{1}, X_{2}, \ldots, są niezależnymi scentrowanymi zmiennymi losowymi o tym samym rozkładzie i niech \sigma^{2}=VarX_{n}>0, \rho:=\mathbb{E}|X_{n}|^{3}<\infty. Wówczas

\sup _{{x\in\mathbb{R}}}\left|\mathbb{P}\left(\frac{X_{1}+X_{2}+\ldots+X_{n}}{\sqrt{n}\sigma}\leq x\right)-\Phi(x)\right|\leq\frac{c\rho}{\sigma^{3}\sqrt{n}},

gdzie jako c można wziąć 0,7655 (optymalna - czyli najmniejsza możliwa - wartość c nie jest znana).

W szczególności, przy założeniach twierdzenia de Moivre'a-Laplace'a,

\sup _{{x\in\mathbb{R}}}\left|\mathbb{P}\left(\frac{\xi _{n}-np}{\sqrt{np(1-p)}}\leq x\right)-\Phi(x)\right|\leq c\frac{p^{2}+(1-p)^{2}}{\sqrt{np(1-p)}}.

Jest to niezwykle użyteczny rezultat z punktu widzenia konkretnych zastosowań: w sposób jawny określa on tempo zbieżności.

3.1. Zadania

1. Sumujemy 10\; 0 0 0 liczb, każdą zaokrągloną z dokładnością do 10^{{-m}}. Przypuśćmy, że błędy spowodowane przez zaokrąglenia są niezależnymi zmiennymi losowymi o rozkładzie jednostajnym na przedziale (-10^{m}/2,10^{m}/2). Znaleźć przedział (możliwie krótki), do którego z prawdopodobieństwem \geq 0,95 będzie należał błąd całkowity (tzn. po zsumowaniu).

2. Obliczyć

\lim _{{n\to\infty}}e^{{-n}}\sum _{{k=0}}^{n}\frac{n^{k}}{k!}.

3. Udowodnić Stwierdzenie 10 oraz Stwierdzenie 11.

4. Dany jest ciąg (X_{n}) niezależnych zmiennych losowych, przy czym dla n\geq 1,

\mathbb{P}(X_{n}=-1)=\mathbb{P}(X_{n}=1)=\frac{1}{2}\left(1-\frac{1}{n^{2}}\right),\,\,\mathbb{P}(X_{n}=-n)=\mathbb{P}(X_{n}=n)=\frac{1}{2n^{2}}.

Udowodnić, że

\frac{X_{1}+X_{2}+\ldots+X_{n}}{\sqrt{n}}\Rightarrow\mathcal{N}(0,1),

mimo iż \lim _{{n\to\infty}}VarX_{n}=2.

5. Zmienne losowe X_{1},X_{2},\ldots są niezależne, przy czym dla n\geq 1, \mathbb{P}(X_{n}=n)=\mathbb{P}(X_{n}=-n)=1/2. Niech s_{n}^{2}=\sum _{{k=1}}^{n}\text{Var}X_{k}. Czy ciąg zmiennych losowych

\frac{X_{1}+X_{2}+\ldots+X_{n}}{s_{n}}

jest zbieżny wedlug rozkładu, a jeśli tak, to do jakiej granicy?

6. Załóżmy, że X jest zmienną losową spełniającą warunki

(i) \mathbb{E}X^{2}<\infty,

(ii) Jeśli Y, Z są niezależne i mają ten sam rozkład co X, to X\sim(Y+Z)/\sqrt{2}.

Wykazać, że X ma rozkład Gaussa o średniej 0.

7. Rzucono 900 razy kostką. Sumujemy oddzielnie parzyste liczby oczek i nieparzyste liczby oczek. Jakie jest przybliżone prawdopodobieństwo tego, że suma parzystych liczb oczek będzie o co najmniej 500 większa od sumy nieparzystych liczb oczek?

8. Liczba studentów przyjętych na pierwszy rok jest zmienną losową o rozkładzie Poissona z parametrem 100. Jeśli ta liczba przekroczy 120, tworzy się 2 grupy wykładowe. Obliczyć przybliżone prawdopodobieństwo (korzystając z CTG), że nie trzeba będzie tworzyć dwóch grup.

9. Dane są dwa ciągi (X_{n}), (Y_{n}) niezależnych zmiennych losowych, przy czym zmienne (X_{n}) mają ten sam rozkład wykładniczy z parametrem 1, a (Y_{n}) mają rozkład Poissona z parametrem 1. Zbadać zbieżność według rozkładu ciągu

\frac{(X_{1}+X_{2}+\ldots+X_{n})^{2}-(Y_{1}+Y_{2}+\ldots+Y_{n})^{2}}{n\sqrt{n}}.

Treść automatycznie generowana z plików źródłowych LaTeXa za pomocą oprogramowania wykorzystującego LaTeXML.

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu Społecznego.

Projekt współfinansowany przez Ministerstwo Nauki i Szkolnictwa Wyższego i przez Uniwersytet Warszawski.