Zagadnienia

9. Własności estymatorów MNK

9.1. Warunkowa wartość oczekiwana jako rzut ortogonalny

Definicja 9.1

Przypomnienie

Warunkowa wartość oczekiwana:

Niech Y będzie całkowalną zmienną losową w przestrzeni probabilistycznej (\Omega,\mathcal{F},\mathbb{P}), \mathcal{M} \sigma-ciałem takim, że \mathcal{M}\in\mathcal{F}. Warunkową wartością oczekiwaną Y pod warunkiem \mathcal{M} nazywamy zmienną losową \mathbb{E}(Y|\mathcal{M}), że:

  1. \mathbb{E}(Y|\mathcal{M}) jest \mathcal{M}-mierzalna,

  2. \forall A\in\mathcal{M}\quad\int _{A}YdP=\int _{A}\mathbb{E}(Y|\mathcal{M})dP.

Załóżmy, że dla przestrzeni probabilistycznej (\Omega,\mathcal{F},\mathbb{P}) określone zostały zmienne losowe całkowalne z kwadratem: X,Y \in L^{2}(\Omega,\mathcal{F},\mathbb{P}). Zdefiniujmy \widehat{Y}=\mathbb{E}(Y|X) (=\mathbb{E}(Y|\sigma(X))).

Stwierdzenie 9.1

\widehat{Y} jest rzutem ortogonalnym Y na L^{2}(\Omega,\sigma(X),\mathbb{P}_{X}), gdzie \sigma(X) jest \sigma-ciałem generowanym przez X, a \mathbb{P}_{X} to miara prawdopodobieństwa warunkowego pod warunkiem zmiennej losowej X.

Załóżmy, że Z jest rzutem ortogonalnym Y na \sigma(X). Wtedy \forall A \in \sigma(X):

\mathbb{E}\mathbf{1}(A)Y=\mathbb{E}\mathbf{1}(A)Z+\mathbb{E}\underbrace{\mathbf{1}(A)}_{{\in\sigma(X)}}\underbrace{(Y-Z)}_{{\perp\sigma(X)}}=\mathbb{E}\mathbf{1}(A)Z+0

Z definicji warunkowej wartości oczekiwanej \widehat{Y}=Z p.n.

9.2. Twierdzenie Pitagorasa

Niech X,Y oznaczają zmienne losowe, X,Y \in L^{2}(\Omega,\mathcal{F},\mathbb{P}), X \in \mathcal{L}_{0}=L^{2}(\Omega,\sigma(X),\mathbb{P}_{X}). Zdefiniujmy iloczyn skalarny jako <X,Y\geq\mathbb{E}_{p}(XY).

Twierdzenie 9.1

Pitagorasa

||Y-X||^{2}=||Y-\widehat{Y}||^{2}+||\widehat{Y}-X||^{2}.
||Y-X||^{2}=||Y-\widehat{Y}+\widehat{Y}-X||^{2}=||Y-\widehat{Y}||^{2}+||\widehat{Y}-X||^{2}+2<\underbrace{Y-\widehat{Y}}_{{\perp\sigma(X)}},\underbrace{\widehat{Y}-X}_{{\in\sigma(X)}}\geq
=||Y-\widehat{Y}||^{2}+||\widehat{Y}-X||^{2}+0.
Wniosek 9.1

Rzut ortogonalny jest więc najlepszym przybliżeniem Y w klasie f \in \mathcal{L}_{0} w sensie:

||Y-\widehat{Y}||^{2}=\min _{{f\in\mathcal{L}_{0}}}||Y-f||^{2}
Stwierdzenie 9.2

Jeśli f \in \mathcal{L}_{0}, to\quad<Y,f\geq<\widehat{Y},f>.

<Y,f\geq<\underbrace{Y-\widehat{Y}}_{{\perp\sigma(X)}},\underbrace{f}_{{\in\sigma(X)}}>+<\widehat{Y},f\geq 0+<\widehat{Y},f>.
Stwierdzenie 9.3

Niech \widehat{\widehat{Y}} oznacza rzut \widehat{Y} na \mathcal{L}_{1}\subseteq\mathcal{L}_{0}. \widehat{\widehat{Y}} jest rzutem Y na przestrzeń \mathcal{L}_{1}. Rzut rzutu jest rzutem.

\forall f\in\mathcal{L}_{1}\quad<Y-\widehat{\widehat{Y}},f\geq<Y,f>-<\widehat{\widehat{Y}},f\geq

korzystając ze stwierdzenia 9.2,

=<\widehat{Y},f>-<\widehat{\widehat{Y}},f\geq<\widehat{Y}-\widehat{\widehat{Y}},f\geq 0

z założenia.

Stwierdzenie 9.4

Oznaczmy \overline{Y} jako rzut ortogonalny Y na lin\{ 1\}, \widehat{Y} rzut Y na \mathcal{L}=\text{lin}(X,1). Wtedy:

<Y-\overline{Y},\widehat{Y}-\overline{Y}\geq||\widehat{Y}-\overline{Y}||^{2}.

Ponieważ \widehat{Y}-\overline{Y} \in \mathcal{L}_{0}, równość wynika łatwo ze stwierdzenia 9.2.

Definicja 9.2

Przypomnienie

Korelacja:

\text{Cor}(X,Y)=\frac{\text{Cov}(X,Y)}{\sigma(X)\sigma(Y)}=\frac{\mathbb{E}(X-\mathbb{E}X)(Y-\mathbb{E}Y)}{\sqrt{\text{
Var}(X)\text{Var}(Y)}}.

Współczynnik dopasowania \text{R}^{2} to część zmienności Y wyjaśnionej przez zmienność \widehat{Y}:

\text{R}^{2}=\frac{\text{Var}(\widehat{Y})}{\text{Var}(Y)}.

Błąd średniokwadratowy między X i Y:

\mathbb{E}(X-Y)^{2}.
Twierdzenie 9.2
\text{Cor}^{2}(Y,\widehat{Y})=\text{R}^{2}=\frac{||\widehat{Y}-\overline{Y}||^{2}}{||Y-\overline{Y}||^{2}}=1-\frac{||\widehat{Y}-Y||^{2}}{||Y-\overline{Y}||^{2}}.
\text{Cor}^{2}(Y,\widehat{Y})=\frac{<Y-\overline{Y},\widehat{Y}-\overline{Y}>^{2}}{<Y-\overline{Y},Y-\overline{Y}><\widehat{Y}-\overline{Y},\widehat{Y}-\overline{Y}>}=

Korzystając z 9.4:

=\frac{||\widehat{Y}-\overline{Y}||^{2}}{||Y-\overline{Y}||^{2}}=

Korzystając z 9.2 dla X=\overline{Y}:

=1-\frac{||\widehat{Y}-Y||^{2}}{||Y-\overline{Y}||^{2}}.
Twierdzenie 9.3

Pitagrorasa dla korelacji

\forall f\in\sigma(X)\quad\text{Cor}^{2}(Y,f)=\text{Cor}^{2}(Y,\widehat{Y})\text{Cor}^{2}(\widehat{Y},f).

Załóżmy, że Y=Y-\overline{Y}, \widehat{Y}=\widehat{Y}-\overline{Y}, f=f-\overline{f} (centrujemy zmienne losowe).

\text{Cor}(Y,f)=\frac{<Y,f>}{<Y,Y>^{{\frac{1}{2}}}<f,f>^{{\frac{1}{2}}}}=

Korzystając z 9.2 i 9.4, mamy:

=\frac{<Y,\widehat{Y}>}{<Y,Y>^{{\frac{1}{2}}}<\widehat{Y},\widehat{Y}>^{{\frac{1}{2}}}}\cdot\frac{<\widehat{Y},f>}{<\widehat{Y},\widehat{Y}>^{{\frac{1}{2}}}<f,f>^{{\frac{1}{2}}}}=
=\text{Cor}^{2}(Y,\widehat{Y})\text{Cor}^{2}(\widehat{Y},f).
Wniosek 9.2

Największą korelację ze wszystkich f\in\sigma(X), Y ma ze swoim rzutem ortogonalnym na przestrzeń rozpiętą przez X:

\max _{{f\in\sigma(X)}}\text{Cor}^{2}(Y,f)=\text{Cor}^{2}(Y,\widehat{Y}).
Wniosek 9.3

Patrząc na wnioski 9.1 i 9.2 oraz twierdzenie 9.2 zauważmy, że zachodzi zależność:

Minimalizacja błędu średniokwadratowego \Leftrightarrow Maksymalizacja kwadratu korelacji. Dla równoważnych problemów optymalnym jest rzut ortogonalny.

Obrazuje tą zależność także kolejne stwierdzenie:

Stwierdzenie 9.5

Niech X,Y będą wystandaryzowanymi zmiennymi losowymi (\mathbb{E}X=0, \mathbb{E}Y=0, \sigma(X)=1, \sigma(Y)=1 ). Wtedy:

\mathbb{E}(X-Y)^{2}=2-2\text{Cor}(X,Y).
\mathbb{E}(X-Y)^{2}=\underbrace{\mathbb{E}X^{2}}_{{=1}}+\underbrace{\mathbb{E}Y^{2}}_{{=1}}-2\mathbb{E}XY=2-2\text{Cor}(X,Y).

Z twierdzenia 9.1 wynika jeszcze bardzo ważna zależność znana z rachunku prawdopodobieństwa:

Wniosek 9.4
\text{Var}(Y)=\text{Var}(\mathbb{E}(Y|X))+\mathbb{E}(\text{Var}(Y|X)),

gdzie \text{Var}(Y|X)=\mathbb{E}((Y-\mathbb{E}Y)^{2}|X).

W twierdzeniu 9.1 za X podstawmy \mathbb{E}Y.

Treść automatycznie generowana z plików źródłowych LaTeXa za pomocą oprogramowania wykorzystującego LaTeXML.

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu Społecznego.

Projekt współfinansowany przez Ministerstwo Nauki i Szkolnictwa Wyższego i przez Uniwersytet Warszawski.