9.1. Warunkowa wartość oczekiwana jako rzut ortogonalny
Definicja 9.1
Przypomnienie
Warunkowa wartość oczekiwana:
Niech Y będzie całkowalną zmienną losową w przestrzeni probabilistycznej Ω,F,P, M σ-ciałem takim, że M∈F. Warunkową wartością oczekiwaną Y pod warunkiem M nazywamy zmienną losową E(Y|M), że:
-
-
Załóżmy, że dla przestrzeni probabilistycznej Ω,F,P określone zostały zmienne losowe całkowalne z kwadratem: X,Y ∈ L2Ω,F,P.
Zdefiniujmy Y^=E(Y|X) (=E(Y|σ(X))).
Stwierdzenie 9.1
Y^ jest rzutem ortogonalnym Y na L2Ω,σX,PX, gdzie σX jest σ-ciałem generowanym przez X, a PX to miara prawdopodobieństwa warunkowego pod warunkiem zmiennej losowej X.
Załóżmy, że Z jest rzutem ortogonalnym Y na σX. Wtedy ∀ A ∈ σX:
|
E1AY=E1AZ+E1A︸∈σXY-Z︸⟂σX=E1AZ+0 |
|
Z definicji warunkowej wartości oczekiwanej Y^=Z p.n.
∎
9.2. Twierdzenie Pitagorasa
Niech X,Y oznaczają zmienne losowe, X,Y ∈ L2Ω,F,P, X ∈ L0=L2Ω,σX,PX. Zdefiniujmy iloczyn skalarny jako <X,Y≥Ep(XY).
Twierdzenie 9.1
Pitagorasa
|
Y-X2=Y-Y^+Y^-X2=Y-Y^2+Y^-X2+2<Y-Y^︸⟂σX,Y^-X︸∈σX≥ |
|
∎
Wniosek 9.1
Rzut ortogonalny jest więc najlepszym przybliżeniem Y w klasie f ∈ L0 w sensie:
Stwierdzenie 9.2
Jeśli f ∈ L0, to<Y,f≥<Y^,f>.
|
<Y,f≥<Y-Y^︸⟂σX,f︸∈σX>+<Y^,f≥0+<Y^,f>. |
|
∎
Stwierdzenie 9.3
Niech Y^^ oznacza rzut Y^ na L1⊆L0. Y^^ jest rzutem Y na przestrzeń L1. Rzut rzutu jest rzutem.
|
∀f∈L1<Y-Y^^,f≥<Y,f>-<Y^^,f≥ |
|
korzystając ze stwierdzenia 9.2,
|
=<Y^,f>-<Y^^,f≥<Y^-Y^^,f≥0 |
|
z założenia.
∎
Stwierdzenie 9.4
Oznaczmy Y¯ jako rzut ortogonalny Y na lin1, Y^ rzut Y na L=linX,1. Wtedy:
Ponieważ Y^-Y¯ ∈ L0, równość wynika łatwo ze stwierdzenia 9.2.
∎
Definicja 9.2
Przypomnienie
Korelacja:
|
CorX,Y=CovX,YσXσY=EX-EXY-EY VarXVarY. |
|
Współczynnik dopasowania R2 to część zmienności Y wyjaśnionej przez zmienność Y^:
Błąd średniokwadratowy między X i Y:
Twierdzenie 9.2
|
Cor2Y,Y^=R2=Y^-Y¯2Y-Y¯2=1-Y^-Y2Y-Y¯2. |
|
|
Cor2Y,Y^=<Y-Y¯,Y^-Y¯>2<Y-Y¯,Y-Y¯><Y^-Y¯,Y^-Y¯>= |
|
Korzystając z 9.4:
Korzystając z 9.2 dla X=Y¯:
∎
Twierdzenie 9.3
Pitagrorasa dla korelacji
|
∀f∈σXCor2Y,f=Cor2Y,Y^Cor2Y^,f. |
|
Załóżmy, że Y=Y-Y¯, Y^=Y^-Y¯, f=f-f¯ (centrujemy zmienne losowe).
|
CorY,f=<Y,f><Y,Y>12<f,f>12= |
|
Korzystając z 9.2 i 9.4, mamy:
|
=<Y,Y^><Y,Y>12<Y^,Y^>12⋅<Y^,f><Y^,Y^>12<f,f>12= |
|
∎
Wniosek 9.2
Największą korelację ze wszystkich f∈σX, Y ma ze swoim rzutem ortogonalnym na przestrzeń rozpiętą przez X:
|
maxf∈σXCor2Y,f=Cor2Y,Y^. |
|
Wniosek 9.3
Patrząc na wnioski 9.1 i 9.2 oraz twierdzenie 9.2 zauważmy, że zachodzi zależność:
Minimalizacja błędu średniokwadratowego ⇔ Maksymalizacja kwadratu korelacji. Dla równoważnych problemów optymalnym jest rzut ortogonalny.
Obrazuje tą zależność także kolejne stwierdzenie:
Stwierdzenie 9.5
Niech X,Y będą wystandaryzowanymi zmiennymi losowymi (EX=0, EY=0, σX=1, σY=1 ). Wtedy:
|
EX-Y2=EX2︸=1+EY2︸=1-2EXY=2-2CorX,Y. |
|
∎
Z twierdzenia 9.1 wynika jeszcze bardzo ważna zależność znana z rachunku prawdopodobieństwa:
Wniosek 9.4
|
Var(Y)=Var(E(Y|X))+E(Var(Y|X)), |
|
gdzie Var(Y|X)=E((Y-EY)2|X).
W twierdzeniu 9.1 za X podstawmy EY.
∎