Zagadnienia

3. MNK w terminach statystyki opisowej

Metoda MNK dla modeli z wyrazem wolnym. Współczynnik determinacji. Przypadek k=2. (1 wykład)

3.1. Notacja statystyki opisowej

Będziemy stosowali następującą notację:
Dla pojedynczej serii danych X=(X_{t})_{{t=1}}^{n}:
\bullet średnia

\overline{X}=\frac{1}{n}\sum _{{t=1}}^{n}X_{t},

\bullet wariancja empiryczna (wariancja z próby)

S^{2}(X)=\frac{1}{n}\sum _{{t=1}}^{n}(X_{t}-\overline{X})^{2},

\bullet empiryczne odchylenie standardowe (odchylenie standardowe z próby)

S(X)=\sqrt{S^{2}(X)}.

Dla dwóch serii danych Y=(Y_{t})_{{t=1}}^{n} i X=(X_{t})_{{t=1}}^{n}:
\bullet kowariancja empiryczna (kowariancja z próby)

Cov(X,Y)=\frac{1}{n}\sum _{{t=1}}^{n}(X_{t}-\overline{X})(Y_{t}-\overline{Y}).
Uwaga 3.1

Zachodzą następujące związki

Cov(X,Y)=Cov(Y,X),\;\;\; Cov(X,X)=S^{2}(X),
Cov(X,Y)=\overline{XY}-\overline{X}\,\overline{Y},\;\;\; S^{2}(X)=\overline{X^{2}}-\overline{X}^{2}.

\bullet współczynnik korelacji Pearsona (korelacja empiryczna)

r(X,Y)=\frac{Cov(X,Y)}{S(x)S(Y)}\;\;\;\mbox{ gdy }S(X)\neq 0\neq S(Y).
Uwaga 3.2

Zachodzą następujące związki

r(X,Y)\in[0,1],\;\;\; r(X,X)=1,\;\; r(X,-X)=-1.

Dla m serii danych X_{i}=(X_{{t,i}})_{{t=1}}^{n}, i=1,\dots,m:
\bullet macierz kowariancji serii X_{i}:

C(X)=Var(X)=\frac{1}{n}(X-e\overline{X})^{T}(X-e\overline{X})

gdzie X jest n\times m macierzą o współczynnikach X_{{t,i}}, a \overline{X} wektorem horyzontalnym o m wyrazach (tzn. macierzą 1\times m) a e wektorem kolumnowym o n wyrazach (tzn. macierzą n\times 1)

\overline{X}=(\overline{X_{1}},\dots,\overline{X_{m}}),\;\;\; e=(1,\dots,1)^{T}.
Uwaga 3.3

Macierz C jest symetryczna i nieujemnie określona. Ponadto

C(X)_{{i,j}}=Cov(X_{i},X_{j}),\;\;\; C(X)_{{i,i}}=S^{2}(X_{i}),
C(X)=\frac{1}{n}X^{T}X-\overline{X}^{T}\overline{X}.

Dla m+1 serii danych X_{i}=(X_{{t,i}})_{{t=1}}^{n}, i=1,\dots,m i Y=(Y_{t})_{{t=1}}^{n}:
\bullet macierz kowariancji serii Y i serii X_{i}, i=1,\dots,m:

Cov(X,Y)=\frac{1}{n}(X-e\overline{X})^{T}(Y-e\overline{Y}).
Uwaga 3.4

Zachodzą następujące związki

Cov(X,Y)_{{j}}=Cov(X_{j},Y),\;\;\; Cov(X,Y)=\frac{1}{n}X^{T}Y-\overline{X}^{T}\overline{Y}.

3.2. MNK z wyrazem wolnym

Rozważmy przypadek gdy jeden z ciągów X_{i}, i=1,\dots,m jest stały. Dla uproszczenia przyjmijmy X_{m}=e (tzn. \forall t\; X_{{t,m}}=1). Wówczas dla wszystkich t\in\{ 1,\dots,n\}

\widehat{Y}_{t}=b_{1}X_{{t,1}}+\dots+b_{{m-1}}X_{{t,m-1}}+d,

gdzie d nazywamy wyrazem wolnym. W zapisie macierzowym wygląda to następująco

\widehat{Y}=X^{{\prime}}B^{{\prime}}+de,

gdzie X^{{\prime}} jest n\times(m-1) macierzą o kolumnach X_{1},\dots,X_{{m-1}} a B^{{\prime}}=(b_{1},\dots,b_{{m-1}})^{T}. Zatem suma kwadratów reszt wyniesie

SKR(b_{1},\dots,b_{{m-1}},d)=(Y-X^{{\prime}}B^{{\prime}}-de)^{T}(Y-X^{{\prime}}B^{{\prime}}-de).
Twierdzenie 3.1

Jeżeli ciągi X_{1},\dots,X_{{m-1}},X_{m}=e są liniowo niezależne to SKR przyjmuje minimum w punkcie

B^{{\prime}}_{{min}}=C(X^{{\prime}})^{{-1}}Cov(X^{{\prime}},Y),\;\;\; d_{{min}}=\overline{Y}-\overline{X^{{\prime}}}B^{{\prime}}_{{min}}.

Ponadto

SKR_{{min}}=n(S^{2}(Y)-Cov(X^{{\prime}},Y)^{T}C(X^{{\prime}})^{{-1}}Cov(X^{{\prime}},Y)).

Dowód.
Krok 1. Pokażemy, że macierz C(X^{{\prime}}) jest dodatnio określona a zatem odwracalna.
Rozważmy dowolny niezerowy wektor B^{{\prime}}. Wektor Z=X^{{\prime}}B^{{\prime}} nie jest stały, zatem

0<S^{2}(Z)=B^{{\prime T}}CB^{{\prime}}.

Krok 2. Korzystając ze wzoru na B_{{min}} wyprowadzonego w twierdzeniu 2.1 wyznaczymy B^{{\prime}}_{{min}} i d_{{min}}.
B_{{min}} spełnia zależność

X^{T}XB_{{min}}=X^{T}Y.

Korzystając z faktu, że X=(X^{{\prime}},e) (tzn. macierz X powstaje z X^{{\prime}} przez dopisanie kolumny jedynek) a B_{{min}}^{T}=(B^{{\prime T}}_{{min}},d_{{min}}), zapiszemy ją w terminach X^{{\prime}}, B^{{\prime}}_{{min}} i d_{{min}}

\left(\begin{array}[]{cc}X^{{\prime T}}X^{{\prime}}&n\overline{X^{{\prime}}}^{T}\\
n\overline{X^{{\prime}}}&n\end{array}\right)\circ\left(\begin{array}[]{c}B^{{\prime}}_{{min}}\\
d_{{min}}\end{array}\right)=\left(\begin{array}[]{c}X^{{\prime T}}Y\\
n\overline{Y}\end{array}\right).

Dzielimy obie strony przez n

\displaystyle\frac{1}{n}X^{{\prime T}}X^{{\prime}}B^{{\prime}}_{{min}}+\overline{X^{{\prime}}}^{T}d_{{min}} \displaystyle= \displaystyle\frac{1}{n}X^{{\prime T}}Y,
\displaystyle\overline{X^{{\prime}}}B^{\prime}_{{min}}+d_{{min}}=\overline{Y}.

Z drugiego równania otrzymujemy formułę na d_{{min}}, a następnie eliminujemy d_{{min}} z pierwszego równania. Po uporządkowaniu składników otrzymujemy

\left(\frac{1}{n}X^{{\prime T}}X^{{\prime}}-\overline{X^{{\prime}}}^{T}\overline{X^{{\prime}}}\right)B^{{\prime}}=\frac{1}{n}X^{{\prime T}}Y-\overline{X^{{\prime}}}^{T}\overline{Y}.

Co możemy zapisać w postaci (patrz uwagi 3.3 i 3.4)

C(X^{{\prime}})B^{{\prime}}_{{min}}=Cov(X^{{\prime}},Y).

Krok 3. Wyznaczamy SKR_{{min}}.

SKR_{{min}}=SKR(B^{\prime}_{{min}},d_{{min}})=\sum _{{t=1}}^{n}(Y_{t}-\sum _{{i=1}}^{{m-1}}b_{{min,i}}X_{{t,i}}-d_{{min}})^{2}

Po podstawieniu d_{{min}}=\overline{Y}-\overline{X^{{\prime}}}B^{{\prime}}_{{min}} otrzymujemy

SKR_{{min}}=\sum _{{t=1}}^{n}((Y_{t}-\overline{Y})-\sum _{{i=1}}^{{m-1}}b_{{min,i}}(X_{{t,i}}-\overline{X_{i}}))^{2}=
=n(S^{2}(Y)-2\sum _{{i=1}}^{{m-1}}b_{{min,i}}Cov(X_{i},Y)+S^{2}\left(\sum _{{i=1}}^{{m-1}}b_{{min,i}}X_{{i}}\right))=
=n(S^{2}(Y)-2Cov(X^{{\prime}},Y)^{T}B^{\prime}_{{min}}+B^{{\prime T}}_{{min}}C(X^{{\prime}})B^{\prime}_{{min}})=n(S^{2}(Y)-
-2Cov(X^{{\prime}},Y)^{T}C(X^{{\prime}})^{{-1}}Cov(X^{{\prime}},Y)+Cov(X^{{\prime}},Y)^{T}C(X^{{\prime}})^{{-1}}C(X^{{\prime}})C(X^{{\prime}})^{{-1}}Cov(X^{{\prime}},Y))=
=n(S^{2}(Y)-Cov(X^{{\prime}},Y)^{T}C(X^{{\prime}})^{{-1}}Cov(X^{{\prime}},Y)).
\Box
Uwaga 3.5

Dla B^{{\prime}}=B^{\prime}_{{min}} i d=d_{{min}} zachodzą następujące związki:

\displaystyle 1. \displaystyle\overline{\xi}=0,\;\;\;\overline{\widehat{Y}}=\overline{Y}
\displaystyle 2. \displaystyle\sum _{{t=1}}^{n}(Y_{t}-\overline{Y})^{2}=\sum _{{t=1}}^{n}(\widehat{Y}_{t}-\overline{Y})^{2}+\sum _{{t=1}}^{n}(Y_{t}-\widehat{Y}_{t})^{2}.

Dowód.
Ad.1. Mamy

Y_{t}=\sum _{{i=1}}^{{m-1}}b_{i}X_{{t,i}}+d+\xi _{t}.

Zatem

\overline{Y}=\sum _{{i=1}}^{{m-1}}b_{i}\overline{X_{{i}}}+d+\overline{\xi},

czyli

\overline{Y}-\overline{\widehat{Y}}=\overline{\xi}=\overline{Y}-\sum _{{i=1}}^{{m-1}}b_{i}\overline{X_{{i}}}-d=0.

Ad.2. Z punktu 1 i z wniosku 2.1 wynika:

\sum _{{t=1}}^{n}(Y_{t}-\overline{Y})^{2}-\sum _{{t=1}}^{n}(\widehat{Y}_{t}-\overline{Y})^{2}-\sum _{{t=1}}^{n}(Y_{t}-\widehat{Y}_{t})^{2}=
=\sum _{{t=1}}^{n}(Y_{t}^{2}-\overline{Y}^{2})-\sum _{{t=1}}^{n}(\widehat{Y}_{t}^{2}-\overline{Y}^{2})-\sum _{{t=1}}^{n}(Y_{t}-\widehat{Y}_{t})^{2}=
=\sum _{{t=1}}^{n}Y_{t}^{2}-\sum _{{t=1}}^{n}\widehat{Y}_{t}^{2}-\sum _{{t=1}}^{n}(Y_{t}-\widehat{Y}_{t})^{2}=0.
\Box
Definicja 3.1

Współczynnik determinacji zwany też współczynnikiem dopasowania i współczynnikiem regresji wielorakiej to

R^{2}=1-\frac{\sum _{{t=1}}^{n}\xi _{t}^{2}}{\sum _{{t=1}}^{n}(Y_{t}-\overline{Y})^{2}}.
Uwaga 3.6
R^{2}=\frac{\sum _{{t=1}}^{n}(\widehat{Y}_{t}-\overline{Y})^{2}}{\sum _{{t=1}}^{n}(Y_{t}-\overline{Y})^{2}}=\frac{Cov(X^{{\prime}},Y)^{T}C(X^{{\prime}})^{{-1}}Cov(X^{{\prime}},Y)}{S^{2}(Y)}.
Definicja 3.2

Średni błąd kwadratowy

MSE=\frac{1}{n}\sum _{{t=1}}^{n}\xi _{t}^{2}=\overline{\xi^{2}}.
Uwaga 3.7
MSE=S^{2}(Y)(1-R^{2}).

Podsumowanie.
R^{2} i MSE określają dokładność aproksymacji przy zastosowaniu metody najmniejszych kwadratów (MNK).

3.3. Przypadek m=2 i X_{2}=e

\widehat{Y}_{t}=bX_{t}+d,
SKR=\sum _{{t=1}}^{n}(Y_{t}-bX_{t}-d)^{2}.
Twierdzenie 3.2

Jeżeli ciąg X_{t} nie jest stały to SKR przyjmuje minimum w punkcie

b_{{min}}=\frac{Cov(X,Y)}{S^{2}(X)},\;\;\; d_{{min}}=\overline{Y}-b_{{min}}\overline{X}.
SKR_{{min}}=nS^{2}(Y)(1-r^{2}(X,Y).

Dowód.

SKR_{{min}}=n\left(S^{2}(Y)-\frac{cov^{2}(X,Y)}{S^{2}(X)}\right)=n\left(S^{2}(Y)-\frac{S^{2}(X)S^{2}(Y)r^{2}(X,Y)}{S^{2}(X)}\right)=nS^{2}(Y)(1-r^{2}(X,Y)).
\Box

Zamieniamy rolami Y i X.

\widehat{X}_{t}=fY_{t}+g,\;\;\; SKR=\sum _{{t=1}}^{n}(X_{t}-fY_{t}-g)^{2}.

Otrzymujemy

f_{{min}}=\frac{cov(X,Y)}{S^{2}(Y)},\;\;\; g_{{min}}=\overline{X}-f_{{min}}\overline{Y}.

Okazuje się, że proste Y=b_{{min}}X+d_{{min}} i X=f_{{min}}Y+g_{{min}} na ogół nie pokrywają się. Przecinają się one w punkcie (\overline{X},\overline{Y}) i iloczyn współczynników kierunkowych wynosi r^{2}(X,Y)

b_{{min}}f_{{min}}=\frac{cov(X,Y)}{S^{2}(X)}\frac{cov(X,Y)}{S^{2}(Y)}=r^{2}(X,Y).

Treść automatycznie generowana z plików źródłowych LaTeXa za pomocą oprogramowania wykorzystującego LaTeXML.

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu Społecznego.

Projekt współfinansowany przez Ministerstwo Nauki i Szkolnictwa Wyższego i przez Uniwersytet Warszawski.