Zagadnienia

5. Klasyczny model regresji z gaussowskim składnikiem losowym

Klasyczny jednorównaniowy liniowy model ekonometryczny -cd. Statystyczna weryfikacja modelu. (1 wykład)

Na tym wykładzie zajmiemy się ”kompletnym” modelem regresji, tzn. przyjmiemy wszystkie pięć założeń Z1 – Z5.

Lemat 5.1

Jeśli zachodzą Z1,Z2,Z3,Z4 i Z5 to estymator NMK B ma warunkowy rozkład normalny

B-\beta|X\;\sim N(0,\sigma^{2}(X^{T}X)^{{-1}}),
b_{k}-\beta _{k}|X\;\sim N(0,\sigma^{2}(X^{T}X)^{{-1}}_{{k,k}}).

Dowód.

B-\beta=(X^{T}X)^{{-1}}X^{T}\varepsilon,\;\;\mbox{ gdzie }\;\;\varepsilon|X\sim N(\sigma^{2}Id_{n}).

Zatem B-\beta|X ma rozkład normalny o wartości oczekiwanej 0 i wariancji

(X^{T}X)^{{-1}}X^{T}(\sigma^{2}Id_{n})X(X^{T}X)^{{-1}}=\sigma^{2}(X^{T}X)^{{-1}}.
\Box

5.1. Testowanie pojedynczego parametru strukturalnego \beta _{k}

Niech \bar{\beta _{k}} pewna ustalona liczba rzeczywista.
Testujemy hipotezę H_{0}:\beta _{k}=\bar{\beta _{k}} wobec hipotezy alternatywnej H_{1}:\beta _{k}\neq\bar{\beta _{k}}.

Twierdzenie 5.1

Przy założeniach Z1–Z5 i H_{0} statystyka T_{k}

T_{k}=\frac{b_{k}-\bar{\beta _{k}}}{SE(b_{k})}

ma rozkład t-Studenta z n-K stopniami swobody.

Uwaga 5.1

Rozkład T_{k} nie zależy od X.

Dowód.

SE(b_{k})=\sqrt{S^{2}_{Y}(X^{T}X)^{{-1}}_{{k,k}}},

zatem

T_{k}=\frac{b_{k}-\bar{\beta _{k}}}{\sqrt{\sigma^{2}(X^{T}X)^{{-1}}_{{k,k}}}}\cdot\sqrt{\frac{\sigma^{2}}{S^{2}_{Y}}}=\frac{z_{k}}{\sqrt{\frac{S^{2}_{Y}}{\sigma^{2}}}}=
=\frac{z_{k}}{\sqrt{\frac{\xi^{T}\xi}{n-K}\frac{1}{\sigma^{2}}}}=\frac{z_{k}}{\sqrt{\frac{q}{n-K}}}.

gdzie

z_{k}=\frac{b_{k}-\bar{\beta _{k}}}{\sqrt{\sigma^{2}(X^{T}X)^{{-1}}_{{k,k}}}},\;\;\; z_{k}|X\sim N(0,1),
q=\frac{\xi^{T}\xi}{\sigma^{2}}.
Lemat 5.2

Przy założeniach twierdzenia 5.1:
1. q|X\sim\chi^{2}(n-K).
2. q i z_{k} są warunkowo względem X niezależne.

Dowód.
Ad.1.

\xi^{T}\xi=\varepsilon^{T}M\varepsilon,

zatem

q=\frac{\xi^{T}\xi}{\sigma^{2}}=\frac{1}{\sigma}\varepsilon^{T}M\frac{1}{\sigma}\varepsilon.
\frac{1}{\sigma}\varepsilon\sim N(0,Id_{n}),

zaś po odpowiednim obrocie układu współrzędnych M jest macierzą diagonalną mającą na przekątnej n-K jedynek i K zer, zatem

\frac{1}{\sigma}\varepsilon^{T}M\frac{1}{\sigma}\varepsilon\,|\, X\sim\chi^{2}(n-K).

Ad.2.

B=\beta+(X^{T}X)^{{-1}}\varepsilon,\;\;\xi=M\varepsilon,

zatem warunkowy względem X rozkład B i \xi jest normalny. Ale są one warunkowo nieskorelowane a zatem warunkowo niezależne. Ponieważ z_{k} zależy od B i X a q od \xi i X to są one warunkowo względem X niezależne.

\Box

Cd. dowodu twierdzenia.
Z lematu wynika, że

T_{k}=\frac{z_{k}}{\sqrt{\frac{q}{n-K}}}

ma warunkowy względem X rozkład t-Studenta z n-K stopniami swobody. Ponieważ rozkład warunkowy nie zależy od warunkowania to T_{k} ma ”bezwarunkowy” rozkład t-Studenta z n-K stopniami swobody.

\Box

Reguła decyzyjna testu t.
Przedstawimy trzy równoważne warianty reguły decyzyjnej dla zadanego poziomu istotności \alpha.

Wariant 1.
1. Na podstawie próbki \omega wyznaczamy realizację statystyki testowej t_{k}=T_{k}(\omega).
2. Wyznaczamy wartość krytyczną t^{\ast}_{{\alpha/2}}

P(|T|<t^{\ast}_{{\alpha/2}})=1-\alpha,\;\;\; T\sim t(n-K).

3. Jeżeli |t_{k}|<t^{\ast}_{{\alpha/2}} to nie ma podstaw do odrzucenia hipotezy H_{0} (akceptujemy H_{0}).
Jeżeli |t_{k}|\geq t^{\ast}_{{\alpha/2}} to odrzucamy H_{0} na rzecz H_{1}.

Wariant 2.
1. Na podstawie próbki wyznaczamy etymator b_{k} i jego błąd SE(b_{k}).
2. Wyznaczamy przedział ufności I_{\alpha}

I_{\alpha}=(b_{k}-SE(b_{k})t^{\ast}_{{\alpha/2}},b_{k}+SE(b_{k})t^{\ast}_{{\alpha/2}}).

3. Jeżeli \bar{\beta _{k}}\in I_{\alpha} to nie ma podstaw do odrzucenia hipotezy H_{0} (akceptujemy H_{0}).
Jeżeli \bar{\beta _{k}}\not\in I_{\alpha} to odrzucamy H_{0} na rzecz H_{1}.

Wariant 3.
1. Na podstawie próbki \omega wyznaczamy realizację statystyki testowej t_{k}=T_{k}(\omega).
2. Wyznaczamy prawdopodobieństwo (tzw. p-value)

p=2P(T\geq|t_{k}|),\;\;\mbox{ dla }\;\; T\sim t(n-K).

3. Jeżeli p>\alpha to nie ma podstaw do odrzucenia hipotezy H_{0} (akceptujemy H_{0}).
Jeżeli p\leq\alpha to odrzucamy H_{0} na rzecz H_{1}.

Uwaga 5.2

Najczęściej testujemy przypadek \bar{\beta _{k}}=0. Wówczas przyjecie H_{0} oznacza, że zmienną objaśniającą X_{k} należy wykluczyć z naszago modelu. Tzn. jeżeli

|b_{k}|<SE(b_{k})t^{\ast}_{{\alpha/2}},

to parametr \beta _{k} nie jest statystycznie istotny.

5.2. Testowanie hipotezy liniowości

Zajmiemy sie teraz testowaniem hipotezy, że nieznany parametr \beta=(\beta _{1},\dots,\beta _{K})^{T} spełnia m niezależnych warunków liniowych. Czyli, że należy do podprzestrzeni afinicznej kowymiaru m.

Niech r macierz o współczynnikach rzeczywistych wymiaru m\times K, rzędu m, gdzie m=1,\dots,K, a \tilde{r} wektor kolumnowy wymiaru m. Testujemy hipotezę

H_{0}:\;\; r\beta=\tilde{r},

wobec

H_{1}:\;\; r\beta\neq\tilde{r}.
Twierdzenie 5.2

Przy założeniach Z1–Z5 i H_{0} statystka

F=\frac{(rB-\tilde{r})^{T}(r(X^{T}X)^{{-1}}r^{T})^{{-1}}(rB-\tilde{r})}{mS^{2}}

ma rozklad F-Snedecora F(m,n-K) (rozkład F z m i n-K stopniami swobody).

Uwaga 5.3

Jeśli X_{1} i X_{2} są niezależnymi zmiennymi losowymi o rozkładzie \chi^{2} o odpowiednio m_{1} i m_{2} stopniach swobody to zmienna losowa

F=\frac{X_{1}}{X_{2}}\frac{m_{2}}{m_{1}}

ma rozkład F(m_{1},m_{2}) ([12] s.44-46).

Dowód twierdzenia.

F=\frac{(rB-\tilde{r})^{T}(r(X^{T}X)^{{-1}}r^{T})^{{-1}}(rB-\tilde{r})}{mS^{2}}.

Dzielimy licznik i mianownik przez \sigma^{2} i podstawiamy S^{2}=\frac{\xi^{T}\xi}{n-K}. Otrzymujemy

F=\frac{(rB-\tilde{r})^{T}(\sigma^{2}r(X^{T}X)^{{-1}}r^{T})^{{-1}}(rB-\tilde{r})/m}{\frac{\xi^{T}\xi}{\sigma^{2}(n-K)}}=\frac{w/m}{q/(n-K)},

gdzie

w=(rB-\tilde{r})^{T}(\sigma^{2}r(X^{T}X)^{{-1}}r^{T})^{{-1}}(rB-\tilde{r}),\;\;\;\  q=\frac{\xi^{T}\xi}{\sigma^{2}}.

Jak pokazaliśmy w lemacie 5.2 q|X\sim\chi^{2}(n-K).

Lemat 5.3

Przy założeniach twierdzenia 5.2:
1. w|X\sim\chi^{2}(m).
2. q i w są warunkowo względem X niezależne.

Dowód.
Ad.1. Przyjmijmy oznaczenie v=rB-\tilde{r}. Z H_{0} wynika, że \tilde{r}=r\beta, zatem

v=rB-\tilde{r}=r(B-\beta).

Ponieważ warunkowy rozkład B-\beta względem X jest normalny (lemat 5.1)to

v|X\sim N(0,\sigma^{2}r(X^{T}X)^{{-1}}r^{T}).

Rzeczywiście

Var(v|X)=Var(r(B-\beta)|X)=rVar((B-\beta)|X)r^{T}=\sigma^{2}r(X^{T}X)^{{-1}}r^{T}.

A więc

w=v^{T}Var(v|X)^{{-1}}v,\;\;\;\mbox{ i }\;\;\; w|X\sim\chi^{2}(m).

B i \xi są warunkowo względem X niezależne. Ponieważ w zależy od B i X a q od \xi i X to również one są warunkowo względem X niezależne.

\Box

Cd. dowodu twierdzenia.
Z lematu wynika, że statystyka F ma warunkowy względem X rozkład F-Snedecora F(m,n-K). Ponieważ rozkład warunkowy nie zależy od warunkowania to X ma ”bezwarunkowy” rozkład F(m,n-K).

\Box

Reguła decyzyjna testu F.
Przedstawimy dwa równoważne warianty reguły decyzyjnej dla zadanego poziomu istotności \alpha.

Wariant 1.
1. Na podstawie próbki \omega wyznaczamy realizację statystyki testowej f=F(\omega).
2. Wyznaczamy wartość krytyczną f^{\ast}_{{\alpha}}

P(X>f^{\ast}_{{\alpha}})=\alpha,\;\;\; X\sim F(m,n-K).

3. Jeżeli f<f^{\ast}_{{\alpha}} to nie ma podstaw do odrzucenia hipotezy H_{0} (akceptujemy H_{0}).
Jeżeli f\geq f^{\ast}_{{\alpha}} to odrzucamy H_{0} na rzecz H_{1}.

Wariant 2.
1. Na podstawie próbki \omega wyznaczamy realizację statystyki testowej f=F(\omega).
2. Wyznaczamy prawdopodobieństwo (tzw. p-value)

p=P(X\geq f),\;\;\mbox{ dla }\;\; X\sim F(m,n-K).

3. Jeżeli p>\alpha to nie ma podstaw do odrzucenia hipotezy H_{0} (akceptujemy H_{0}).
Jeżeli p\leq\alpha to odrzucamy H_{0} na rzecz H_{1}.

Statystyka F w terminach sumy kwadratów reszt.
Statystykę F mozna wyrazić w prostszy sposób wykorzystując sumę kwadratów reszt modelu ograniczonego

SKR_{o}=\min\{ SKR(B):\;\; rB=\tilde{r}\}=\min\{\xi^{T}\xi:\;\;\xi=Y-XB_{0},\;\; rB_{0}=\tilde{r}\}.
Lemat 5.4

Przy założeniach twierdzenia 5.2:

F=\frac{SKR_{o}-SKR}{SKR}\frac{n-K}{m}.

Dowód.
Krok 1. Pokażemy, że estymator OMNK (metody najmniejszych kwadratów z ograniczeniami) wynosi

B_{o}=B-(X^{T}X)^{{-1}}r^{T}(r(X^{T}X)^{{-1}}r^{T})^{{-1}}(rB-\tilde{r}).

Rozważamy funkcję Lagrange'a

L(B_{o},\lambda)=\frac{1}{2}(Y-XB_{o})^{T}(Y-XB_{o})+\lambda^{T}(rB_{o}-\tilde{r}),

gdzie \lambda jest m-elementowym wektorem wierszowym.
Różniczkujemy L po współrzędnych B_{o}.

\frac{\partial L}{\partial B_{{o,i}}}=-(Y-XB_{o})^{T}Xe_{i}+\lambda^{T}re_{i}=(\lambda^{T}r-Y^{T}X+B_{o}^{T}X^{T}X)e_{i},

gdzie e_{i} n-elementowym wektorem kolumnowym o współrzędnych 0 i 1

e_{{i,j}}=\left\{\begin{array}[]{ccc}1&\mbox{ gdy }&j=i,\\
0&\mbox{ gdy }&j\neq i.\\
\end{array}\right.

Ponieważ wszystkie pochodne cząstkowe zerują się w punktach, w których funkcja przyjmuje minimum to

B_{o}^{T}=(-\lambda^{T}r+Y^{T}X)(X^{T}X)^{{-1}}.

Czyli po transpozycji mamy

B_{o}=(X^{T}X)^{{-1}}(X^{T}Y-r^{T}\lambda)=B-(X^{T}X)^{{-1}}r^{T}\lambda.

Po przemnożeniu przez macierz r otrzymujemy

\tilde{r}=rB_{o}=rB-r(X^{T}X)^{{-1}}r^{T}\lambda.

Ponieważ rząd m\times n macierzy r wynosi m, a macierz (X^{T}X)^{{-1}} jest prawie na pewno dodatnio określona, to macierz r(X^{T}X)^{{-1}}r^{T} jest prawie na pewno odwracalna. Zatem

\lambda=(r(X^{T}X)^{{-1}}r^{T})^{{-1}}(rB-\tilde{r})).

Czyli

B_{0}=B-(X^{T}X)^{{-1}}r^{T}(r(X^{T}X)^{{-1}}r^{T})^{{-1}}(rB-\tilde{r})).

Krok 2. Pokażemy, że SKR_{o}-SKR=\sigma^{2}w, gdzie w takie jak w lemacie 5.3

w=(rB-\tilde{r})^{T}(\sigma^{2}r(X^{T}X)^{{-1}}r^{T})^{{-1}}(rB-\tilde{r}).

Mamy

SKR_{o}-SKR=\| Y-XB_{o}\|^{2}-\| Y-XB\|^{2}=\| Y-XB+X(B-B_{o})\|^{2}-\| Y-XB\|^{2}.
=2(Y-XB)^{T}X(B-B_{o})+\| X(B-B_{o})\|^{2}.

Ponieważ \xi=Y-XB jest ortogonalne do wszystkich kolumn macierzy X (wniosek 2.1) to

SKR_{o}-SKR=\| X(B-B_{o})\|^{2}=(B-B_{o})^{T}X^{T}X(B-B_{o})=
=(rB-\tilde{r})^{T}(r(X^{T}X)^{{-1}}r^{T})^{{-1}}r(X^{T}X)^{{-1}}X^{T}X(X^{T}X)^{{-1}}r^{T}(r(X^{T}X)^{{-1}}r^{T})^{{-1}}(rB-\tilde{r})=
=(rB-\tilde{r})^{T}(r(X^{T}X)^{{-1}}r^{T})^{{-1}}(rB-\tilde{r})=\sigma^{2}w.

Krok 3.

F=\frac{\sigma^{2}w}{\sigma^{2}q}\frac{n-K}{m}.

Ponieważ \sigma^{2}q=\xi^{T}\xi=SKR, a \sigma^{2}w=SKR_{o}-SKR to otrzymujemy

F=\frac{SKR_{o}-SKR}{SKR}\frac{n-K}{m}.
\Box

Sprowadzanie modelu ograniczonego do modelu z mniejszą liczbą parametrów.

Rozwiązanie ogólne układu równań liniowych r\beta=\tilde{r} mozna zapisać w postaci parametrycznej:

\beta=a_{0}+a_{1}\gamma,

gdzie a_{0} jest wektorem kolumnowym K\times 1, a_{1} jest macierzą K\times(K-m), a (K-m) wektor kolumnowy \gamma jest wektorem nieznanych parametrów, które należy wyestymować. Zauważmy, że

ra_{0}=\tilde{r},\;\;\; ra_{1}=0.

Model z ograniczeniami można zapisać w następujący sposób:

Y=X(a_{0}+a_{1}\gamma)+\varepsilon.

Po podstawieniu Y_{o}=Y-Xa_{0} i X_{o}=Xa_{1} otrzymujemy równoważny mu model zredukowany

Y_{o}=X_{o}\gamma+\varepsilon.

Niech g będzie estymatorem MNK \gamma dla modelu zredukowanego. Wówczas B_{o}=a_{0}+a_{1}g jest estymatorem \beta dla modelu z ograniczeniami. Zauważmy, że w obu wypadkach mamy ten sam składnik resztowy \xi _{0}.

\xi _{0}=Y_{o}-X_{o}g=Y-Xa_{0}-Xa_{1}g=Y-XB_{o}.

Test istotności regresji dla regresji z wyrazem wolnym.

W przypadku gdy ostatni parametr jest wyrazem wolnym, czyli gdy X_{K}=e, stosuje się często następujący wariant testu liniowości:

H_{0}:\beta _{1}=\beta _{2}=\dots=\beta _{{K-1}}=0,\;\;\; H_{1}:\exists i<K\;\;\beta _{i}\neq 0.

W tym przypadku r jest (K-1)\times K wymiarową macierzą o wyrazach

r_{{i,j}}=\left\{\begin{array}[]{cc}1&\mbox{ gdy }i=j,\\
0&\mbox{ gdy }i\neq j,\end{array}\right.

a \tilde{r}=0.

Statystyka F wynosi wtedy

F=\frac{SKR_{o}-SKR}{SKR}\frac{n-K}{K-1}=\frac{\| Y-\overline{Y}e\|^{2}-\| Y-\widehat{Y}\|^{2}}{\| Y-\widehat{Y}\|^{2}}\,\frac{n-K}{K-1}=
=\frac{\|\widehat{Y}-\overline{Y}e\|^{2}}{\| Y-\widehat{Y}\|^{2}}\,\frac{n-K}{K-1}=\frac{\sum _{{t=1}}^{n}(\widehat{Y}_{t}-\overline{Y})^{2}}{\sum _{{t=1}}^{n}(Y_{t}-\widehat{Y}_{t})^{2}}\,\frac{n-K}{K-1}.
Uwaga 5.4

F można wyrazić za pomocą współczynnika determinacji R^{2}

F=\frac{R^{2}}{1-R^{2}}\,\frac{n-K}{K-1}.

Dowód.

R^{2}=1-\frac{\sum _{{t=1}}^{n}(Y_{t}-\widehat{Y}_{t})^{2}}{\sum _{{t=1}}^{n}(Y_{t}-\overline{Y})^{2}}.

Dlatego też

\frac{R^{2}}{1-R^{2}}\,\frac{n-K}{K-1}=\left(\frac{1}{1-R^{2}}-1\right)\,\frac{n-K}{K-1}=
=\left(\frac{\sum _{{t=1}}^{n}(Y_{t}-\overline{Y})^{2}}{\sum _{{t=1}}^{n}(Y_{t}-\widehat{Y}_{t})^{2}}-1\right)\,\frac{n-K}{K-1}=F.
\Box

Treść automatycznie generowana z plików źródłowych LaTeXa za pomocą oprogramowania wykorzystującego LaTeXML.

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu Społecznego.

Projekt współfinansowany przez Ministerstwo Nauki i Szkolnictwa Wyższego i przez Uniwersytet Warszawski.