Zagadnienia

5. Klasyczny model regresji z gaussowskim składnikiem losowym

Klasyczny jednorównaniowy liniowy model ekonometryczny -cd. Statystyczna weryfikacja modelu. (1 wykład)

Na tym wykładzie zajmiemy się ”kompletnym” modelem regresji, tzn. przyjmiemy wszystkie pięć założeń Z1 – Z5.

Lemat 5.1

Jeśli zachodzą Z1,Z2,Z3,Z4 i Z5 to estymator NMK B ma warunkowy rozkład normalny

B-β|XN(0,σ2(XTX)-1),
bk-βk|XN(0,σ2(XTX)-1k,k).

Dowód.

B-β=(XTX)-1XTε, gdzie ε|XN(σ2Idn).

Zatem B-β|X ma rozkład normalny o wartości oczekiwanej 0 i wariancji

XTX-1XTσ2IdnXXTX-1=σ2XTX-1.

5.1. Testowanie pojedynczego parametru strukturalnego βk

Niech βk¯ pewna ustalona liczba rzeczywista.
Testujemy hipotezę H0:βk=βk¯ wobec hipotezy alternatywnej H1:βkβk¯.

Twierdzenie 5.1

Przy założeniach Z1–Z5 i H0 statystyka Tk

Tk=bk-βk¯SEbk

ma rozkład t-Studenta z n-K stopniami swobody.

Uwaga 5.1

Rozkład Tk nie zależy od X.

Dowód.

SEbk=SY2XTXk,k-1,

zatem

Tk=bk-βk¯σ2XTXk,k-1σ2SY2=zkSY2σ2=
=zkξTξn-K1σ2=zkqn-K.

gdzie

zk=bk-βk¯σ2XTXk,k-1,zk|XN(0,1),
q=ξTξσ2.
Lemat 5.2

Przy założeniach twierdzenia 5.1:
1. q|Xχ2(n-K).
2. q i zk są warunkowo względem X niezależne.

Dowód.
Ad.1.

ξTξ=εTMε,

zatem

q=ξTξσ2=1σεTM1σε.
1σεN0,Idn,

zaś po odpowiednim obrocie układu współrzędnych M jest macierzą diagonalną mającą na przekątnej n-K jedynek i K zer, zatem

1σεTM1σε|Xχ2(n-K).

Ad.2.

B=β+XTX-1ε,ξ=Mε,

zatem warunkowy względem X rozkład B i ξ jest normalny. Ale są one warunkowo nieskorelowane a zatem warunkowo niezależne. Ponieważ zk zależy od B i X a q od ξ i X to są one warunkowo względem X niezależne.

Cd. dowodu twierdzenia.
Z lematu wynika, że

Tk=zkqn-K

ma warunkowy względem X rozkład t-Studenta z n-K stopniami swobody. Ponieważ rozkład warunkowy nie zależy od warunkowania to Tk ma ”bezwarunkowy” rozkład t-Studenta z n-K stopniami swobody.

Reguła decyzyjna testu t.
Przedstawimy trzy równoważne warianty reguły decyzyjnej dla zadanego poziomu istotności α.

Wariant 1.
1. Na podstawie próbki ω wyznaczamy realizację statystyki testowej tk=Tkω.
2. Wyznaczamy wartość krytyczną tα/2

PT<tα/2=1-α,Ttn-K.

3. Jeżeli tk<tα/2 to nie ma podstaw do odrzucenia hipotezy H0 (akceptujemy H0).
Jeżeli tktα/2 to odrzucamy H0 na rzecz H1.

Wariant 2.
1. Na podstawie próbki wyznaczamy etymator bk i jego błąd SEbk.
2. Wyznaczamy przedział ufności Iα

Iα=bk-SEbktα/2,bk+SEbktα/2.

3. Jeżeli βk¯Iα to nie ma podstaw do odrzucenia hipotezy H0 (akceptujemy H0).
Jeżeli βk¯Iα to odrzucamy H0 na rzecz H1.

Wariant 3.
1. Na podstawie próbki ω wyznaczamy realizację statystyki testowej tk=Tkω.
2. Wyznaczamy prawdopodobieństwo (tzw. p-value)

p=2PTtk, dla Ttn-K.

3. Jeżeli p>α to nie ma podstaw do odrzucenia hipotezy H0 (akceptujemy H0).
Jeżeli pα to odrzucamy H0 na rzecz H1.

Uwaga 5.2

Najczęściej testujemy przypadek βk¯=0. Wówczas przyjecie H0 oznacza, że zmienną objaśniającą Xk należy wykluczyć z naszago modelu. Tzn. jeżeli

bk<SEbktα/2,

to parametr βk nie jest statystycznie istotny.

5.2. Testowanie hipotezy liniowości

Zajmiemy sie teraz testowaniem hipotezy, że nieznany parametr β=β1,,βKT spełnia m niezależnych warunków liniowych. Czyli, że należy do podprzestrzeni afinicznej kowymiaru m.

Niech r macierz o współczynnikach rzeczywistych wymiaru m×K, rzędu m, gdzie m=1,,K, a r~ wektor kolumnowy wymiaru m. Testujemy hipotezę

H0:rβ=r~,

wobec

H1:rβr~.
Twierdzenie 5.2

Przy założeniach Z1–Z5 i H0 statystka

F=rB-r~TrXTX-1rT-1rB-r~mS2

ma rozklad F-Snedecora Fm,n-K (rozkład F z m i n-K stopniami swobody).

Uwaga 5.3

Jeśli X1 i X2 są niezależnymi zmiennymi losowymi o rozkładzie χ2 o odpowiednio m1 i m2 stopniach swobody to zmienna losowa

F=X1X2m2m1

ma rozkład Fm1,m2 ([12] s.44-46).

Dowód twierdzenia.

F=rB-r~TrXTX-1rT-1rB-r~mS2.

Dzielimy licznik i mianownik przez σ2 i podstawiamy S2=ξTξn-K. Otrzymujemy

F=rB-r~Tσ2rXTX-1rT-1rB-r~/mξTξσ2n-K=w/mq/n-K,

gdzie

w=rB-r~Tσ2rXTX-1rT-1rB-r~,q=ξTξσ2.

Jak pokazaliśmy w lemacie 5.2 q|Xχ2(n-K).

Lemat 5.3

Przy założeniach twierdzenia 5.2:
1. w|Xχ2(m).
2. q i w są warunkowo względem X niezależne.

Dowód.
Ad.1. Przyjmijmy oznaczenie v=rB-r~. Z H0 wynika, że r~=rβ, zatem

v=rB-r~=rB-β.

Ponieważ warunkowy rozkład B-β względem X jest normalny (lemat 5.1)to

v|XN(0,σ2r(XTX)-1rT).

Rzeczywiście

Var(v|X)=Var(r(B-β)|X)=rVar((B-β)|X)rT=σ2r(XTX)-1rT.

A więc

w=vTVar(v|X)-1v, i w|Xχ2(m).

B i ξ są warunkowo względem X niezależne. Ponieważ w zależy od B i X a q od ξ i X to również one są warunkowo względem X niezależne.

Cd. dowodu twierdzenia.
Z lematu wynika, że statystyka F ma warunkowy względem X rozkład F-Snedecora Fm,n-K. Ponieważ rozkład warunkowy nie zależy od warunkowania to X ma ”bezwarunkowy” rozkład Fm,n-K.

Reguła decyzyjna testu F.
Przedstawimy dwa równoważne warianty reguły decyzyjnej dla zadanego poziomu istotności α.

Wariant 1.
1. Na podstawie próbki ω wyznaczamy realizację statystyki testowej f=Fω.
2. Wyznaczamy wartość krytyczną fα

PX>fα=α,XFm,n-K.

3. Jeżeli f<fα to nie ma podstaw do odrzucenia hipotezy H0 (akceptujemy H0).
Jeżeli ffα to odrzucamy H0 na rzecz H1.

Wariant 2.
1. Na podstawie próbki ω wyznaczamy realizację statystyki testowej f=Fω.
2. Wyznaczamy prawdopodobieństwo (tzw. p-value)

p=PXf, dla XFm,n-K.

3. Jeżeli p>α to nie ma podstaw do odrzucenia hipotezy H0 (akceptujemy H0).
Jeżeli pα to odrzucamy H0 na rzecz H1.

Statystyka F w terminach sumy kwadratów reszt.
Statystykę F mozna wyrazić w prostszy sposób wykorzystując sumę kwadratów reszt modelu ograniczonego

SKRo=minSKRB:rB=r~=minξTξ:ξ=Y-XB0,rB0=r~.
Lemat 5.4

Przy założeniach twierdzenia 5.2:

F=SKRo-SKRSKRn-Km.

Dowód.
Krok 1. Pokażemy, że estymator OMNK (metody najmniejszych kwadratów z ograniczeniami) wynosi

Bo=B-XTX-1rTrXTX-1rT-1rB-r~.

Rozważamy funkcję Lagrange'a

LBo,λ=12Y-XBoTY-XBo+λTrBo-r~,

gdzie λ jest m-elementowym wektorem wierszowym.
Różniczkujemy L po współrzędnych Bo.

LBo,i=-Y-XBoTXei+λTrei=λTr-YTX+BoTXTXei,

gdzie ei n-elementowym wektorem kolumnowym o współrzędnych 0 i 1

ei,j=1 gdy j=i,0 gdy ji.

Ponieważ wszystkie pochodne cząstkowe zerują się w punktach, w których funkcja przyjmuje minimum to

BoT=-λTr+YTXXTX-1.

Czyli po transpozycji mamy

Bo=XTX-1XTY-rTλ=B-XTX-1rTλ.

Po przemnożeniu przez macierz r otrzymujemy

r~=rBo=rB-rXTX-1rTλ.

Ponieważ rząd m×n macierzy r wynosi m, a macierz XTX-1 jest prawie na pewno dodatnio określona, to macierz rXTX-1rT jest prawie na pewno odwracalna. Zatem

λ=(r(XTX)-1rT)-1(rB-r~)).

Czyli

B0=B-(XTX)-1rT(r(XTX)-1rT)-1(rB-r~)).

Krok 2. Pokażemy, że SKRo-SKR=σ2w, gdzie w takie jak w lemacie 5.3

w=rB-r~Tσ2rXTX-1rT-1rB-r~.

Mamy

SKRo-SKR=Y-XBo2-Y-XB2=Y-XB+XB-Bo2-Y-XB2.
=2Y-XBTXB-Bo+XB-Bo2.

Ponieważ ξ=Y-XB jest ortogonalne do wszystkich kolumn macierzy X (wniosek 2.1) to

SKRo-SKR=XB-Bo2=B-BoTXTXB-Bo=
=(rB-r~)T(r(XTX)-1rT)-1r(XTX)-1XTX(XTX)-1rT(r(XTX)-1rT)-1(rB-r~)=
=(rB-r~)T(r(XTX)-1rT)-1(rB-r~)=σ2w.

Krok 3.

F=σ2wσ2qn-Km.

Ponieważ σ2q=ξTξ=SKR, a σ2w=SKRo-SKR to otrzymujemy

F=SKRo-SKRSKRn-Km.

Sprowadzanie modelu ograniczonego do modelu z mniejszą liczbą parametrów.

Rozwiązanie ogólne układu równań liniowych rβ=r~ mozna zapisać w postaci parametrycznej:

β=a0+a1γ,

gdzie a0 jest wektorem kolumnowym K×1, a1 jest macierzą K×K-m, a K-m wektor kolumnowy γ jest wektorem nieznanych parametrów, które należy wyestymować. Zauważmy, że

ra0=r~,ra1=0.

Model z ograniczeniami można zapisać w następujący sposób:

Y=Xa0+a1γ+ε.

Po podstawieniu Yo=Y-Xa0 i Xo=Xa1 otrzymujemy równoważny mu model zredukowany

Yo=Xoγ+ε.

Niech g będzie estymatorem MNK γ dla modelu zredukowanego. Wówczas Bo=a0+a1g jest estymatorem β dla modelu z ograniczeniami. Zauważmy, że w obu wypadkach mamy ten sam składnik resztowy ξ0.

ξ0=Yo-Xog=Y-Xa0-Xa1g=Y-XBo.

Test istotności regresji dla regresji z wyrazem wolnym.

W przypadku gdy ostatni parametr jest wyrazem wolnym, czyli gdy XK=e, stosuje się często następujący wariant testu liniowości:

H0:β1=β2==βK-1=0,H1:i<Kβi0.

W tym przypadku r jest K-1×K wymiarową macierzą o wyrazach

ri,j=1 gdy i=j,0 gdy ij,

a r~=0.

Statystyka F wynosi wtedy

F=SKRo-SKRSKRn-KK-1=Y-Y¯e2-Y-Y^2Y-Y^2n-KK-1=
=Y^-Y¯e2Y-Y^2n-KK-1=t=1nY^t-Y¯2t=1nYt-Y^t2n-KK-1.
Uwaga 5.4

F można wyrazić za pomocą współczynnika determinacji R2

F=R21-R2n-KK-1.

Dowód.

R2=1-t=1nYt-Y^t2t=1nYt-Y¯2.

Dlatego też

R21-R2n-KK-1=11-R2-1n-KK-1=
=(t=1nYt-Y¯2t=1nYt-Y^t2-1)n-KK-1=F.

Treść automatycznie generowana z plików źródłowych LaTeXa za pomocą oprogramowania wykorzystującego LaTeXML.

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu Społecznego.

Projekt współfinansowany przez Ministerstwo Nauki i Szkolnictwa Wyższego i przez Uniwersytet Warszawski.