Zagadnienia

8. Modele liniowe

8.1. Predykcja cechy ciągłej

Będziemy obserwować ciągłą zmienną objaśnianą yi oraz zmienne objaśniające xi=xi1,,xip, i=1,,n. Na ich podstawie będziemy chcieli znaleźć funkcję zależącą od x, która będzie najlepiej przybliżać cechę y. Ograniczymy się przy tym tylko do zależności liniowej. Na podstawie znalezionej funkcji, dla nowo zaobserwoawanych xn+1 będziemy mogli znależć predykcję y^n+1. Jeżeli rozpatrzymy jednowymiarowy xi (p=1), szukanie funkcji liniowej najlepiej przybliżającej dane obrazuje rysunek 8.1.

\par
Rys. 8.1. Regresja liniowa jako dopasowanie prostej do danych.

Dane są postaci:

y1ynlosowe,obserwowane=x11x1pxn1xnpdeterministyczne,obserwowaneβ1βpszukane+ε1εnlosowe,nieobserwowane.

W zapisie macierzowym:

y=Xβ+ε,

gdzie:

  • wektor y będziemy nazywać zmienną objaśnianą;

  • macierz X macierzą planu;

  • β estymowanymi parametrami;

  • ε to wektor efektów losowych (wektor realizacji zmiennej losowej).

Dla tak sformułowanego problemu przyjmiemy następujące założenia:

  1. Eε=0;

  2. Varε=σ2In;

  3. rząd macierzy X jest pełny: rankX=p.

Dla tak sformułowanych danych, problem szukania estymatora parametru β będziemy nazywać problemem liniowym.

Twierdzenie 8.1

Rozkład QR macierzy

Szeroki rozkład QR: Każdą rzeczywistą macierz A wymiaru n×m mn można zapisać jako iloczyn maierzy ortogonalnej Q wymiaru n×n QTQ=In oraz górnotrójkątnej macierzy R wymiaru n×m:

A=QR=Q.

Wąski rozkład QR: Ponieważ n-m dolnych wierzy macierzy R jest zerowa, można skrócić zapis do

A=QR=QR0=Q1Q2R10=Q1R1=,
=Q1.

gdzie Q1 jest macierzą wymairu n×m o ortogonalnych kolumnach a R1 jest macierzą górnotrójkątną wymairu m×m.

Wąski rozkład QR jest zapisem macierzowym ortogonalizacji Gramma-Schmidta układu wektorów będących kolumnami macierzy A. Szeroki rozkład otrzymujemy dopełniając macierz Q1 do bazy przestrzeni Rn.

Problem 8.1

Przy założeniu modelu liniowego, będziemy chcieli wyestymować nieznane parametry: β i σ2.

8.2. Metoda najmniejszych kwadratów (mnk)

Zauważmy, że

Ey=EXβ+ε=Xβ+Eε=Xβ.

Estymator najmnieszych kwadratów parametru β to taka jego wartość, dla której odległości euklidesowe przybliżanych danych od prostej je przybliżających jest najmniejsza:

β^=minβy-Xβ2.
Twierdzenie 8.2

Estymator najmniejszych kwadratów wyraża się wzorem

β^=R1-1Q1Ty,

gdzie R1 i Q1 pochodzą z wąskiego rozkładu QR macierzy planu X.

Skorzystajmy z szerokiego rozkładu QR macierzy X: X=QR. Ponieważ mnożenie wektora przez macierz ortogonalną nie zmienia jego normy, możemy zapisać:

y-Xβ2=QTy-QRβ2=
=||Q1T(y-Q1R1β)||2+||Q2T(y-Q1R1β)||2=
=Q1Ty-R1β2+Q2Ty2.

Wyrażenie to osiąga minimum ze względu na parametr β, jeżeli wyzerujemy pierwszy składnik sumy:

Q1Ty=R1β^.

Ponieważ macierz R1 jest kwadratowa i pełnego rzędu (rankX=p), możemy ją odwrócić:

β^=R1-1Q1Ty.
Wniosek 8.1

Zauważmy, że:

  1. Predykcja dla y jest równa y^=Xβ^;

  2. y-y^2=Q2Ty2. (8.1)

Przyjrzyjmy się własnościom metody najmniejszych kwadratów (zostaną one udowodnione w dalszej części wykładu):

  1. y^=Xβ^ jest rzutem ortogonalnym y na przestrzeń rozpiętą przez kolumny macierzy planu X.

  2. Nieobciążonym estymatorem parametru σ2 jest σ^2=y-y^2n-p.

  3. Twierdzenie Gaussa-Markowa: estymator β^ jest liniowym, nieobciążonym estymatorem o najmniejszej wariancji parametru β (BLUE- Best Linear Unbiased Estimator).

  4. Przy założeniu εN0,σ2In, zachodzi twierdzenie Fishera:

    • β^Nβ,σ2XTX-1;

    • n-pσ^2σ2χ2n-p;

    • β^ i σ^2 są niezależne.

8.3. Inne wyprowadzenie estymatora najmniejszych kwadratów

Wyprowadzimy estymator mnk jako rozwiązanie zadania BLUE – liniowy, nieobciążony estymator o najmniejszej wariancji. Rozumowanie będzie jednocześnie dowodem twierdzenia Gaussa-Markowa.

Twierdzenie 8.3

Dla problemu liniowego estymator postaci β^=XTX-1XTy jest liniowym, nieobciążonym estymatorem o najmniejszej wariancji parametru β.

Żeby łatwiej mówić o nieobciążoności, czy minimalnej wariancji, zredukujemy wymiar problemu do jednowymiarowego zakładając, że własności będą zachodzić dla wszystkich możliwych kombinacji liniowych zmiennej objaśnianej: Dla danego wektora l, konstruujemy kombinację liniową μ=lTβ i szukamy dla niej estymatora zależącego liniowo od y:

μ^=cTy

przy założeniu nieobciążoności:

Eμ^=μ=lTβ.

Jednocześnie wiemy, że:

Eμ^=cTEy=cTXβ.

Stąd:

cTX=lT.

Będziemy minimalizować wariancję estymatora μ^:

Varμ^=VarcTy=cTVaryc=σ2cTc.

Zadanie optymalizacyjne wygląda następująco:

mincσ2cTc pod warunkiem cTX=lT.

Skorzystajmy z metody mnożników Lagrange'a:

mincFc,λ=σ2cTc+cTX-lTλwektor.

Szukamy estymatora wektora c, spełniającego dwa równania:

Fc=2σ2c+Xλ=0; (8.2)
Fλ=XTc-l=0. (8.3)

Z równania 8.2 otrzymujemy: c=-12σ2Xλ, wstawiamy do równania 8.3:

-12σ2XTX=l,

skąd:

λ=-2σ2XTX-1l.

Macierz X jest pełnego rzędu, więc macierz XTX jest odwracalna. Wstawiając λ do wzoru na c, otrzymujemy:

c=XXTX-1l , inaczej: cT=lTXTX-1XT.

Estymator μ^ jest więc postaci:

μ^=cTy=lTXTX-1XTy;

podstawiając za l kolejne wektory bazy kanonicznej ei=0,,0,1,0,,0, znajdujemy kolejne estymatory kombinacji liniowych lTβ=eiTβ=βi^, co łącznie możemy zapisać jako:

β^=XTX-1XTy.
Stwierdzenie 8.1

Liniowy, nieobciążony estymator o najmniejszej wariancji parametru β w modelu liniowym jest równy estymatorowi najmniejszych kwadratów.

β=XTX-1XTy=

korzystając z wąskiego rozkładu QR: X=Q1R1,

=(R1TQ1TQ1=IpR1)-1R1TQ1Ty=
=R1-1R1T-1R1T=IpQ1Ty=R1-1Q1Ty.

8.4. Estymatory metody największej wiarygodności prametrów modelu liniowego

Estymatory największej wiarygodności to takie wartości parametrów, których prawdopodobieństwo zaobserwowania danych jest największe. Żeby skorzystać z tej metody estymacji, potrzebna jest funkcja wiarygodności, niezbędne więc będzie założenie na temat rozkładu danych:

Zamiast zakładać:

Eε=0,Varε=σ2In

założymy:

εN0,σ2In,

skąd mamy yNXβ,σ2In oraz funkcję wiarygodności:

fβ,σ2y1,,yn=fβ,σ2y=12πn2σ2In12exp-12y-Xβσ-2Iny-Xβ=
=12πn2σ2n2exp-12σ2y-Xβ2.

Funkcję wiarygodności będziemy chcieli zmaksymalizować po parametrach β i σ2. Ponieważ logarytm jest funkcją rosnącą, jest to równoważne z maksymalizacją logarytmu funkcji wiarygodności:

Fβ,σ2y=logfβ,σ2y=C-n2logσ2-12σ2y-Xβ2,

gdzie C jest stałą niezależną od szukanych parametrów. Zadanie maksymalizacji logwiarygodności Fβ,σ2 jest rónoważne minimalizacji -2Fβ,σ2:

-2Fβ,σ2y=C+nlogσ2+1σ2y-Xβ2.

Część sumy zależąca od parametru β to 1σ2y-Xβ2. Wartością parametru β minimalizującą to wyrażenie jest:

β^mnw=XTX-1XTy=R1-1Q1Ty,

co udowodniliśmy już w twierdzeniu 8.2.

Ponieważ β^ nie zależy od parametru σ2, mogę wstawić estymator do funkcji wiarygodności przy szukaniu optymalnego parametru σ2. Oznaczmy także τ=σ2 żeby nie mylił się nam kwadrat przy parametrze:

-2Fβ,σ2y=C+nlogτ+1τy-Xβ^2.
-2Fβ,σ2τ=nτ-1τ2y-Xβ^2=0,

skąd otrymujemy:

nτ=y-Xβ^2;
τ^=σ^2=y-Xβ^2n.
Wniosek 8.2

Przy założeniu rozkładu normalnego:

  1. estymatory parametru β dla metody największej wiarygodności i metody najmniejszych kwadratów są równe:

    β^mnk=β^mnw=XTX-1XTy;
  2. estymatory parametru σ2 dla metody największej wiarygodności i metody najmniejszych kwadratów są równe z dokładnością do stałej:

    σ^mnk2=y-Xβ^2n-p,σ^mnw2=y-Xβ^2n.

8.5. Kolejne własności estymatorów mnk

8.5.1. Wartość oczekiwana i wariancja estymatora β^

  • Wartość oczekiwana:

    Eβ^=EXTX-1XTy=XTX-1XTEy=XTX-1XTXβ=β. (8.4)

    Estymator jest niebciążony.

  • Macierz wariancji:

    Varβ^=Eβ^-ββ^-βT=
    =E((XTX)-1XTy-(XTX)-1XTEy)((XTX)-1XTy-(XTX)-1XTEy)T=
    =(XTX)-1XTE[(y-Ey)(y-Ey)T]((XTX)-1XT)T=
    =(XTX)-1XTσ2In((XTX)-1XT)T=σ2(XTX)-1XTXXTX-1=Ip=
    =σ2XTX-1. (8.5)

8.5.2. Dopasowanie y^ jako rzut ortogoanlny y na przestrzeń rozpiętą przez kolumny macierzy X

\par
Rys. 8.2. Dopasowanie y^ jako rzut ortogonalny y na linX.

Prypomnijmy

β^=XTX-1XTy,y^=Xβ^.
Definicja 8.1

Macierzą daszkową H nazwiemy taką macierz, że:

y^=XXTX-1XTy=Hy.

Stąd:

H=XXTX-1XT.
Stwierdzenie 8.2

Zauważmy, że y^ jest nieobciążonym estymatorem y:

Ey^=XXTX-1XTXβ=Xβ.
Stwierdzenie 8.3

Własności macierzy daszkowej H:

  1. HX=X:

    XXTX-1XTX=Ip=X;
  2. macierz H jest idempotentna, czyli HH=H:

    HH=XXTX-1XTX=IpXTX-1XT=H;
  3. symetryczna, czyli HT=H:

    HT=XXTX-1XTT=XXTX-1XT=H.
  4. korzystając z wąskiego rozkładu QR macierzy X, H=Q1Q1T:

    H=Q1R1R1TQ1TQ1=IpR1-1R1TQ1TQ1=IpR1R1-1=IpR1T-1R1T=IpQ1T=
    =Q1R1R1-1=IpR1T-1R1T=IpQ1T=Q1Q1T.
  5. korzystając z szerokiego rozkładu QR macierzy X, możemy przyjrzeć się rozkładowi spektralnemu macierzy daszkowej:

    H=QRRTQTQ=InR-1RTQT=

    ponieważ RTR=R1TR1,

    =QR(R1TR1)-1RTQT=QRR1-1(R1T)-1RTQT=
    =Q110QTrozkład spektralny macierzy H=

    dla Q=q1,,qp,,qn:

    =Q1Q1T=i=1p1qiqiT+i=p+1n0qiqiT
Wniosek 8.3
  1. Macierz daszkowa H jest macierzą rzutu ortogonalnego na przestrzeń rozpiętą przez kolumny macierzy X.

  2. Jeżeli y^=Xβ^ minimalizuje wyrażenie y-y^2, to jest rzutem ortogonalnym y na linX.

8.5.3. Nieobciążony estymator parametru σ2

Stwierdzenie 8.4

Macierz In-H jest macierzą rzutu ortogonalnego na przestrzeń prostopadłą do przestrzeni rozpiętej przez kolumny macierzy X, jest więc w szczególności symetryczna i idempotentna.

In-H=In-QIp0QT=
=QQT-Q(Ip0)QT=Q(0In-p)QT.
Wniosek 8.4

Ponieważ ślad macierzy równy jest sumie jego wartości własnych, ślady macierzy daszkowej H i macierzy I-H to:

trH=p;
trI-H=n-p.
Stwierdzenie 8.5

Twierdzenie Pitgorasa w postaci macierzowej:

Vary=Vary^+Vary-y^.
σ2In=VarHy+VarI-Hy;
σ2In=HVaryHT+I-HVaryI-HT;

ponieważ macierze H i I-H są symetryczne i idempotentne, zachodzi:

σ2In=σ2H+σ2In-H. (8.6)
Stwierdzenie 8.6

Niebciążonym estymatorem parametru σ2 w modelu liniowym jest:

σ^2=y-y^2n-p.

Ponieważ y^ jest nieobciążonym estymatorem y, możemy zapisać:

Ey-y^2=i=1nVaryi-y^i=trVary-y^=
=tr(σ2(I-H))=σ2(n-p).

Stąd:

Ey-y^2n-p=σ2.

8.5.4. Model z większą liczbą parametrów nie musi być lepiej dopasowany dla nowych danych

  • Błąd predykcji y za pomocą y^ na tej samej próbie, korzystając ze wzoru 8.6, można zapisać w postaci:

    Eyi-y^i2=Varyi-y^i=σ21-hii,

    gdzie hii jest elementem macierzy daszkowej: H=hiji,j=1n.

    Definicja 8.2

    Elementy przekątnej macierzy daszkowej H: hii będziemy nazywać ładunkami obserwsacji i-tej i oznaczać hi.

  • Dla nowych obserwacji mamy:

    Zakładamy niezależność nowych obserwacji zmiennej objaśnianej i p-wymiarowego wektora zmiennych objaśniających: yn+1,xn+1T od y,X. Będziemy estymować parametry używając danych treningowych y,X, a obliczać błąd dla nowych danych testowych:

    yn+1=xn+1Tβ+εn+1;
    β^=XTX-1XTy;
    y^n+1=xn+1Tβ^.

    Błąd predykcji jest równy:

    Eyn+1-y^n+12=Varyn+1-y^n+1=z niezależnościVaryn+1+Vary^n+1=
    =σ2+Var(xn+1Tβ^)=σ2+xn+1TVar(β^)xn+1=
    =σ2+xn+1Tσ2(XTX)-1xn+1=σ2(1+hn+1),

    gdzie hn+1=xn+1TXTX-1xn+1, analogicznie do ładunków obserwacji dla i=1,,n: hi=xiTXTX-1xi.

  • Porównanie obu błędów predykcji dla tej samej macierzy planu:

    Dane treningowe, dla których będziemy estymować parametr β^ to y,X gdzie y=y1,,yn. Dane testowe, dla których będziemy liczyć błąd predykcji to w pierwszym przypadku ten sam zbiór y,X, a w drugim yte,X gdzie y=yn+1,,y2n są nowymi obserwacjami, a macierz planu X pozostaje niezmieniona. Porównajmy uśrednione oba błędy predykcji:

    E1ni=1nyi-y^i2=1nEy-y^2=n-pσ2n;
    E1ni=n+12nyi-y^i2=1ni=n+12nσ21+hi=n+pσ2n,

    gdzie korzystamy z równości hn+i=hi, co zachodzi dzięki użyciu tej samej macierzy planu X w zbiorze treningowym i testowym oraz własnści macierzy daszkowej i=1nhi=p.

    Wniosek 8.5

    Na podstawie obliczonych błędów predykcji możemy wywnioskować:

    1. Większy model nie zawsze oznacza lepsze dopasowanie.

    2. Różnica pomiędzy błędami predykcji wynosi:

      1nEy-y^2-1nEytr-y^2=2pσ2n

8.5.5. Kroswalidacja leave-one-out

Estymację błędu predykcji można oprzeć na kroswalidacji leave-one-out. Dla każdej obserwacji będziemy estymować model za pomocą wszystkich obserwacji oprócz niej samej i obliczać błąd predykcji na nowych danych dla tej pominiętej obserwacji. W ten sposób dostaniemy n błędów predykcji, które następnie uśrednimy.

Niech Xi, i=1,,n oznacza macierz X z usuniętą i-tą obserwacją (i-tym wierszem), yi wektor obserwacji z usuniętą i-tą obserwacją. Estymator β^i będzie oznaczać estymator mnk na podstawie danych yi,Xi:

β^i=XiTXi-1XiTyi;

Predykcja dla pominiętej obserwacji wyraża się wzorem:

y^i=xiTβ^i,

gdzie tak jak przy liczeniu błędu predykcji na nowych danych, yi,xiT jest niezależne od yi,Xi.

Korzystając z tego, że Ey^i=Eyi=xiTβ, otrzymujemy:

Ey^i-yi2=Vary^i-yi=σ21+xiTXiTXi-1xi=σ21-hii,

gdzie hii to i-ty wyraz na przekątnej macierzy daszkowej dla pełnej macierzy X: H=XXTX-1XT. Fakt ostatniej równości w powyższym wzorze przyjmiemy bez dowodu.

Wniosek 8.6

Estymator błędu predykcji przy użyciu kroswalidacji leave-one-out można uprościć do wzoru:

y-y^()2n=1ni=1nyi-y^i2=i=1nσ21-hii. (8.7)

8.6. Model liniowy przy założeniu normalności

Zamiast w modelu liniowym zakładać:

Eε=0,Varε=σ2In,

założymy:

εN0,σ2In.

Dzięki takiemu sformułowaniu zadania, będziemy mogli znaleźć rozkłady estymatorów β^ i σ^2, co umożliwi wnioskowanie statystyczne na ich temat, na przykład kondtrukcję przedziałów ufności. Udowodnimy:

Twierdzenie 8.4 (Fishera)

Przy założeniu εN0,σ2In, estymatory modelu liniowego spełniają:

  1. β^Nβ,σ2XTX-1;

  2. β^ i σ^2=y-Xβ^2n-p są niezależne;

  3. n-pσ^2σ2χ2n-p;

Ponieważ y=Xβ+ε, mamy:

yNXβ,σ2In. (8.8)

Wiemy, że nieobciążonymi estymatorami parametrów modelu liniowego są:

β^=XTX-1XTy,σ^2=y-Xβ^2n-p.
  1. Korzystając z twierdzenia 7.1 oraz wzoru 8.8, możemy wywnioskować, że β^ ma rozkład normalny. Wartość oczekiwana estymatora (8.4) i wariancja (8.5) wyznaczają jednoznacznie rozkład.

  2. Przypomnijmy wzory 8.2 i 8.1:

    β^=R1-1Q1Ty,y-Xβ^2=Q2y2.

    Wiemy z twierdzenia 7.1, że Qy ma rozkład normalny. Policzmy macierz wariancji tego wektora losowego:

    VarQTy=QTVaryQ=σ2In. (8.9)

    Wiemy zatem, że wektory losowe Q1Ty i Q2Ty są nieskorelowane. Dla rozkładu normalnego brak korelacji jest równoważny niezależności.

  3. Rozkład χ2 z n-p stopniami swobody to suma n-p kwadratów niezależnych zmiennych losowych o rozkładzie standardowym normalnym. Udowodnimy, że σ^2n-pσ2=y-Xβ^2σ2=Q2Ty2σ2 ma rozkład χ2n-p.

    Z rozkładu QR macierzy X znamy wymiary macierzy Q2, długość wektora Q2Ty to n-p. Oznaczmy:

    Q2Ty2=qp+1Ty2++qnTy2=z12++zn-p2.

    Udowodnimy, że zi, i=1,,n-p są niezależne i mają rozkład N0,σ2.

    Współrzędne wektora Q2Ty są niezależnymi zmiennymi losowymi o rozkładzie normalnym. Normalność wynika z twierdzenia 8.2, niezależność z braku korelacji (8.9). Ze wzoru 8.9 widzimy także, że wariancje zi są równe σ2.

    Współrzędne wektora Q2Ty mają wartość oczekiwaną równą zero:

    EQ2Ty=Q2TEy=Q2TXβ=

    z wąskiego rozkładu QR macierzy X,

    =Q2TQ1=0R1=0

    z ortogonalności kolumn macierzy Q.

    Otrzymujemy więc:

    z1σ2++zn-pσ2=Q2Ty2σ2χ2n-p,

    gdzie ziσ są niezależnymi zmiennymi losowymi o rozkładzie N0,1.

8.7. Test ilorazu wiarygodności (Likelihood Ratio Test) hipotez liniowych

Hipotezy liniowe przy założeniach modelu liniowego można ogólnie sformułować jako:

y=Xβ+εAβ=0

gdzie macierz X jest wymiaru n×p, a macierz A wymiaru p-q×p.

Przykład 8.1

Jeżeli wektor współczynników jest postaci:

β=β1β2β3β4

i chcemy nałożyć ograniczenie liniowe na parametry: β2=β3, to można go zapisać postaci:

01-10Aβ=0.

8.7.1. LRT ogólnie

Ogólnie test ilorazu wiarygodności dotyczący parametru θ rozkładu zmiennej losowej X można zapisać jako:

H0: Xfθx , θΘ0;
H1: Xfθx , θΘ1=ΘΘ0;

gdzie fθx oznacza gęstość rozkładu zmiennej X zależącą od parametru θ.

Statystyka testowa wyraża się wzorem:

λx=supθΘ1fθxsupθΘ0fθx=fθ^xxfθ˙xx,

gdzie:

θ^ to estymator największej wiarygodności dla θΘ1;
θ˙ to estymator największej wiarygodności dla θΘ0.
Uwaga 8.1

Jeżeli fθx=i=1nfθxi to:

logλx=i=1nlogfθ^xx-i=1nlogfθ˙xx.

8.7.2. Modele zagnieżdżone

Z modelem zagnieżdżonym mamy do czynienia gdy Θ0Θ.

Rozpatrzmy następujący problem:

ΘRp,h:RpRp-q,Θ0=θ:hθ=0.

Dla hipotez liniowych mamy:

hθ=Aθ=0,

wtedy typowo Θ0Rq, skąd możemy zapisać:

supθΘ1fθx=supθΘfθx.

Dzięki takiemu zapisowi upraszcza się wzór na statystykę testową LRT:

λx=supθΘfθxsupθΘ0fθx.
Twierdzenie 8.5 (Asymptotyczny rozkład LRT)

Przy założeniach: ΘRp otwarty, fθx regularna rodzina gęstości, h:RpRp-q funkcja gładka, Θ0=θ:hθ=0:

θΘ0tPθ2logλxtFχ2p-qt,

gdzie Fχ2p-q oznacza dystrybuantę rozkładu χ2 o p-q stopniach swobody.

8.7.3. LRT w modelu liniowym

Wracamy teraz do modelu linowego i zakładamy normalność rozkładu ε:

y=Xβ+εAβ=0

gdzie X ma wymiary n×p, A wymiary p-q×p;

εN0,σ2In.

Dla tak sformułowanego zadania wiemy, że rozkład danych y jest normalny i wyraża się wzorem:

fθy=12πσ2n2exp-y-Xβ22σ2,

gdzie θ=β1,,βp,σ2.

Stwierdzenie 8.7

Statystyka testowa testu ilorazu wiarygodności dla H0:Aβ=0 jest równa:

λy=σ˙2σ^2n2=y-Xβ˙2y-Xβ^2n2, (8.10)

gdzie:

θ^=β^,σ^2 estymatory największej wiarygodności bez ograniczeń (na zbiorze Θ);
θ˙=β˙,σ˙2 estymatory największej wiarygodności z ograniczeniami
(Aβ=0, na zbiorze Θ0).
λy=fθ^yyfθ˙yy=12πn1σ^2n2exp-12y-Xβ^2σ^212πn1σ˙2n2exp-12y-Xβ˙2σ˙2=

korzystając z postać estymatora największej wiarygodności dla parametru σ2 w modelu liniowym, możemy zapisać:

σ^2=y-Xβ^2n,σ˙2=y-Xβ˙2n;

pdstawiając otrzymujemy:

=1σ^2n2exp-12σ^2nσ^21σ˙2n2exp-12σ˙2nσ˙2=σ˙2σ^2n2.
Stwierdzenie 8.8

Statystyka testowa

λy=σ˙2σ^2n2

jest równoważna statystyce:

F=R0-R/p-qR/n-p,

gdzie R0=y-Xβ˙2, R=y-Xβ^2.

Ze wzoru 8.10 widzimy, że:

λy=R0Rn2.

Statystyka λ jako iloraz norm dwóch wektorów, jest nieujemna, a dla p<n dodatnia z dodatniości R i R0. Istnieje rosnące przekształcenie λ w F dla λ>0, więc statystyki są rónoważne.

Twierdzenie 8.6

Statystyka F przy pn ma rozkład F-Snedecora:

F=R0-R/p-qR/n-pFp-q,n-p.

Zmieńmy oznaczenia dotyczące macierzy planu. Macierz X=x1,,xp gdzie xi będą oznaczać kolumny macierzy, zwane predyktorami. Możemy wtedy zapisac:

y=Xβ+ε=x1β1++xpβp+ε.

Wiemy, że:

Xβ^L={Xβ=x1β1++xpβpβRp};
Xβ˙L0={Xβ : Aβ=0};

gdzie

L0LRn,

przestrzenie L0 i L0 są przestrzeniami liniowymi o wymiarach:

dimL0=q<dimL=pn.

Ortogonalizujemy bazę przestrzeni L0, uzupełniamy do bazy L, a następnie do bazy Rn. Oznaczmy:

V=v1,,vqbaza L0,vq+1,,vpbaza L,vp+1,,vn.

oraz:

Z=VTy,Z^=VTXβ^,Z˙=VTXβ˙.

Zauważmy, że wektory te są postaci:

Z=z1zqzpznZ^=z^1z^qz^p00Z˙=z˙1z˙q00.

Możemy wtedy zapisać:

R=y-Xβ^2=

ponieważ mnożenie wektora przez macierz ortogonalną nie zmienia jego normy,

=||VT(y-Xβ^)||2=||Z-Z^||2;
R=y-Xβ˙2=VTy-Xβ˙2=Z-Z˙2.

Najlepszymi dopasowaniami Z˙ do Z oraz Z^ do Z minimalizującymi błędy średniokwadratowe R0 i R są:

Z˙=z˙1=z1z˙q=zq00Z^=z^1=z1z^p=zp00

Stąd:

R0=zq+12++zp2++zn2;
R=zp+12++zn2.

Ponieważ założyliśmy rozkład normalny dla ε, możemy zapisać:

yNXβ,σ2In,

a także, ponieważ V jest macierzą ortogonalną:

Z=VTyNVTXβ,σ2In. (8.11)

Współrzędne wektora Z: z1,,zn mają więc rozkłady normalne i są niezależne (bo nieskorelowane). Co więcej, przy założeniu hipotezy zerowej, XβL0, czyli jest postaci:

Xβ=w1wq00

w bazie V. Ze wzoru 8.11, EZ=VTXβ, czyli:

Ezq+1==Ezn=0.

Widzimy teraz, że wyrażenie:

R0-Rσ2=zq+1σ2++zpσ2

ma rozkład χ(p-q), a wyrażenie:

Rσ2=zp+1σ2++znσ2

rozkład χ(n-p) oraz oba wyrażenia są od siebie ziezależne. Wróćmy do postaci statystyki F:

F=R0-R/p-qR/n-p=zq+12++zp2/p-qzp+12++zn2/n-p

ma więc rozkład Fp-q,n-p.

Uwaga 8.2

Zauważmy ciekawą własność bazującą na dowodzie twierdzenia: dla H0: β1==βp=0 przy modelu postaci:

y=111β0β1βp+ε,

możemy zapisać:

y-y¯1n=Xβ˙2=y-y^=Xβ^2+y^-y¯1n2,

gdzie y¯ jest średnią arytmetyczną z obserwacji w wektorze y.

Wniosek 8.7

Testowanie hipotez o istotności współczynników (testowanie hipotez, czy kolejne grupy βi są równe zeru) służy wyborowi modelu (podzbioru zmiennych objaśniających x1,,xp).

8.8. Popularne kryteria wyboru modelu – kryteria informacyjne

W poprzednim rozdziale zostało opisane testowanie hipotez o istotności współczynników jako sposób wyboru modelu. Wybór predyktorów można także oprzeć na minimalizacji estymatora błędu predykcji wyliczonego na podstawie kroswalidacji leave-one-out (8.7). Opiszemy teraz jeszcze inną metodę wyboru zmiennych objaśniających bazującą na tak zwanych kryteriach informacyjnych postaci:

kryterium = -2logwiarygodność + kara za złożoność modelu,

które obliczane są dla każdego modelu (dla każdego podzbioru p predyktorów) i wybierany jest ten minimalnej wartości kryterium. Dwa popularne kryteria informacyjne:

  1. Akaike Information Criterion (AIC):

    AIC= -2loglik +2p,

    gdzie p to liczba zmiennych objaśniających w modelu.

  2. Bayes Information Criterion (BIC):

    BIC= -2loglik +lognp,

    gdzie n to liczba obserwacji w modelu.

Przy założeniach modelu liniowego i normalności rozkładu εN0,σ2In, kryteria przyjmują łatwiejszą postać:

  1. Przy znanym σ2:

    AIC=y-y^2σ2+2p;
    BIC=y-y^2σ2+lognp;
  2. Przy nieznanym σ2:

    AIC=nlogy-y^2n+2p;
    BIC=nlogy-y^2n+lognp;

8.9. Model logistyczny – przykład uogólnionego modelu liniowego

Modelu logistycznego używa się do objaśniania zmiennej binarnej, czyli przyjmującej wartości ze zbioru 0,1. Poprzednio zakładaliśmy:

yiNxiTβ,σ2,yi niezależne i=1,,n,

gdzie wektor xi oznacza wiersz macerzy planu.

Teraz będziemy zakładać rozkład:

yiB1,pxirozkład Bernoulliego=B1,expxiTβ1+expxiTβ,yi niezależne i=1,,n,

gdzie postać funkcji pxi można tłumaczyć tym, że prawdopodobieństwo powinno przyjmować wartości z przedziału 0,1. Parametry modelu (β) estymuje się metodą największej wiarygodności, gdzie funkcja wiarygodności jest równa:

Lβ=i=1npxiyi1-pxi1-yi=i=1nexpyixiTβ1+expxiTβ.

Logarytm funkcji wiarygodności maksymalizuje się numerycznie aby otrzymać estymatory β^. Predykcję w modelu można oprzeć na klasyfikatorze:

t=xn+1Tβ^,

gdzie xn+1 jest wektorem nowych obserwacji. Przewidywany na podstawie modelu y^n+1 to wtedy:

y^n+1=1,t0  (wtedy pxn+112);0,t<0  (wtedy pxn+1<12).

8.10. Przykłady w programie R

Model liniowy:

Logit (model logistyczny):

Treść automatycznie generowana z plików źródłowych LaTeXa za pomocą oprogramowania wykorzystującego LaTeXML.

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu Społecznego.

Projekt współfinansowany przez Ministerstwo Nauki i Szkolnictwa Wyższego i przez Uniwersytet Warszawski.