Zagadnienia

2. Metoda najmniejszych kwadratów (MNK)

Metoda najmniejszych kwadratów (MNK). Sformułowanie zadania. Wyznaczanie optymalnych wartości parametrów. Oszacowanie błędu przybliżenia. Algebraiczne własności MNK. (1 wykład)

2.1. Wprowadzenie

Zadanie.
Dane jest m+1 ciągów n-elementowych o wyrazach rzeczywistych:

Y=Ytt=1,,n
X1=Xt,1t=1,,n
X2=Xt,2t=1,,n
Xm=Xt,mt=1,,n.

Wyznaczyć współczynniki b1,,bmR, które minimalizują błąd przybliżenia Y przez kombinację liniową Y^

Y^t=b1Xt,1++bmXt,m.

Czyli mamy rozwiązać zadanie optymalizacyjne

t=1nξt2min, gdzie ξt=Yt-Y^t.

W zastosowaniach ekonometrycznych Y^ nazywa się zmienną modelową w odróżnieniu od zmiennej empirycznej Y.

W dalszym ciągu będziemy stosować zapis macierzowy:
Y będzie zapisywać jako wektor kolumnowy czyli macierz n×1

Y=Y1Yn,

X jako macierz n×m, której kolumnami są Xi

X=X1,1X1,2X1,mX2,1X2,2X2,mXn,1Xn,2Xn,m,

szukane parametry bi jako wektor kolumnowy m×1

B=b1bm,

podobnie składnik resztowy (residualny) ξ jako wektor kolumnowy n×1

ξ=ξ1ξn.

Wówczas możemy zapisać

Y^=XB,ξ=Y-Y^=Y-XB.

Suma kwadratów reszt (SKR) wynosi

t=1nξt2=ξ2=ξTξ=YT-BTXTY-XB=SKRb1,,bm.

Zauważmy, że funkcja

SKR:RmR

jest funkcją kwadratową o wartościach nieujemnych, a zatem osiąga swoje minimum.

Twierdzenie 2.1

Jeżeli ciągi X1, … , Xm są liniowo niezależne to SKR przyjmuje minimum dokładnie w jednym punkcie

Bmin=XTX-1XTY. (2.1)

Minimum to wynosi

SKRmin=SKRBmin=YTY-YTXXTX-1XTY.

Dowód.
Krok 1. Najpierw pokażemy, że macierz XTX jest odwracalna a zatem wzór 2.1 jest poprawny.

XTXi,j=t=1nXt,iXt,j=XiTXj.

m×m macierz XTX jest macierzą Grama wektorów Xi. Zatem jeżeli Xi są liniowo niezależne to macierz XTX jest nieujemnie określona, a zatem odwracalna (por. [1] §VI.11 Wniosek 11.4).

Krok 2. Pokażemy, że Bmin to punkt w którym przyjmowane jest minimum globalne.

B=Bmin+b,b0,
SKRBmin+b=YT-BminTXT-bTXTY-XBmin-Xb=
=(YT-BminTXT)(Y-XBmin)-(YT-BminTXT)Xb-bTXT(Y-XBmin)+bTXTXb=
=SKRBmin-2bTXTY-XBmin+bTXTXb.

Zauważmy, że drugi człon jest równy 0

XTY-XBmin=XTY-XXTX-1XTY=XTY-XTXXTX-1XTY=0,

a trzeci jest nieujemny dla niezerowych b ponieważ macierz XTX jest nieujemnie określona. Zatem dla b0

SKRBmin+b>SKRBmin.

Krok 3. Wyznaczamy SKRBmin.
Ponieważ jak pokazaliśmy powyżej XTY-XBmin=0 to

SKRBmin=YT-BminTXTY-XBmin=YTY-XBmin=
=YTY-YTXBmin=YTY-YTX(XTX)-1XTY.
Wniosek 2.1

Dla B=Bmin zachodzą następujące zależności:
1. Wektor składników resztowych ξ jest prostopadły do wszystkich kolumn Xi

XTξ=0.

2. Wektor składników resztowych ξ jest prostopadły do wektora Y^

Y^Tξ=0.

3. Uogólnione twierdzenie Pitagorasa

YTY=Y^TY^+ξTξ czyli Y2=Y^2+ξ2.

Dowód.
Ad 1. Z definicji ξ mamy

XTξ=XTY-XB=XTY-XXTX-1XTY=XTY-XTXXTX-1XTY=0.

Ad 2. Y^ jest kombinacją liniową Xi zatem

Y^Tξ=BTXTξ=0.

Ad 3. Ponieważ ξ i Y^ są prostopadłe to

YTY=Y^T+ξTY^+ξ=Y^TY^+ξTξ.
Uwaga 2.1

Gdy ciągi X1, … , Xm są liniowo zależne to wybieramy spośród nich maksymalny podzbiór liniowo niezależny Xj1, … , Xjk (k=rankX<m). Niech X~ będzie n×k macierzą, której kolumnami są Xji.
Zmienna modelowa jest wyznaczona jednoznacznie (niezależnie od wyboru ciągów liniowo niezależnych)

Y^=X~B~min,

gdzie

B~min=X~TX~-1X~TY.

Natomiast SKR przyjmuje minimum na podprzestrzeni afinicznej złożonej z punktów postaci

B=B+b,

gdzie

Bj=B~min,igdyj=ji,0gdyjj1,,jk,

a wektory b opisują zależności między ciągami Xi

bkerX=vRm:Xv=0.

Ponadto spełnione są punkty 1,2 i 3 z powyższego wniosku.

2.2. Odrobina algebry liniowej

Oznaczmy przez X podprzestrzeń liniową przestrzeni Rn rozpiętą przez kolumny macierzy X,

X=linX1,,Xm=XV:VRm.
Lemat 2.1

Macierz kwadratowa n×n

P=XXTX-1XT

jest macierzą rzutu prostopadłego na podprzestrzeń X, a macierz

M=Idn-P

macierzą rzutu prostokątnego na podprzestrzeń X (dopełnienie ortogonalne X).

Dowód.
Mnożenie przez macierz P zachowuje wektory z X

PXV=XXTX-1XTXV=XXTX-1XTXV=XV

i anihiluje wektory prostopadłe do X

XTW=0PW=XXTX-1XTW=XXTX-1XTW=0.

Natomiast mnożenie przez macierz M anihiluje wektory z X i zachowuje wektory prostopadłe do X

MXV=XV-PXV=XV-XV=0,MW=W-PW=W.
Lemat 2.2

1. Macierze P i M są symetryczne i idempotentne

PT=P,MT=M,PP=P,MM=M.

2. Rząd macierzy P wynosi m, a M n-m.

rkP=m,rkM=n-m.

3. Ślad macierzy P wynosi m, a M n-m.

trP=m,trM=n-m.

4. Istnieje taka n×n macierz unitarna U (tzn. UTU=Id), że macierze UTPU i UTMU są diagonalne o wyrazach 0 lub 1. UTPU ma na przekątnej m jedynek, a UTMU n-m.

Dowód.
Ad.1. P i M są macierzami rzutów zatem PP=P i MM=M. Symetria wynika z faktu, że transpozycja jest przemienna z odwracaniem macierzy

PT=XXTX-1XTT=XXTXT-1XT=XXTX-1XT=P,
MT=Id-PT=IdT-PT=Id-P=M.

Ad.2. Rząd macierzy jest równy wymiarowi obrazu, zatem

rkP=dimX=rkX=m,
rkM=dimX=n-m.

Ad.3. P jest macierzą rzutu na podprzestrzeń m wymiarową, a zatem ma m wartości własnych równych 1 i n-m równych 0. Natomiast M jest macierzą rzutu na podprzestrzeń n-m wymiarową, a zatem ma n-m wartości własnych równych 1 i m równych 0. Ponieważ ślad jest to suma wartości własnych to wynosi on odpowiednio m i n-m.
Ad.4. Niech wektory U1,,Um tworzą bazę ortonormalną podprzestrzeni X, a Um+1,Un bazę podprzestrzeni X. Niech U będzie macierzą o kolumnach Ui. Wówczas

UiTUj=1 gdy i=j,0 gdy ij,
UiTPUj=1 gdy i=jm,0 gdy iji>m,
UiTMUj=1 gdy i=j>m,0 gdy ijim.

Zatem wszystkie trzy macierze są diagonalne i zero-jedynkowe.

Treść automatycznie generowana z plików źródłowych LaTeXa za pomocą oprogramowania wykorzystującego LaTeXML.

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu Społecznego.

Projekt współfinansowany przez Ministerstwo Nauki i Szkolnictwa Wyższego i przez Uniwersytet Warszawski.