Będziemy obserwować ciągłą zmienną objaśnianą oraz zmienne objaśniające
,
. Na ich podstawie będziemy chcieli znaleźć funkcję zależącą od
, która będzie najlepiej przybliżać cechę
. Ograniczymy się przy tym tylko do zależności liniowej. Na podstawie znalezionej funkcji, dla nowo zaobserwoawanych
będziemy mogli znależć predykcję
. Jeżeli rozpatrzymy jednowymiarowy
(
), szukanie funkcji liniowej najlepiej przybliżającej dane obrazuje rysunek 8.1.
Dane są postaci:
![]() |
W zapisie macierzowym:
![]() |
gdzie:
wektor będziemy nazywać zmienną objaśnianą;
macierz macierzą planu;
estymowanymi parametrami;
to wektor efektów losowych (wektor realizacji zmiennej losowej).
Dla tak sformułowanego problemu przyjmiemy następujące założenia:
;
;
rząd macierzy jest pełny:
.
Dla tak sformułowanych danych, problem szukania estymatora parametru będziemy nazywać problemem liniowym.
Rozkład QR macierzy
Szeroki rozkład QR: Każdą rzeczywistą macierz wymiaru
można zapisać jako iloczyn maierzy ortogonalnej
wymiaru
oraz górnotrójkątnej macierzy
wymiaru
:
![]() |
Wąski rozkład QR: Ponieważ dolnych wierzy macierzy
jest zerowa, można skrócić zapis do
![]() |
![]() |
gdzie jest macierzą wymairu
o ortogonalnych kolumnach a
jest macierzą górnotrójkątną wymairu
.
Wąski rozkład QR jest zapisem macierzowym ortogonalizacji Gramma-Schmidta układu wektorów będących kolumnami macierzy . Szeroki rozkład otrzymujemy dopełniając macierz
do bazy przestrzeni
.
Przy założeniu modelu liniowego, będziemy chcieli wyestymować nieznane parametry: i
.
Zauważmy, że
![]() |
Estymator najmnieszych kwadratów parametru to taka jego wartość, dla której odległości euklidesowe przybliżanych danych od prostej je przybliżających jest najmniejsza:
![]() |
Estymator najmniejszych kwadratów wyraża się wzorem
![]() |
gdzie i
pochodzą z wąskiego rozkładu QR macierzy planu
.
Skorzystajmy z szerokiego rozkładu QR macierzy :
. Ponieważ mnożenie wektora przez macierz ortogonalną nie zmienia jego normy, możemy zapisać:
![]() |
![]() |
![]() |
Wyrażenie to osiąga minimum ze względu na parametr , jeżeli wyzerujemy pierwszy składnik sumy:
![]() |
Ponieważ macierz jest kwadratowa i pełnego rzędu (rank
), możemy ją odwrócić:
![]() |
Zauważmy, że:
Predykcja dla jest równa
;
![]() |
(8.1) |
Przyjrzyjmy się własnościom metody najmniejszych kwadratów (zostaną one udowodnione w dalszej części wykładu):
jest rzutem ortogonalnym
na przestrzeń rozpiętą przez kolumny macierzy planu
.
Nieobciążonym estymatorem parametru jest
.
Twierdzenie Gaussa-Markowa: estymator jest liniowym, nieobciążonym estymatorem o najmniejszej wariancji parametru
(BLUE- Best Linear Unbiased Estimator).
Przy założeniu , zachodzi twierdzenie Fishera:
;
;
i
są niezależne.
Wyprowadzimy estymator mnk jako rozwiązanie zadania BLUE – liniowy, nieobciążony estymator o najmniejszej wariancji. Rozumowanie będzie jednocześnie dowodem twierdzenia Gaussa-Markowa.
Dla problemu liniowego estymator postaci jest liniowym, nieobciążonym estymatorem o najmniejszej wariancji parametru
.
Żeby łatwiej mówić o nieobciążoności, czy minimalnej wariancji, zredukujemy wymiar problemu do jednowymiarowego zakładając, że własności będą zachodzić dla wszystkich możliwych kombinacji liniowych zmiennej objaśnianej:
Dla danego wektora , konstruujemy kombinację liniową
i szukamy dla niej estymatora zależącego liniowo od
:
![]() |
przy założeniu nieobciążoności:
![]() |
Jednocześnie wiemy, że:
![]() |
Stąd:
![]() |
Będziemy minimalizować wariancję estymatora :
![]() |
Zadanie optymalizacyjne wygląda następująco:
![]() |
Skorzystajmy z metody mnożników Lagrange'a:
![]() |
Szukamy estymatora wektora , spełniającego dwa równania:
![]() |
(8.2) |
![]() |
(8.3) |
Z równania 8.2 otrzymujemy: , wstawiamy do równania 8.3:
![]() |
skąd:
![]() |
Macierz jest pełnego rzędu, więc macierz
jest odwracalna. Wstawiając
do wzoru na
, otrzymujemy:
![]() |
Estymator jest więc postaci:
![]() |
podstawiając za kolejne wektory bazy kanonicznej
, znajdujemy kolejne estymatory kombinacji liniowych
, co łącznie możemy zapisać jako:
![]() |
Liniowy, nieobciążony estymator o najmniejszej wariancji parametru w modelu liniowym jest równy estymatorowi najmniejszych kwadratów.
![]() |
korzystając z wąskiego rozkładu QR: ,
![]() |
![]() |
Estymatory największej wiarygodności to takie wartości parametrów, których prawdopodobieństwo zaobserwowania danych jest największe. Żeby skorzystać z tej metody estymacji, potrzebna jest funkcja wiarygodności, niezbędne więc będzie założenie na temat rozkładu danych:
Zamiast zakładać:
![]() |
założymy:
![]() |
skąd mamy oraz funkcję wiarygodności:
![]() |
![]() |
Funkcję wiarygodności będziemy chcieli zmaksymalizować po parametrach i
. Ponieważ logarytm jest funkcją rosnącą, jest to równoważne z maksymalizacją logarytmu funkcji wiarygodności:
![]() |
gdzie jest stałą niezależną od szukanych parametrów. Zadanie maksymalizacji logwiarygodności
jest rónoważne minimalizacji
:
![]() |
Część sumy zależąca od parametru to
. Wartością parametru
minimalizującą to wyrażenie jest:
![]() |
co udowodniliśmy już w twierdzeniu 8.2.
Ponieważ nie zależy od parametru
, mogę wstawić estymator do funkcji wiarygodności przy szukaniu optymalnego parametru
. Oznaczmy także
żeby nie mylił się nam kwadrat przy parametrze:
![]() |
![]() |
skąd otrymujemy:
![]() |
![]() |
Przy założeniu rozkładu normalnego:
estymatory parametru dla metody największej wiarygodności i metody najmniejszych kwadratów są równe:
![]() |
estymatory parametru dla metody największej wiarygodności i metody najmniejszych kwadratów są równe z dokładnością do stałej:
![]() |
Wartość oczekiwana:
![]() |
(8.4) |
Estymator jest niebciążony.
Macierz wariancji:
![]() |
![]() |
![]() |
![]() |
![]() |
(8.5) |
Prypomnijmy
![]() |
Macierzą daszkową nazwiemy taką macierz, że:
![]() |
Stąd:
![]() |
Zauważmy, że jest nieobciążonym estymatorem
:
![]() |
Własności macierzy daszkowej :
:
![]() |
macierz jest idempotentna, czyli
:
![]() |
symetryczna, czyli :
![]() |
korzystając z wąskiego rozkładu QR macierzy ,
:
![]() |
![]() |
korzystając z szerokiego rozkładu QR macierzy , możemy przyjrzeć się rozkładowi spektralnemu macierzy daszkowej:
![]() |
ponieważ ,
![]() |
![]() |
dla :
![]() |
Macierz daszkowa jest macierzą rzutu ortogonalnego na przestrzeń rozpiętą przez kolumny macierzy
.
Jeżeli minimalizuje wyrażenie
, to jest rzutem ortogonalnym
na
.
Macierz jest macierzą rzutu ortogonalnego na przestrzeń prostopadłą do przestrzeni rozpiętej przez kolumny macierzy
, jest więc w szczególności symetryczna i idempotentna.
![]() |
![]() |
Ponieważ ślad macierzy równy jest sumie jego wartości własnych, ślady macierzy daszkowej i macierzy
to:
![]() |
![]() |
Twierdzenie Pitgorasa w postaci macierzowej:
![]() |
![]() |
![]() |
ponieważ macierze i
są symetryczne i idempotentne, zachodzi:
![]() |
(8.6) |
Niebciążonym estymatorem parametru w modelu liniowym jest:
![]() |
Ponieważ jest nieobciążonym estymatorem
, możemy zapisać:
![]() |
![]() |
Stąd:
![]() |
Błąd predykcji za pomocą
na tej samej próbie, korzystając ze wzoru 8.6, można zapisać w postaci:
![]() |
gdzie jest elementem macierzy daszkowej:
.
Elementy przekątnej macierzy daszkowej :
będziemy nazywać ładunkami obserwsacji
-tej i oznaczać
.
Dla nowych obserwacji mamy:
Zakładamy niezależność nowych obserwacji zmiennej objaśnianej i -wymiarowego wektora zmiennych objaśniających:
od
. Będziemy estymować parametry używając danych treningowych
, a obliczać błąd dla nowych danych testowych:
![]() |
![]() |
![]() |
Błąd predykcji jest równy:
![]() |
![]() |
![]() |
gdzie , analogicznie do ładunków obserwacji dla
:
.
Porównanie obu błędów predykcji dla tej samej macierzy planu:
Dane treningowe, dla których będziemy estymować parametr to
gdzie
. Dane testowe, dla których będziemy liczyć błąd predykcji to w pierwszym przypadku ten sam zbiór
, a w drugim
gdzie
są nowymi obserwacjami, a macierz planu
pozostaje niezmieniona. Porównajmy uśrednione oba błędy predykcji:
![]() |
![]() |
gdzie korzystamy z równości , co zachodzi dzięki użyciu tej samej macierzy planu
w zbiorze treningowym i testowym oraz własnści macierzy daszkowej
.
Na podstawie obliczonych błędów predykcji możemy wywnioskować:
Większy model nie zawsze oznacza lepsze dopasowanie.
Różnica pomiędzy błędami predykcji wynosi:
![]() |
Estymację błędu predykcji można oprzeć na kroswalidacji leave-one-out. Dla każdej obserwacji będziemy estymować model za pomocą wszystkich obserwacji oprócz niej samej i obliczać błąd predykcji na nowych danych dla tej pominiętej obserwacji. W ten sposób dostaniemy błędów predykcji, które następnie uśrednimy.
Niech ,
oznacza macierz
z usuniętą
-tą obserwacją (
-tym wierszem),
wektor obserwacji z usuniętą
-tą obserwacją. Estymator
będzie oznaczać estymator mnk na podstawie danych
:
![]() |
Predykcja dla pominiętej obserwacji wyraża się wzorem:
![]() |
gdzie tak jak przy liczeniu błędu predykcji na nowych danych, jest niezależne od
.
Korzystając z tego, że , otrzymujemy:
![]() |
gdzie to
-ty wyraz na przekątnej macierzy daszkowej dla pełnej macierzy
:
. Fakt ostatniej równości w powyższym wzorze przyjmiemy bez dowodu.
Estymator błędu predykcji przy użyciu kroswalidacji leave-one-out można uprościć do wzoru:
![]() |
(8.7) |
Zamiast w modelu liniowym zakładać:
![]() |
założymy:
![]() |
Dzięki takiemu sformułowaniu zadania, będziemy mogli znaleźć rozkłady estymatorów i
, co umożliwi wnioskowanie statystyczne na ich temat, na przykład kondtrukcję przedziałów ufności. Udowodnimy:
Przy założeniu , estymatory modelu liniowego spełniają:
;
i
są niezależne;
;
Ponieważ , mamy:
![]() |
(8.8) |
Wiemy, że nieobciążonymi estymatorami parametrów modelu liniowego są:
![]() |
Rozkład z
stopniami swobody to suma
kwadratów niezależnych zmiennych losowych o rozkładzie standardowym normalnym. Udowodnimy, że
ma rozkład
.
Z rozkładu QR macierzy znamy wymiary macierzy
, długość wektora
to
. Oznaczmy:
![]() |
Udowodnimy, że ,
są niezależne i mają rozkład
.
Współrzędne wektora są niezależnymi zmiennymi losowymi o rozkładzie normalnym. Normalność wynika z twierdzenia 8.2, niezależność z braku korelacji (8.9). Ze wzoru 8.9 widzimy także, że wariancje
są równe
.
Współrzędne wektora mają wartość oczekiwaną równą zero:
![]() |
z wąskiego rozkładu QR macierzy ,
![]() |
z ortogonalności kolumn macierzy .
Otrzymujemy więc:
![]() |
gdzie są niezależnymi zmiennymi losowymi o rozkładzie
.
Hipotezy liniowe przy założeniach modelu liniowego można ogólnie sformułować jako:
![]() |
gdzie macierz jest wymiaru
, a macierz
wymiaru
.
Jeżeli wektor współczynników jest postaci:
![]() |
i chcemy nałożyć ograniczenie liniowe na parametry: , to można go zapisać postaci:
![]() |
Ogólnie test ilorazu wiarygodności dotyczący parametru rozkładu zmiennej losowej
można zapisać jako:
![]() |
![]() |
gdzie oznacza gęstość rozkładu zmiennej
zależącą od parametru
.
Statystyka testowa wyraża się wzorem:
![]() |
gdzie:
![]() |
![]() |
Jeżeli to:
![]() |
Z modelem zagnieżdżonym mamy do czynienia gdy .
Rozpatrzmy następujący problem:
![]() |
Dla hipotez liniowych mamy:
![]() |
wtedy typowo , skąd możemy zapisać:
![]() |
Dzięki takiemu zapisowi upraszcza się wzór na statystykę testową LRT:
![]() |
Przy założeniach: otwarty,
regularna rodzina gęstości,
funkcja gładka,
:
![]() |
gdzie oznacza dystrybuantę rozkładu
o
stopniach swobody.
Wracamy teraz do modelu linowego i zakładamy normalność rozkładu :
![]() |
gdzie ma wymiary
,
wymiary
;
![]() |
Dla tak sformułowanego zadania wiemy, że rozkład danych jest normalny i wyraża się wzorem:
![]() |
gdzie .
Statystyka testowa testu ilorazu wiarygodności dla jest równa:
![]() |
(8.10) |
gdzie:
![]() |
![]() |
![]() |
![]() |
korzystając z postać estymatora największej wiarygodności dla parametru w modelu liniowym, możemy zapisać:
![]() |
pdstawiając otrzymujemy:
![]() |
Statystyka testowa
![]() |
jest równoważna statystyce:
![]() |
gdzie ,
.
Ze wzoru 8.10 widzimy, że:
![]() |
Statystyka jako iloraz norm dwóch wektorów, jest nieujemna, a dla
dodatnia z dodatniości
i
.
Istnieje rosnące przekształcenie
w
dla
, więc statystyki są rónoważne.
Statystyka przy
ma rozkład
-Snedecora:
![]() |
Zmieńmy oznaczenia dotyczące macierzy planu. Macierz gdzie
będą oznaczać kolumny macierzy, zwane predyktorami. Możemy wtedy zapisac:
![]() |
Wiemy, że:
![]() |
![]() |
gdzie
![]() |
przestrzenie i
są przestrzeniami liniowymi o wymiarach:
![]() |
Ortogonalizujemy bazę przestrzeni , uzupełniamy do bazy
, a następnie do bazy
. Oznaczmy:
![]() |
oraz:
![]() |
Zauważmy, że wektory te są postaci:
![]() |
Możemy wtedy zapisać:
![]() |
ponieważ mnożenie wektora przez macierz ortogonalną nie zmienia jego normy,
![]() |
![]() |
Najlepszymi dopasowaniami do
oraz
do
minimalizującymi błędy średniokwadratowe
i
są:
![]() |
Stąd:
![]() |
![]() |
Ponieważ założyliśmy rozkład normalny dla , możemy zapisać:
![]() |
a także, ponieważ jest macierzą ortogonalną:
![]() |
(8.11) |
Współrzędne wektora :
mają więc rozkłady normalne i są niezależne (bo nieskorelowane). Co więcej, przy założeniu hipotezy zerowej,
, czyli jest postaci:
![]() |
w bazie . Ze wzoru 8.11,
, czyli:
![]() |
Widzimy teraz, że wyrażenie:
![]() |
ma rozkład , a wyrażenie:
![]() |
rozkład oraz oba wyrażenia są od siebie ziezależne.
Wróćmy do postaci statystyki F:
![]() |
ma więc rozkład .
Zauważmy ciekawą własność bazującą na dowodzie twierdzenia: dla
przy modelu postaci:
![]() |
możemy zapisać:
![]() |
gdzie jest średnią arytmetyczną z obserwacji w wektorze
.
Testowanie hipotez o istotności współczynników (testowanie hipotez, czy kolejne grupy są równe zeru) służy wyborowi modelu (podzbioru zmiennych objaśniających
).
W poprzednim rozdziale zostało opisane testowanie hipotez o istotności współczynników jako sposób wyboru modelu. Wybór predyktorów można także oprzeć na minimalizacji estymatora błędu predykcji wyliczonego na podstawie kroswalidacji leave-one-out (8.7). Opiszemy teraz jeszcze inną metodę wyboru zmiennych objaśniających bazującą na tak zwanych kryteriach informacyjnych postaci:
![]() |
które obliczane są dla każdego modelu (dla każdego podzbioru predyktorów) i wybierany jest ten minimalnej wartości kryterium. Dwa popularne kryteria informacyjne:
Akaike Information Criterion (AIC):
![]() |
gdzie to liczba zmiennych objaśniających w modelu.
Bayes Information Criterion (BIC):
![]() |
gdzie to liczba obserwacji w modelu.
Przy założeniach modelu liniowego i normalności rozkładu , kryteria przyjmują łatwiejszą postać:
Przy znanym :
![]() |
![]() |
Przy nieznanym :
![]() |
![]() |
Modelu logistycznego używa się do objaśniania zmiennej binarnej, czyli przyjmującej wartości ze zbioru . Poprzednio zakładaliśmy:
![]() |
gdzie wektor oznacza wiersz macerzy planu.
Teraz będziemy zakładać rozkład:
![]() |
gdzie postać funkcji można tłumaczyć tym, że prawdopodobieństwo powinno przyjmować wartości z przedziału
.
Parametry modelu (
) estymuje się metodą największej wiarygodności, gdzie funkcja wiarygodności jest równa:
![]() |
Logarytm funkcji wiarygodności maksymalizuje się numerycznie aby otrzymać estymatory . Predykcję w modelu można oprzeć na klasyfikatorze:
![]() |
gdzie jest wektorem nowych obserwacji. Przewidywany na podstawie modelu
to wtedy:
![]() |
Model liniowy:
regresja liniowa z diagnostyką dla danych Bodyfat: http://www.mimuw.edu.pl/~pokar/StatystykaII/DANE/bodyfat.R
regresja liniowa z diagnostyką dla danych Samochody: http://www.mimuw.edu.pl/~pokar/StatystykaII/PREDYKCJA/samochodyNowe.R
regresja liniowa dla danych Iris: http://www.mimuw.edu.pl/~pokar/StatystykaII/PREDYKCJA/lm.R
regresja liniowa dla danych Samochody: http://www.mimuw.edu.pl/~pokar/StatystykaII/PREDYKCJA/samochody.R
porównanie metody najmniejszych kwadratów i sieci neuronowych: http://www.mimuw.edu.pl/~pokar/StatystykaII/PREDYKCJA/crossValRegr.R
Logit (model logistyczny):
estymacja parametrów: http://www.mimuw.edu.pl/~pokar/StatystykaII/PREDYKCJA/logit.R
estymacja parametrów i rysowanie wyników: http://www.mimuw.edu.pl/~pokar/StatystykaII/PREDYKCJA/Orings.R
Treść automatycznie generowana z plików źródłowych LaTeXa za pomocą oprogramowania wykorzystującego LaTeXML.
strona główna | webmaster | o portalu | pomoc
© Wydział Matematyki, Informatyki i
Mechaniki UW, 2009-2010. Niniejsze materiały są udostępnione bezpłatnie na licencji Creative Commons Uznanie autorstwa-Użycie niekomercyjne-Bez utworów zależnych 3.0 Polska.
Projekt współfinansowany przez Unię Europejską w ramach
Europejskiego Funduszu Społecznego.
Projekt współfinansowany przez Ministerstwo Nauki i Szkolnictwa Wyższego i przez Uniwersytet Warszawski.