Będziemy obserwować ciągłą zmienną objaśnianą
Dane są postaci:
W zapisie macierzowym:
gdzie:
wektor
macierz
Dla tak sformułowanego problemu przyjmiemy następujące założenia:
rząd macierzy
Dla tak sformułowanych danych, problem szukania estymatora parametru
Rozkład QR macierzy
Szeroki rozkład QR: Każdą rzeczywistą macierz
Wąski rozkład QR: Ponieważ
gdzie
Wąski rozkład QR jest zapisem macierzowym ortogonalizacji Gramma-Schmidta układu wektorów będących kolumnami macierzy
Przy założeniu modelu liniowego, będziemy chcieli wyestymować nieznane parametry:
Zauważmy, że
Estymator najmnieszych kwadratów parametru
Estymator najmniejszych kwadratów wyraża się wzorem
gdzie
Skorzystajmy z szerokiego rozkładu QR macierzy
Wyrażenie to osiąga minimum ze względu na parametr
Ponieważ macierz
Zauważmy, że:
Predykcja dla
(8.1) |
Przyjrzyjmy się własnościom metody najmniejszych kwadratów (zostaną one udowodnione w dalszej części wykładu):
Nieobciążonym estymatorem parametru
Twierdzenie Gaussa-Markowa: estymator
Przy założeniu
Wyprowadzimy estymator mnk jako rozwiązanie zadania BLUE – liniowy, nieobciążony estymator o najmniejszej wariancji. Rozumowanie będzie jednocześnie dowodem twierdzenia Gaussa-Markowa.
Dla problemu liniowego estymator postaci
Żeby łatwiej mówić o nieobciążoności, czy minimalnej wariancji, zredukujemy wymiar problemu do jednowymiarowego zakładając, że własności będą zachodzić dla wszystkich możliwych kombinacji liniowych zmiennej objaśnianej:
Dla danego wektora
przy założeniu nieobciążoności:
Jednocześnie wiemy, że:
Stąd:
Będziemy minimalizować wariancję estymatora
Zadanie optymalizacyjne wygląda następująco:
Skorzystajmy z metody mnożników Lagrange'a:
Szukamy estymatora wektora
(8.2) |
(8.3) |
Z równania 8.2 otrzymujemy:
skąd:
Macierz
Estymator
podstawiając za
Liniowy, nieobciążony estymator o najmniejszej wariancji parametru
korzystając z wąskiego rozkładu QR:
Estymatory największej wiarygodności to takie wartości parametrów, których prawdopodobieństwo zaobserwowania danych jest największe. Żeby skorzystać z tej metody estymacji, potrzebna jest funkcja wiarygodności, niezbędne więc będzie założenie na temat rozkładu danych:
Zamiast zakładać:
założymy:
skąd mamy
Funkcję wiarygodności będziemy chcieli zmaksymalizować po parametrach
gdzie
Część sumy zależąca od parametru
co udowodniliśmy już w twierdzeniu 8.2.
Ponieważ
skąd otrymujemy:
Przy założeniu rozkładu normalnego:
estymatory parametru
estymatory parametru
Wartość oczekiwana:
(8.4) |
Estymator jest niebciążony.
Macierz wariancji:
(8.5) |
Prypomnijmy
Macierzą daszkową
Stąd:
Zauważmy, że
Własności macierzy daszkowej
macierz
symetryczna, czyli
korzystając z wąskiego rozkładu QR macierzy
korzystając z szerokiego rozkładu QR macierzy
ponieważ
dla
Macierz daszkowa
Jeżeli
Macierz
Ponieważ ślad macierzy równy jest sumie jego wartości własnych, ślady macierzy daszkowej
Twierdzenie Pitgorasa w postaci macierzowej:
ponieważ macierze
(8.6) |
Niebciążonym estymatorem parametru
Ponieważ
Stąd:
Błąd predykcji
gdzie
Elementy przekątnej macierzy daszkowej
Dla nowych obserwacji mamy:
Zakładamy niezależność nowych obserwacji zmiennej objaśnianej i
Błąd predykcji jest równy:
gdzie
Porównanie obu błędów predykcji dla tej samej macierzy planu:
Dane treningowe, dla których będziemy estymować parametr
gdzie korzystamy z równości
Na podstawie obliczonych błędów predykcji możemy wywnioskować:
Większy model nie zawsze oznacza lepsze dopasowanie.
Różnica pomiędzy błędami predykcji wynosi:
Estymację błędu predykcji można oprzeć na kroswalidacji leave-one-out. Dla każdej obserwacji będziemy estymować model za pomocą wszystkich obserwacji oprócz niej samej i obliczać błąd predykcji na nowych danych dla tej pominiętej obserwacji. W ten sposób dostaniemy
Niech
Predykcja dla pominiętej obserwacji wyraża się wzorem:
gdzie tak jak przy liczeniu błędu predykcji na nowych danych,
Korzystając z tego, że
gdzie
Estymator błędu predykcji przy użyciu kroswalidacji leave-one-out można uprościć do wzoru:
(8.7) |
Zamiast w modelu liniowym zakładać:
założymy:
Dzięki takiemu sformułowaniu zadania, będziemy mogli znaleźć rozkłady estymatorów
Przy założeniu
Ponieważ
(8.8) |
Wiemy, że nieobciążonymi estymatorami parametrów modelu liniowego są:
Wiemy z twierdzenia 7.1, że
(8.9) |
Wiemy zatem, że wektory losowe
Rozkład
Z rozkładu QR macierzy
Udowodnimy, że
Współrzędne wektora
Współrzędne wektora
z wąskiego rozkładu QR macierzy
z ortogonalności kolumn macierzy
Otrzymujemy więc:
gdzie
Hipotezy liniowe przy założeniach modelu liniowego można ogólnie sformułować jako:
gdzie macierz
Jeżeli wektor współczynników jest postaci:
i chcemy nałożyć ograniczenie liniowe na parametry:
Ogólnie test ilorazu wiarygodności dotyczący parametru
gdzie
Statystyka testowa wyraża się wzorem:
gdzie:
Jeżeli
Z modelem zagnieżdżonym mamy do czynienia gdy
Rozpatrzmy następujący problem:
Dla hipotez liniowych mamy:
wtedy typowo
Dzięki takiemu zapisowi upraszcza się wzór na statystykę testową LRT:
Przy założeniach:
gdzie
Wracamy teraz do modelu linowego i zakładamy normalność rozkładu
gdzie
Dla tak sformułowanego zadania wiemy, że rozkład danych
gdzie
Statystyka testowa testu ilorazu wiarygodności dla
(8.10) |
gdzie:
korzystając z postać estymatora największej wiarygodności dla parametru
pdstawiając otrzymujemy:
Statystyka testowa
jest równoważna statystyce:
gdzie
Ze wzoru 8.10 widzimy, że:
Statystyka
Statystyka
Zmieńmy oznaczenia dotyczące macierzy planu. Macierz
Wiemy, że:
gdzie
przestrzenie
Ortogonalizujemy bazę przestrzeni
oraz:
Zauważmy, że wektory te są postaci:
Możemy wtedy zapisać:
ponieważ mnożenie wektora przez macierz ortogonalną nie zmienia jego normy,
Najlepszymi dopasowaniami
Stąd:
Ponieważ założyliśmy rozkład normalny dla
a także, ponieważ
(8.11) |
Współrzędne wektora
w bazie
Widzimy teraz, że wyrażenie:
ma rozkład
rozkład
ma więc rozkład
Zauważmy ciekawą własność bazującą na dowodzie twierdzenia: dla
możemy zapisać:
gdzie
Testowanie hipotez o istotności współczynników (testowanie hipotez, czy kolejne grupy
W poprzednim rozdziale zostało opisane testowanie hipotez o istotności współczynników jako sposób wyboru modelu. Wybór predyktorów można także oprzeć na minimalizacji estymatora błędu predykcji wyliczonego na podstawie kroswalidacji leave-one-out (8.7). Opiszemy teraz jeszcze inną metodę wyboru zmiennych objaśniających bazującą na tak zwanych kryteriach informacyjnych postaci:
które obliczane są dla każdego modelu (dla każdego podzbioru
Akaike Information Criterion (AIC):
gdzie
Bayes Information Criterion (BIC):
gdzie
Przy założeniach modelu liniowego i normalności rozkładu
Przy znanym
Przy nieznanym
Modelu logistycznego używa się do objaśniania zmiennej binarnej, czyli przyjmującej wartości ze zbioru
gdzie wektor
Teraz będziemy zakładać rozkład:
gdzie postać funkcji
Logarytm funkcji wiarygodności maksymalizuje się numerycznie aby otrzymać estymatory
gdzie
Model liniowy:
regresja liniowa z diagnostyką dla danych Bodyfat: http://www.mimuw.edu.pl/~pokar/StatystykaII/DANE/bodyfat.R
regresja liniowa z diagnostyką dla danych Samochody: http://www.mimuw.edu.pl/~pokar/StatystykaII/PREDYKCJA/samochodyNowe.R
regresja liniowa dla danych Iris: http://www.mimuw.edu.pl/~pokar/StatystykaII/PREDYKCJA/lm.R
regresja liniowa dla danych Samochody: http://www.mimuw.edu.pl/~pokar/StatystykaII/PREDYKCJA/samochody.R
porównanie metody najmniejszych kwadratów i sieci neuronowych: http://www.mimuw.edu.pl/~pokar/StatystykaII/PREDYKCJA/crossValRegr.R
Logit (model logistyczny):
estymacja parametrów: http://www.mimuw.edu.pl/~pokar/StatystykaII/PREDYKCJA/logit.R
estymacja parametrów i rysowanie wyników: http://www.mimuw.edu.pl/~pokar/StatystykaII/PREDYKCJA/Orings.R
Treść automatycznie generowana z plików źródłowych LaTeXa za pomocą oprogramowania wykorzystującego LaTeXML.
strona główna | webmaster | o portalu | pomoc
© Wydział Matematyki, Informatyki i Mechaniki UW, 2009-2010. Niniejsze materiały są udostępnione bezpłatnie na licencji Creative Commons Uznanie autorstwa-Użycie niekomercyjne-Bez utworów zależnych 3.0 Polska.
Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu Społecznego.
Projekt współfinansowany przez Ministerstwo Nauki i Szkolnictwa Wyższego i przez Uniwersytet Warszawski.