Będziemy obserwować ciągłą zmienną objaśnianą oraz zmienne objaśniające , . Na ich podstawie będziemy chcieli znaleźć funkcję zależącą od , która będzie najlepiej przybliżać cechę . Ograniczymy się przy tym tylko do zależności liniowej. Na podstawie znalezionej funkcji, dla nowo zaobserwoawanych będziemy mogli znależć predykcję . Jeżeli rozpatrzymy jednowymiarowy (), szukanie funkcji liniowej najlepiej przybliżającej dane obrazuje rysunek 8.1.
Dane są postaci:
W zapisie macierzowym:
gdzie:
wektor będziemy nazywać zmienną objaśnianą;
macierz macierzą planu;
estymowanymi parametrami;
to wektor efektów losowych (wektor realizacji zmiennej losowej).
Dla tak sformułowanego problemu przyjmiemy następujące założenia:
;
;
rząd macierzy jest pełny: .
Dla tak sformułowanych danych, problem szukania estymatora parametru będziemy nazywać problemem liniowym.
Rozkład QR macierzy
Szeroki rozkład QR: Każdą rzeczywistą macierz wymiaru można zapisać jako iloczyn maierzy ortogonalnej wymiaru oraz górnotrójkątnej macierzy wymiaru :
Wąski rozkład QR: Ponieważ dolnych wierzy macierzy jest zerowa, można skrócić zapis do
gdzie jest macierzą wymairu o ortogonalnych kolumnach a jest macierzą górnotrójkątną wymairu .
Wąski rozkład QR jest zapisem macierzowym ortogonalizacji Gramma-Schmidta układu wektorów będących kolumnami macierzy . Szeroki rozkład otrzymujemy dopełniając macierz do bazy przestrzeni .
∎Przy założeniu modelu liniowego, będziemy chcieli wyestymować nieznane parametry: i .
Zauważmy, że
Estymator najmnieszych kwadratów parametru to taka jego wartość, dla której odległości euklidesowe przybliżanych danych od prostej je przybliżających jest najmniejsza:
Estymator najmniejszych kwadratów wyraża się wzorem
gdzie i pochodzą z wąskiego rozkładu QR macierzy planu .
Skorzystajmy z szerokiego rozkładu QR macierzy : . Ponieważ mnożenie wektora przez macierz ortogonalną nie zmienia jego normy, możemy zapisać:
Wyrażenie to osiąga minimum ze względu na parametr , jeżeli wyzerujemy pierwszy składnik sumy:
Ponieważ macierz jest kwadratowa i pełnego rzędu (rank), możemy ją odwrócić:
Zauważmy, że:
Predykcja dla jest równa ;
(8.1) |
Przyjrzyjmy się własnościom metody najmniejszych kwadratów (zostaną one udowodnione w dalszej części wykładu):
jest rzutem ortogonalnym na przestrzeń rozpiętą przez kolumny macierzy planu .
Nieobciążonym estymatorem parametru jest .
Twierdzenie Gaussa-Markowa: estymator jest liniowym, nieobciążonym estymatorem o najmniejszej wariancji parametru (BLUE- Best Linear Unbiased Estimator).
Przy założeniu , zachodzi twierdzenie Fishera:
;
;
i są niezależne.
Wyprowadzimy estymator mnk jako rozwiązanie zadania BLUE – liniowy, nieobciążony estymator o najmniejszej wariancji. Rozumowanie będzie jednocześnie dowodem twierdzenia Gaussa-Markowa.
Dla problemu liniowego estymator postaci jest liniowym, nieobciążonym estymatorem o najmniejszej wariancji parametru .
Żeby łatwiej mówić o nieobciążoności, czy minimalnej wariancji, zredukujemy wymiar problemu do jednowymiarowego zakładając, że własności będą zachodzić dla wszystkich możliwych kombinacji liniowych zmiennej objaśnianej: Dla danego wektora , konstruujemy kombinację liniową i szukamy dla niej estymatora zależącego liniowo od :
przy założeniu nieobciążoności:
Jednocześnie wiemy, że:
Stąd:
Będziemy minimalizować wariancję estymatora :
Zadanie optymalizacyjne wygląda następująco:
Skorzystajmy z metody mnożników Lagrange'a:
Szukamy estymatora wektora , spełniającego dwa równania:
(8.2) |
(8.3) |
Z równania 8.2 otrzymujemy: , wstawiamy do równania 8.3:
skąd:
Macierz jest pełnego rzędu, więc macierz jest odwracalna. Wstawiając do wzoru na , otrzymujemy:
Estymator jest więc postaci:
podstawiając za kolejne wektory bazy kanonicznej , znajdujemy kolejne estymatory kombinacji liniowych , co łącznie możemy zapisać jako:
Liniowy, nieobciążony estymator o najmniejszej wariancji parametru w modelu liniowym jest równy estymatorowi najmniejszych kwadratów.
korzystając z wąskiego rozkładu QR: ,
Estymatory największej wiarygodności to takie wartości parametrów, których prawdopodobieństwo zaobserwowania danych jest największe. Żeby skorzystać z tej metody estymacji, potrzebna jest funkcja wiarygodności, niezbędne więc będzie założenie na temat rozkładu danych:
Zamiast zakładać:
założymy:
skąd mamy oraz funkcję wiarygodności:
Funkcję wiarygodności będziemy chcieli zmaksymalizować po parametrach i . Ponieważ logarytm jest funkcją rosnącą, jest to równoważne z maksymalizacją logarytmu funkcji wiarygodności:
gdzie jest stałą niezależną od szukanych parametrów. Zadanie maksymalizacji logwiarygodności jest rónoważne minimalizacji :
Część sumy zależąca od parametru to . Wartością parametru minimalizującą to wyrażenie jest:
co udowodniliśmy już w twierdzeniu 8.2.
Ponieważ nie zależy od parametru , mogę wstawić estymator do funkcji wiarygodności przy szukaniu optymalnego parametru . Oznaczmy także żeby nie mylił się nam kwadrat przy parametrze:
skąd otrymujemy:
Przy założeniu rozkładu normalnego:
estymatory parametru dla metody największej wiarygodności i metody najmniejszych kwadratów są równe:
estymatory parametru dla metody największej wiarygodności i metody najmniejszych kwadratów są równe z dokładnością do stałej:
Wartość oczekiwana:
(8.4) |
Estymator jest niebciążony.
Macierz wariancji:
(8.5) |
Prypomnijmy
Macierzą daszkową nazwiemy taką macierz, że:
Stąd:
Zauważmy, że jest nieobciążonym estymatorem :
Własności macierzy daszkowej :
:
macierz jest idempotentna, czyli :
symetryczna, czyli :
korzystając z wąskiego rozkładu QR macierzy , :
korzystając z szerokiego rozkładu QR macierzy , możemy przyjrzeć się rozkładowi spektralnemu macierzy daszkowej:
ponieważ ,
dla :
Macierz daszkowa jest macierzą rzutu ortogonalnego na przestrzeń rozpiętą przez kolumny macierzy .
Jeżeli minimalizuje wyrażenie , to jest rzutem ortogonalnym na .
Macierz jest macierzą rzutu ortogonalnego na przestrzeń prostopadłą do przestrzeni rozpiętej przez kolumny macierzy , jest więc w szczególności symetryczna i idempotentna.
Ponieważ ślad macierzy równy jest sumie jego wartości własnych, ślady macierzy daszkowej i macierzy to:
Twierdzenie Pitgorasa w postaci macierzowej:
ponieważ macierze i są symetryczne i idempotentne, zachodzi:
(8.6) |
Niebciążonym estymatorem parametru w modelu liniowym jest:
Ponieważ jest nieobciążonym estymatorem , możemy zapisać:
Stąd:
Błąd predykcji za pomocą na tej samej próbie, korzystając ze wzoru 8.6, można zapisać w postaci:
gdzie jest elementem macierzy daszkowej: .
Elementy przekątnej macierzy daszkowej : będziemy nazywać ładunkami obserwsacji -tej i oznaczać .
Dla nowych obserwacji mamy:
Zakładamy niezależność nowych obserwacji zmiennej objaśnianej i -wymiarowego wektora zmiennych objaśniających: od . Będziemy estymować parametry używając danych treningowych , a obliczać błąd dla nowych danych testowych:
Błąd predykcji jest równy:
gdzie , analogicznie do ładunków obserwacji dla : .
Porównanie obu błędów predykcji dla tej samej macierzy planu:
Dane treningowe, dla których będziemy estymować parametr to gdzie . Dane testowe, dla których będziemy liczyć błąd predykcji to w pierwszym przypadku ten sam zbiór , a w drugim gdzie są nowymi obserwacjami, a macierz planu pozostaje niezmieniona. Porównajmy uśrednione oba błędy predykcji:
gdzie korzystamy z równości , co zachodzi dzięki użyciu tej samej macierzy planu w zbiorze treningowym i testowym oraz własnści macierzy daszkowej .
Na podstawie obliczonych błędów predykcji możemy wywnioskować:
Większy model nie zawsze oznacza lepsze dopasowanie.
Różnica pomiędzy błędami predykcji wynosi:
Estymację błędu predykcji można oprzeć na kroswalidacji leave-one-out. Dla każdej obserwacji będziemy estymować model za pomocą wszystkich obserwacji oprócz niej samej i obliczać błąd predykcji na nowych danych dla tej pominiętej obserwacji. W ten sposób dostaniemy błędów predykcji, które następnie uśrednimy.
Niech , oznacza macierz z usuniętą -tą obserwacją (-tym wierszem), wektor obserwacji z usuniętą -tą obserwacją. Estymator będzie oznaczać estymator mnk na podstawie danych :
Predykcja dla pominiętej obserwacji wyraża się wzorem:
gdzie tak jak przy liczeniu błędu predykcji na nowych danych, jest niezależne od .
Korzystając z tego, że , otrzymujemy:
gdzie to -ty wyraz na przekątnej macierzy daszkowej dla pełnej macierzy : . Fakt ostatniej równości w powyższym wzorze przyjmiemy bez dowodu.
Estymator błędu predykcji przy użyciu kroswalidacji leave-one-out można uprościć do wzoru:
(8.7) |
Zamiast w modelu liniowym zakładać:
założymy:
Dzięki takiemu sformułowaniu zadania, będziemy mogli znaleźć rozkłady estymatorów i , co umożliwi wnioskowanie statystyczne na ich temat, na przykład kondtrukcję przedziałów ufności. Udowodnimy:
Przy założeniu , estymatory modelu liniowego spełniają:
;
i są niezależne;
;
Ponieważ , mamy:
(8.8) |
Wiemy, że nieobciążonymi estymatorami parametrów modelu liniowego są:
Rozkład z stopniami swobody to suma kwadratów niezależnych zmiennych losowych o rozkładzie standardowym normalnym. Udowodnimy, że ma rozkład .
Z rozkładu QR macierzy znamy wymiary macierzy , długość wektora to . Oznaczmy:
Udowodnimy, że , są niezależne i mają rozkład .
Współrzędne wektora są niezależnymi zmiennymi losowymi o rozkładzie normalnym. Normalność wynika z twierdzenia 8.2, niezależność z braku korelacji (8.9). Ze wzoru 8.9 widzimy także, że wariancje są równe .
Współrzędne wektora mają wartość oczekiwaną równą zero:
z wąskiego rozkładu QR macierzy ,
z ortogonalności kolumn macierzy .
Otrzymujemy więc:
gdzie są niezależnymi zmiennymi losowymi o rozkładzie .
Hipotezy liniowe przy założeniach modelu liniowego można ogólnie sformułować jako:
gdzie macierz jest wymiaru , a macierz wymiaru .
Jeżeli wektor współczynników jest postaci:
i chcemy nałożyć ograniczenie liniowe na parametry: , to można go zapisać postaci:
Ogólnie test ilorazu wiarygodności dotyczący parametru rozkładu zmiennej losowej można zapisać jako:
gdzie oznacza gęstość rozkładu zmiennej zależącą od parametru .
Statystyka testowa wyraża się wzorem:
gdzie:
Jeżeli to:
Z modelem zagnieżdżonym mamy do czynienia gdy .
Rozpatrzmy następujący problem:
Dla hipotez liniowych mamy:
wtedy typowo , skąd możemy zapisać:
Dzięki takiemu zapisowi upraszcza się wzór na statystykę testową LRT:
Przy założeniach: otwarty, regularna rodzina gęstości, funkcja gładka, :
gdzie oznacza dystrybuantę rozkładu o stopniach swobody.
Wracamy teraz do modelu linowego i zakładamy normalność rozkładu :
gdzie ma wymiary , wymiary ;
Dla tak sformułowanego zadania wiemy, że rozkład danych jest normalny i wyraża się wzorem:
gdzie .
Statystyka testowa testu ilorazu wiarygodności dla jest równa:
(8.10) |
gdzie:
korzystając z postać estymatora największej wiarygodności dla parametru w modelu liniowym, możemy zapisać:
pdstawiając otrzymujemy:
Statystyka testowa
jest równoważna statystyce:
gdzie , .
Ze wzoru 8.10 widzimy, że:
Statystyka jako iloraz norm dwóch wektorów, jest nieujemna, a dla dodatnia z dodatniości i . Istnieje rosnące przekształcenie w dla , więc statystyki są rónoważne.
∎Statystyka przy ma rozkład -Snedecora:
Zmieńmy oznaczenia dotyczące macierzy planu. Macierz gdzie będą oznaczać kolumny macierzy, zwane predyktorami. Możemy wtedy zapisac:
Wiemy, że:
gdzie
przestrzenie i są przestrzeniami liniowymi o wymiarach:
Ortogonalizujemy bazę przestrzeni , uzupełniamy do bazy , a następnie do bazy . Oznaczmy:
oraz:
Zauważmy, że wektory te są postaci:
Możemy wtedy zapisać:
ponieważ mnożenie wektora przez macierz ortogonalną nie zmienia jego normy,
Najlepszymi dopasowaniami do oraz do minimalizującymi błędy średniokwadratowe i są:
Stąd:
Ponieważ założyliśmy rozkład normalny dla , możemy zapisać:
a także, ponieważ jest macierzą ortogonalną:
(8.11) |
Współrzędne wektora : mają więc rozkłady normalne i są niezależne (bo nieskorelowane). Co więcej, przy założeniu hipotezy zerowej, , czyli jest postaci:
w bazie . Ze wzoru 8.11, , czyli:
Widzimy teraz, że wyrażenie:
ma rozkład , a wyrażenie:
rozkład oraz oba wyrażenia są od siebie ziezależne. Wróćmy do postaci statystyki F:
ma więc rozkład .
∎Zauważmy ciekawą własność bazującą na dowodzie twierdzenia: dla przy modelu postaci:
możemy zapisać:
gdzie jest średnią arytmetyczną z obserwacji w wektorze .
Testowanie hipotez o istotności współczynników (testowanie hipotez, czy kolejne grupy są równe zeru) służy wyborowi modelu (podzbioru zmiennych objaśniających ).
W poprzednim rozdziale zostało opisane testowanie hipotez o istotności współczynników jako sposób wyboru modelu. Wybór predyktorów można także oprzeć na minimalizacji estymatora błędu predykcji wyliczonego na podstawie kroswalidacji leave-one-out (8.7). Opiszemy teraz jeszcze inną metodę wyboru zmiennych objaśniających bazującą na tak zwanych kryteriach informacyjnych postaci:
które obliczane są dla każdego modelu (dla każdego podzbioru predyktorów) i wybierany jest ten minimalnej wartości kryterium. Dwa popularne kryteria informacyjne:
Akaike Information Criterion (AIC):
gdzie to liczba zmiennych objaśniających w modelu.
Bayes Information Criterion (BIC):
gdzie to liczba obserwacji w modelu.
Przy założeniach modelu liniowego i normalności rozkładu , kryteria przyjmują łatwiejszą postać:
Przy znanym :
Przy nieznanym :
Modelu logistycznego używa się do objaśniania zmiennej binarnej, czyli przyjmującej wartości ze zbioru . Poprzednio zakładaliśmy:
gdzie wektor oznacza wiersz macerzy planu.
Teraz będziemy zakładać rozkład:
gdzie postać funkcji można tłumaczyć tym, że prawdopodobieństwo powinno przyjmować wartości z przedziału . Parametry modelu () estymuje się metodą największej wiarygodności, gdzie funkcja wiarygodności jest równa:
Logarytm funkcji wiarygodności maksymalizuje się numerycznie aby otrzymać estymatory . Predykcję w modelu można oprzeć na klasyfikatorze:
gdzie jest wektorem nowych obserwacji. Przewidywany na podstawie modelu to wtedy:
Model liniowy:
regresja liniowa z diagnostyką dla danych Bodyfat: http://www.mimuw.edu.pl/~pokar/StatystykaII/DANE/bodyfat.R
regresja liniowa z diagnostyką dla danych Samochody: http://www.mimuw.edu.pl/~pokar/StatystykaII/PREDYKCJA/samochodyNowe.R
regresja liniowa dla danych Iris: http://www.mimuw.edu.pl/~pokar/StatystykaII/PREDYKCJA/lm.R
regresja liniowa dla danych Samochody: http://www.mimuw.edu.pl/~pokar/StatystykaII/PREDYKCJA/samochody.R
porównanie metody najmniejszych kwadratów i sieci neuronowych: http://www.mimuw.edu.pl/~pokar/StatystykaII/PREDYKCJA/crossValRegr.R
Logit (model logistyczny):
estymacja parametrów: http://www.mimuw.edu.pl/~pokar/StatystykaII/PREDYKCJA/logit.R
estymacja parametrów i rysowanie wyników: http://www.mimuw.edu.pl/~pokar/StatystykaII/PREDYKCJA/Orings.R
Treść automatycznie generowana z plików źródłowych LaTeXa za pomocą oprogramowania wykorzystującego LaTeXML.
strona główna | webmaster | o portalu | pomoc
© Wydział Matematyki, Informatyki i Mechaniki UW, 2009-2010. Niniejsze materiały są udostępnione bezpłatnie na licencji Creative Commons Uznanie autorstwa-Użycie niekomercyjne-Bez utworów zależnych 3.0 Polska.
Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu Społecznego.
Projekt współfinansowany przez Ministerstwo Nauki i Szkolnictwa Wyższego i przez Uniwersytet Warszawski.