Będziemy obserwować ciągłą zmienną objaśnianą
oraz zmienne objaśniające
,
. Na ich podstawie będziemy chcieli znaleźć funkcję zależącą od
, która będzie najlepiej przybliżać cechę
. Ograniczymy się przy tym tylko do zależności liniowej. Na podstawie znalezionej funkcji, dla nowo zaobserwoawanych
będziemy mogli znależć predykcję
. Jeżeli rozpatrzymy jednowymiarowy
(
), szukanie funkcji liniowej najlepiej przybliżającej dane obrazuje rysunek 8.1.
Dane są postaci:
![]() |
W zapisie macierzowym:
gdzie:
wektor
będziemy nazywać zmienną objaśnianą;
macierz
macierzą planu;
estymowanymi parametrami;
to wektor efektów losowych (wektor realizacji zmiennej losowej).
Dla tak sformułowanego problemu przyjmiemy następujące założenia:
;
;
rząd macierzy
jest pełny:
.
Dla tak sformułowanych danych, problem szukania estymatora parametru
będziemy nazywać problemem liniowym.
Rozkład QR macierzy
Szeroki rozkład QR: Każdą rzeczywistą macierz
wymiaru
można zapisać jako iloczyn maierzy ortogonalnej
wymiaru
oraz górnotrójkątnej macierzy
wymiaru
:
![]() |
Wąski rozkład QR: Ponieważ
dolnych wierzy macierzy
jest zerowa, można skrócić zapis do
![]() |
gdzie
jest macierzą wymairu
o ortogonalnych kolumnach a
jest macierzą górnotrójkątną wymairu
.
Wąski rozkład QR jest zapisem macierzowym ortogonalizacji Gramma-Schmidta układu wektorów będących kolumnami macierzy
. Szeroki rozkład otrzymujemy dopełniając macierz
do bazy przestrzeni
.
Przy założeniu modelu liniowego, będziemy chcieli wyestymować nieznane parametry:
i
.
Zauważmy, że
Estymator najmnieszych kwadratów parametru
to taka jego wartość, dla której odległości euklidesowe przybliżanych danych od prostej je przybliżających jest najmniejsza:
Estymator najmniejszych kwadratów wyraża się wzorem
gdzie
i
pochodzą z wąskiego rozkładu QR macierzy planu
.
Skorzystajmy z szerokiego rozkładu QR macierzy
:
. Ponieważ mnożenie wektora przez macierz ortogonalną nie zmienia jego normy, możemy zapisać:
Wyrażenie to osiąga minimum ze względu na parametr
, jeżeli wyzerujemy pierwszy składnik sumy:
Ponieważ macierz
jest kwadratowa i pełnego rzędu (rank
), możemy ją odwrócić:
Zauważmy, że:
Predykcja dla
jest równa
;
| (8.1) |
Przyjrzyjmy się własnościom metody najmniejszych kwadratów (zostaną one udowodnione w dalszej części wykładu):
jest rzutem ortogonalnym
na przestrzeń rozpiętą przez kolumny macierzy planu
.
Nieobciążonym estymatorem parametru
jest
.
Twierdzenie Gaussa-Markowa: estymator
jest liniowym, nieobciążonym estymatorem o najmniejszej wariancji parametru
(BLUE- Best Linear Unbiased Estimator).
Przy założeniu
, zachodzi twierdzenie Fishera:
;
;
i
są niezależne.
Wyprowadzimy estymator mnk jako rozwiązanie zadania BLUE – liniowy, nieobciążony estymator o najmniejszej wariancji. Rozumowanie będzie jednocześnie dowodem twierdzenia Gaussa-Markowa.
Dla problemu liniowego estymator postaci
jest liniowym, nieobciążonym estymatorem o najmniejszej wariancji parametru
.
Żeby łatwiej mówić o nieobciążoności, czy minimalnej wariancji, zredukujemy wymiar problemu do jednowymiarowego zakładając, że własności będą zachodzić dla wszystkich możliwych kombinacji liniowych zmiennej objaśnianej:
Dla danego wektora
, konstruujemy kombinację liniową
i szukamy dla niej estymatora zależącego liniowo od
:
przy założeniu nieobciążoności:
Jednocześnie wiemy, że:
Stąd:
Będziemy minimalizować wariancję estymatora
:
Zadanie optymalizacyjne wygląda następująco:
Skorzystajmy z metody mnożników Lagrange'a:
![]() |
Szukamy estymatora wektora
, spełniającego dwa równania:
| (8.2) |
| (8.3) |
Z równania 8.2 otrzymujemy:
, wstawiamy do równania 8.3:
skąd:
Macierz
jest pełnego rzędu, więc macierz
jest odwracalna. Wstawiając
do wzoru na
, otrzymujemy:
Estymator
jest więc postaci:
podstawiając za
kolejne wektory bazy kanonicznej
, znajdujemy kolejne estymatory kombinacji liniowych
, co łącznie możemy zapisać jako:
Liniowy, nieobciążony estymator o najmniejszej wariancji parametru
w modelu liniowym jest równy estymatorowi najmniejszych kwadratów.
korzystając z wąskiego rozkładu QR:
,
![]() |
![]() |
Estymatory największej wiarygodności to takie wartości parametrów, których prawdopodobieństwo zaobserwowania danych jest największe. Żeby skorzystać z tej metody estymacji, potrzebna jest funkcja wiarygodności, niezbędne więc będzie założenie na temat rozkładu danych:
Zamiast zakładać:
założymy:
skąd mamy
oraz funkcję wiarygodności:
![]() |
Funkcję wiarygodności będziemy chcieli zmaksymalizować po parametrach
i
. Ponieważ logarytm jest funkcją rosnącą, jest to równoważne z maksymalizacją logarytmu funkcji wiarygodności:
gdzie
jest stałą niezależną od szukanych parametrów. Zadanie maksymalizacji logwiarygodności
jest rónoważne minimalizacji
:
Część sumy zależąca od parametru
to
. Wartością parametru
minimalizującą to wyrażenie jest:
co udowodniliśmy już w twierdzeniu 8.2.
Ponieważ
nie zależy od parametru
, mogę wstawić estymator do funkcji wiarygodności przy szukaniu optymalnego parametru
. Oznaczmy także
żeby nie mylił się nam kwadrat przy parametrze:
skąd otrymujemy:
![]() |
Przy założeniu rozkładu normalnego:
estymatory parametru
dla metody największej wiarygodności i metody najmniejszych kwadratów są równe:
estymatory parametru
dla metody największej wiarygodności i metody najmniejszych kwadratów są równe z dokładnością do stałej:
![]() |
Wartość oczekiwana:
| (8.4) |
Estymator jest niebciążony.
Macierz wariancji:
![]() |
| (8.5) |
Prypomnijmy
Macierzą daszkową
nazwiemy taką macierz, że:
Stąd:
Zauważmy, że
jest nieobciążonym estymatorem
:
Własności macierzy daszkowej
:
:
![]() |
macierz
jest idempotentna, czyli
:
![]() |
symetryczna, czyli
:
korzystając z wąskiego rozkładu QR macierzy
,
:
![]() |
![]() |
korzystając z szerokiego rozkładu QR macierzy
, możemy przyjrzeć się rozkładowi spektralnemu macierzy daszkowej:
![]() |
ponieważ
,
![]() |
dla
:
![]() |
Macierz daszkowa
jest macierzą rzutu ortogonalnego na przestrzeń rozpiętą przez kolumny macierzy
.
Jeżeli
minimalizuje wyrażenie
, to jest rzutem ortogonalnym
na
.
Macierz
jest macierzą rzutu ortogonalnego na przestrzeń prostopadłą do przestrzeni rozpiętej przez kolumny macierzy
, jest więc w szczególności symetryczna i idempotentna.
Ponieważ ślad macierzy równy jest sumie jego wartości własnych, ślady macierzy daszkowej
i macierzy
to:
Twierdzenie Pitgorasa w postaci macierzowej:
ponieważ macierze
i
są symetryczne i idempotentne, zachodzi:
| (8.6) |
Niebciążonym estymatorem parametru
w modelu liniowym jest:
Ponieważ
jest nieobciążonym estymatorem
, możemy zapisać:
![]() |
Stąd:
Błąd predykcji
za pomocą
na tej samej próbie, korzystając ze wzoru 8.6, można zapisać w postaci:
gdzie
jest elementem macierzy daszkowej:
.
Elementy przekątnej macierzy daszkowej
:
będziemy nazywać ładunkami obserwsacji
-tej i oznaczać
.
Dla nowych obserwacji mamy:
Zakładamy niezależność nowych obserwacji zmiennej objaśnianej i
-wymiarowego wektora zmiennych objaśniających:
od
. Będziemy estymować parametry używając danych treningowych
, a obliczać błąd dla nowych danych testowych:
Błąd predykcji jest równy:
gdzie
, analogicznie do ładunków obserwacji dla
:
.
Porównanie obu błędów predykcji dla tej samej macierzy planu:
Dane treningowe, dla których będziemy estymować parametr
to
gdzie
. Dane testowe, dla których będziemy liczyć błąd predykcji to w pierwszym przypadku ten sam zbiór
, a w drugim
gdzie
są nowymi obserwacjami, a macierz planu
pozostaje niezmieniona. Porównajmy uśrednione oba błędy predykcji:
![]() |
![]() |
gdzie korzystamy z równości
, co zachodzi dzięki użyciu tej samej macierzy planu
w zbiorze treningowym i testowym oraz własnści macierzy daszkowej
.
Na podstawie obliczonych błędów predykcji możemy wywnioskować:
Większy model nie zawsze oznacza lepsze dopasowanie.
Różnica pomiędzy błędami predykcji wynosi:
Estymację błędu predykcji można oprzeć na kroswalidacji leave-one-out. Dla każdej obserwacji będziemy estymować model za pomocą wszystkich obserwacji oprócz niej samej i obliczać błąd predykcji na nowych danych dla tej pominiętej obserwacji. W ten sposób dostaniemy
błędów predykcji, które następnie uśrednimy.
Niech
,
oznacza macierz
z usuniętą
-tą obserwacją (
-tym wierszem),
wektor obserwacji z usuniętą
-tą obserwacją. Estymator
będzie oznaczać estymator mnk na podstawie danych
:
Predykcja dla pominiętej obserwacji wyraża się wzorem:
gdzie tak jak przy liczeniu błędu predykcji na nowych danych,
jest niezależne od
.
Korzystając z tego, że
, otrzymujemy:
gdzie
to
-ty wyraz na przekątnej macierzy daszkowej dla pełnej macierzy
:
. Fakt ostatniej równości w powyższym wzorze przyjmiemy bez dowodu.
Estymator błędu predykcji przy użyciu kroswalidacji leave-one-out można uprościć do wzoru:
![]() |
(8.7) |
Zamiast w modelu liniowym zakładać:
założymy:
Dzięki takiemu sformułowaniu zadania, będziemy mogli znaleźć rozkłady estymatorów
i
, co umożliwi wnioskowanie statystyczne na ich temat, na przykład kondtrukcję przedziałów ufności. Udowodnimy:
Przy założeniu
, estymatory modelu liniowego spełniają:
;
i
są niezależne;
;
Ponieważ
, mamy:
| (8.8) |
Wiemy, że nieobciążonymi estymatorami parametrów modelu liniowego są:
![]() |
Rozkład
z
stopniami swobody to suma
kwadratów niezależnych zmiennych losowych o rozkładzie standardowym normalnym. Udowodnimy, że
ma rozkład
.
Z rozkładu QR macierzy
znamy wymiary macierzy
, długość wektora
to
. Oznaczmy:
Udowodnimy, że
,
są niezależne i mają rozkład
.
Współrzędne wektora
są niezależnymi zmiennymi losowymi o rozkładzie normalnym. Normalność wynika z twierdzenia 8.2, niezależność z braku korelacji (8.9). Ze wzoru 8.9 widzimy także, że wariancje
są równe
.
Współrzędne wektora
mają wartość oczekiwaną równą zero:
z wąskiego rozkładu QR macierzy
,
![]() |
z ortogonalności kolumn macierzy
.
Otrzymujemy więc:
gdzie
są niezależnymi zmiennymi losowymi o rozkładzie
.
Hipotezy liniowe przy założeniach modelu liniowego można ogólnie sformułować jako:
gdzie macierz
jest wymiaru
, a macierz
wymiaru
.
Jeżeli wektor współczynników jest postaci:
![]() |
i chcemy nałożyć ograniczenie liniowe na parametry:
, to można go zapisać postaci:
![]() |
Ogólnie test ilorazu wiarygodności dotyczący parametru
rozkładu zmiennej losowej
można zapisać jako:
gdzie
oznacza gęstość rozkładu zmiennej
zależącą od parametru
.
Statystyka testowa wyraża się wzorem:
![]() |
gdzie:
Jeżeli
to:
![]() |
Z modelem zagnieżdżonym mamy do czynienia gdy
.
Rozpatrzmy następujący problem:
Dla hipotez liniowych mamy:
wtedy typowo
, skąd możemy zapisać:
Dzięki takiemu zapisowi upraszcza się wzór na statystykę testową LRT:
Przy założeniach:
otwarty,
regularna rodzina gęstości,
funkcja gładka,
:
gdzie
oznacza dystrybuantę rozkładu
o
stopniach swobody.
Wracamy teraz do modelu linowego i zakładamy normalność rozkładu
:
gdzie
ma wymiary
,
wymiary
;
Dla tak sformułowanego zadania wiemy, że rozkład danych
jest normalny i wyraża się wzorem:
gdzie
.
Statystyka testowa testu ilorazu wiarygodności dla
jest równa:
![]() |
(8.10) |
gdzie:
![]() |
korzystając z postać estymatora największej wiarygodności dla parametru
w modelu liniowym, możemy zapisać:
![]() |
pdstawiając otrzymujemy:
![]() |
Statystyka testowa
![]() |
jest równoważna statystyce:
gdzie
,
.
Ze wzoru 8.10 widzimy, że:
![]() |
Statystyka
jako iloraz norm dwóch wektorów, jest nieujemna, a dla
dodatnia z dodatniości
i
.
Istnieje rosnące przekształcenie
w
dla
, więc statystyki są rónoważne.
Statystyka
przy
ma rozkład
-Snedecora:
Zmieńmy oznaczenia dotyczące macierzy planu. Macierz
gdzie
będą oznaczać kolumny macierzy, zwane predyktorami. Możemy wtedy zapisac:
Wiemy, że:
gdzie
przestrzenie
i
są przestrzeniami liniowymi o wymiarach:
![]() |
Ortogonalizujemy bazę przestrzeni
, uzupełniamy do bazy
, a następnie do bazy
. Oznaczmy:
![]() |
oraz:
Zauważmy, że wektory te są postaci:
![]() |
Możemy wtedy zapisać:
ponieważ mnożenie wektora przez macierz ortogonalną nie zmienia jego normy,
Najlepszymi dopasowaniami
do
oraz
do
minimalizującymi błędy średniokwadratowe
i
są:
![]() |
Stąd:
Ponieważ założyliśmy rozkład normalny dla
, możemy zapisać:
a także, ponieważ
jest macierzą ortogonalną:
| (8.11) |
Współrzędne wektora
:
mają więc rozkłady normalne i są niezależne (bo nieskorelowane). Co więcej, przy założeniu hipotezy zerowej,
, czyli jest postaci:
![]() |
w bazie
. Ze wzoru 8.11,
, czyli:
Widzimy teraz, że wyrażenie:
ma rozkład
, a wyrażenie:
rozkład
oraz oba wyrażenia są od siebie ziezależne.
Wróćmy do postaci statystyki F:
![]() |
ma więc rozkład
.
Zauważmy ciekawą własność bazującą na dowodzie twierdzenia: dla
przy modelu postaci:
![]() |
możemy zapisać:
![]() |
gdzie
jest średnią arytmetyczną z obserwacji w wektorze
.
Testowanie hipotez o istotności współczynników (testowanie hipotez, czy kolejne grupy
są równe zeru) służy wyborowi modelu (podzbioru zmiennych objaśniających
).
W poprzednim rozdziale zostało opisane testowanie hipotez o istotności współczynników jako sposób wyboru modelu. Wybór predyktorów można także oprzeć na minimalizacji estymatora błędu predykcji wyliczonego na podstawie kroswalidacji leave-one-out (8.7). Opiszemy teraz jeszcze inną metodę wyboru zmiennych objaśniających bazującą na tak zwanych kryteriach informacyjnych postaci:
które obliczane są dla każdego modelu (dla każdego podzbioru
predyktorów) i wybierany jest ten minimalnej wartości kryterium. Dwa popularne kryteria informacyjne:
Akaike Information Criterion (AIC):
gdzie
to liczba zmiennych objaśniających w modelu.
Bayes Information Criterion (BIC):
gdzie
to liczba obserwacji w modelu.
Przy założeniach modelu liniowego i normalności rozkładu
, kryteria przyjmują łatwiejszą postać:
Przy znanym
:
Przy nieznanym
:
Modelu logistycznego używa się do objaśniania zmiennej binarnej, czyli przyjmującej wartości ze zbioru
. Poprzednio zakładaliśmy:
gdzie wektor
oznacza wiersz macerzy planu.
Teraz będziemy zakładać rozkład:
![]() |
gdzie postać funkcji
można tłumaczyć tym, że prawdopodobieństwo powinno przyjmować wartości z przedziału
.
Parametry modelu (
) estymuje się metodą największej wiarygodności, gdzie funkcja wiarygodności jest równa:
![]() |
Logarytm funkcji wiarygodności maksymalizuje się numerycznie aby otrzymać estymatory
. Predykcję w modelu można oprzeć na klasyfikatorze:
gdzie
jest wektorem nowych obserwacji. Przewidywany na podstawie modelu
to wtedy:
Model liniowy:
regresja liniowa z diagnostyką dla danych Bodyfat: http://www.mimuw.edu.pl/~pokar/StatystykaII/DANE/bodyfat.R
regresja liniowa z diagnostyką dla danych Samochody: http://www.mimuw.edu.pl/~pokar/StatystykaII/PREDYKCJA/samochodyNowe.R
regresja liniowa dla danych Iris: http://www.mimuw.edu.pl/~pokar/StatystykaII/PREDYKCJA/lm.R
regresja liniowa dla danych Samochody: http://www.mimuw.edu.pl/~pokar/StatystykaII/PREDYKCJA/samochody.R
porównanie metody najmniejszych kwadratów i sieci neuronowych: http://www.mimuw.edu.pl/~pokar/StatystykaII/PREDYKCJA/crossValRegr.R
Logit (model logistyczny):
estymacja parametrów: http://www.mimuw.edu.pl/~pokar/StatystykaII/PREDYKCJA/logit.R
estymacja parametrów i rysowanie wyników: http://www.mimuw.edu.pl/~pokar/StatystykaII/PREDYKCJA/Orings.R
Treść automatycznie generowana z plików źródłowych LaTeXa za pomocą oprogramowania wykorzystującego LaTeXML.
strona główna | webmaster | o portalu | pomoc
© Wydział Matematyki, Informatyki i
Mechaniki UW, 2009-2010.
Niniejsze materiały są udostępnione bezpłatnie na licencji Creative Commons Uznanie autorstwa-Użycie niekomercyjne-Bez utworów zależnych 3.0 Polska.
Projekt współfinansowany przez Unię Europejską w ramach
Europejskiego Funduszu Społecznego.
Projekt współfinansowany przez Ministerstwo Nauki i Szkolnictwa Wyższego i przez Uniwersytet Warszawski.