Rozdział ten będzie dotyczył zmiennych jakościowych. Omawiane niżej testy i niezależności opierają się na odległości
dla rozkładów dyskretnych (1.1). W obu przypadkach będziemy rozpatrywać odległości rozkładów zaobserwowanego od teoretycznego, dla których statystyka będzie asymptotycznie zbiegać do znanego rozkładu
. Najpierw przyjrzyjmy się przypadkowi jednowymiarowemu.
Dana jest zmienna losowa jakościowa o rozkładzie wielomianowym o wartościach oraz prawdopodobieństwach
. Podczas doświadczenia obserwujemy liczności, jakie przyjmowała zmienna w
niezależnych próbach:
. Teoretyczne liczności będą wartościami oczekiwanymi dla rozkładu wielomianowego:
. Satystyka wyraża się wzorem:
![]() |
przy spełnionej hipotezie zerowej zmienna losowa pochodzi z rozkładu wielomianowego o parametrach
, zbiega ona według rozkładu do rozkładu
o
stopniach swobody.
Omawianą statystykę można zapisać także jako:
![]() |
gdzie to zaobserwowane prawdopodobieństwa (będące stymatorami największej wiarygodności parametrów
dla rozkładu wielomianowego).
Będziemy rozpatrywać dwie zmienne losowe o rozkładzie dyskretnym:
![]() |
![]() |
których rozkład łączny jest rozkładem wielomianowym o nieznanych parametrach ,
,
. Znane są jedynie zaobserwowane liczności dla każdej pary
w postaci macierzy kontyngencji.
Macierz kontyngencji to macierz o wymiarach
zawierająca zaobserwowane liczności
,
, dla każdej z par wartości zmiennych losowych
:
![]() |
Hipotezę, którą będziemy testować to:
![]() |
W tym celu policzymy odległość rozkładu zaobserwowanego od teoretycznego rozumianego jako iloczyn rozkładów brzegowych. Macierz zaobserwowanych prawdopodobieństw możemy zapisać jako:
![]() |
gdzie to macierz kontyngencji, a
to suma wszystkich elementów tej macierzy.
Statystyka testowa wyraża się wzorem:
![]() |
gdzie i
to zaobserwowane rozkłady brzegowe dla
i
.
Tak jak w poprzednim podrozdziale, dane mamy dwie zmienne losowe i
o rozkładzie dyskretnym. Analiza odpowiedniości to metoda prezentacji danych w przestrzeni o niewielkim wymiarze (zwykle równym 2, wtedy prezentację można przedstawić na płaszczyźnie), ilustrująca zależności pomiędzy danymi cechami
i
.
Rozpatrzmy następujący przykład: dla każdej osoby obserwujemy kolor oczu i włosów. Zmienna losowa będzie oznaczać jeden z czterech kolorów oczu: brown, blue, hazel, green. Zmienna losowa
będzie oznaczać jeden z czterech kolorów włosów: black, brown, red, blond. Tablica kontyngencji dla tego przykładu:
![]() |
Analiza odpowiedniości pozwoli nam na przedstawienie graficzne zależności pomiędzy kolorami włosów i oczu. Na przykład, będziemy mogli zobaczyć, czy osoby o niebieskim kolorze oczu mają najczęsciej włosy koloru blond.
Do analizy korespondencji potrzebna nam będzie macierz rezyduów Pearsona, której konstrukcję omówimy przy pomocy komend programu :
N=table(cbind(X,Y)) # macierz kontyngencji, gdzie X i Y to faktory P=N/sum(N) # macierz zaobserwowanych prawdopodobieństw Pi=apply(P,1,sum) # rozkład brzegowy dla X Pj=apply(P,2,sum) # rozkład brzegowy dla Y PP=Pi%*%t(Pj) RP=sqrt(sum(N))*(P-PP)/sqrt(PP) # macierz rezyduów Pearsona
Zauważmy, że sum(RP^2)
to statystyka testowa dla testu niezależności.
Przykład 5.1
Sama postać macierzy może nam wiele powiedzieć o zależności poszczególnych cech. Macierz rezyduów Pearsona dla przykładu kolory oczu i włosów znajduje się w tabeli 5.1.
BLACK | BROWN | RED | BLOND | |
---|---|---|---|---|
Brown | 4.40 | 1.23 | -0.07 | -5.85 |
Blue | -3.07 | -1.95 | -1.73 | 7.05 |
Hazel | -0.48 | 1.35 | 0.85 | -2.23 |
Green | -1.95 | -0.35 | 2.28 | 0.61 |
Największe dodatnie wartości, a więc największą dodatnią zależność pomiędzy cechami mamy dla par (brown,black) i (blue,blond). Największą ujemne wartości, a więc największą ujemną zależność obserwujemy dla par (blue,black) i (brown,blond).
Celem analizy odpowiedniości jest przedstawienie cech i
na płaszczyźnie, żeby widoczne były zależności między nimi. W tym celu zmniejszymy wymiar
do 2, używając do tego analizy składowych głównych. Wiemy, że takie przybliżenie jest najlepsze w sensie błędu średniokwadratowego i opisuje możliwie najwięcej zmienności danych.
![]() |
![]() |
Cechy i
przedstawiamy jako punkty:
![]() |
![]() |
Pamiętamy z rozkładu SVD, że ,
,
rozpina przestrzeń kolumn macierzy
, a
przestrzeń wierszy. Scentrowane punkty (od kolumn macierzy
i
odejmujemy średnie w kolumnach tak żeby środek danych był w (0,0)) nanosimy na wykres (rysunek 5.1).
Przykład 5.1
Dla interpretacji mapy odpowiedniości, potraktujmy wiersze macierzy oraz
jako współrzędne wektorów, zaczepionych w punkcie (0,0). Wiersze macierzy
odpowiadają kolorom oczu, wiersze macierzy
kolorom włosów. Na rysunku zaznaczone zostały dla przykładu wektory odpowiadające cechom blue oraz black. Zauważmy, że iloczyn skalarny dwóch wektorów, i-tego z macierzy
i j-tego z macierzy
równy jest przybliżeniu macierzy rezyduów Pearsona. Oznaczmy:
![]() |
![]() |
![]() |
gdzie oznacza kąt pomiędzy wektorami. Interpretacja dla wektorów blue i black może być następująca: ponieważ długości obu wektorów są duże oraz
jest ujemne o wartości bezwzględnej w przybliżeniu
, zależność pomiędzy cechami jest silnie ujemna. Na tej samej zasadzie możemy zaobserwować silną zależność pomiędzy włosami blond i oczami blue oraz włosami black i oczami brown.
Analiza odpowiedniości oraz konstrukcja testu dla danych kolor oczu i włosów:
Treść automatycznie generowana z plików źródłowych LaTeXa za pomocą oprogramowania wykorzystującego LaTeXML.
strona główna | webmaster | o portalu | pomoc
© Wydział Matematyki, Informatyki i
Mechaniki UW, 2009-2010. Niniejsze materiały są udostępnione bezpłatnie na licencji Creative Commons Uznanie autorstwa-Użycie niekomercyjne-Bez utworów zależnych 3.0 Polska.
Projekt współfinansowany przez Unię Europejską w ramach
Europejskiego Funduszu Społecznego.
Projekt współfinansowany przez Ministerstwo Nauki i Szkolnictwa Wyższego i przez Uniwersytet Warszawski.