Zagadnienia

5. Test \chi^{2} i analiza odpowiedniości

Rozdział ten będzie dotyczył zmiennych jakościowych. Omawiane niżej testy \chi^{2} i niezależności opierają się na odległości \chi^{2} dla rozkładów dyskretnych (1.1). W obu przypadkach będziemy rozpatrywać odległości rozkładów zaobserwowanego od teoretycznego, dla których statystyka będzie asymptotycznie zbiegać do znanego rozkładu \chi^{2}. Najpierw przyjrzyjmy się przypadkowi jednowymiarowemu.

5.1. Test \chi^{2} Pearsona

Dana jest zmienna losowa jakościowa o rozkładzie wielomianowym o wartościach \{ 1,\ldots,k\} oraz prawdopodobieństwach (p_{1},\ldots,p_{k}). Podczas doświadczenia obserwujemy liczności, jakie przyjmowała zmienna w n niezależnych próbach: n=\widehat{n}_{1}+\widehat{n}_{2}+\ldots+\widehat{n}_{k}. Teoretyczne liczności będą wartościami oczekiwanymi dla rozkładu wielomianowego: n_{1}=np_{1},\ldots,n_{k}=np_{k}. Satystyka wyraża się wzorem:

Q=\sum _{{i=1}}^{k}\frac{(\widehat{n}_{i}-n_{i})^{2}}{n_{i}}\xrightarrow[n\rightarrow\infty]{d}\chi^{2}(k-1);

przy spełnionej hipotezie zerowej H_{0}: zmienna losowa pochodzi z rozkładu wielomianowego o parametrach (p_{1},\ldots p_{k}), zbiega ona według rozkładu do rozkładu \chi^{2} o k-1 stopniach swobody.

Omawianą statystykę można zapisać także jako:

Q=n\sum _{{i=1}}^{k}\frac{(\widehat{p}_{i}-p_{i})^{2}}{p_{i}}=n\sum _{{i=1}}^{k}\left(\frac{\widehat{p}_{i}-p_{i}}{p_{i}}\right)^{2}p_{i},

gdzie \widehat{p}_{i}=\frac{\widehat{n}_{i}}{n} to zaobserwowane prawdopodobieństwa (będące stymatorami największej wiarygodności parametrów p_{i} dla rozkładu wielomianowego).

5.2. Test niezależności

Będziemy rozpatrywać dwie zmienne losowe o rozkładzie dyskretnym:

X\text{ o wartościach }\{ 1,\ldots,k\}
Y\text{ o wartościach }\{ 1,\ldots,l\},

których rozkład łączny jest rozkładem wielomianowym o nieznanych parametrach p_{{ij}}, i=1,\ldots,k, j=1,\ldots,l. Znane są jedynie zaobserwowane liczności dla każdej pary (i,j) w postaci macierzy kontyngencji.

Definicja 5.1

Macierz kontyngencji to macierz N o wymiarach k\times l zawierająca zaobserwowane liczności n_{{ij}}, \sum _{{i=1}}^{k}\sum _{{j=1}}^{l}n_{{ij}}=n, dla każdej z par wartości zmiennych losowych (X,Y):

\begin{array}[]{c|ccc}X\setminus Y&1&\ldots&l\\
\hline 1&n_{{11}}&\ldots&n_{{1l}}\\
\ldots&\ldots&\ldots&\ldots\\
k&n_{{k1}}&\ldots&n_{{kl}}\end{array}

Hipotezę, którą będziemy testować to:

H_{0}:\text{ zmienne losowe }X\text{ i }Y\text{ są niezależne.}

W tym celu policzymy odległość rozkładu zaobserwowanego od teoretycznego rozumianego jako iloczyn rozkładów brzegowych. Macierz zaobserwowanych prawdopodobieństw możemy zapisać jako:

(\widehat{p}_{{ij}})=\widehat{P}=\frac{N}{n},

gdzie N to macierz kontyngencji, a n to suma wszystkich elementów tej macierzy. Statystyka testowa wyraża się wzorem:

n\sum _{{i=1}}^{k}\sum _{{j=1}}^{l}\frac{(\widehat{p}_{{ij}}-\widehat{p}_{{i.}}\widehat{p}_{{.j}})^{2}}{\widehat{p}_{{i.}}\widehat{p}_{{.j}}}\xrightarrow[n\rightarrow\infty]{d}\chi^{2}\left((k-1)(l-1)\right),

gdzie \widehat{p}_{{i.}}=\sum _{{j=1}}^{l}\widehat{p}_{{ij}} i \widehat{p}_{{.j}}=\sum _{{i=1}}^{k}\widehat{p}_{{ij}} to zaobserwowane rozkłady brzegowe dla X i Y.

5.3. Analiza odpowedniości (correspondence analysis)

Tak jak w poprzednim podrozdziale, dane mamy dwie zmienne losowe X i Y o rozkładzie dyskretnym. Analiza odpowiedniości to metoda prezentacji danych w przestrzeni o niewielkim wymiarze (zwykle równym 2, wtedy prezentację można przedstawić na płaszczyźnie), ilustrująca zależności pomiędzy danymi cechami X i Y.

Przykład 5.1

Rozpatrzmy następujący przykład: dla każdej osoby obserwujemy kolor oczu i włosów. Zmienna losowa X będzie oznaczać jeden z czterech kolorów oczu: brown, blue, hazel, green. Zmienna losowa Y będzie oznaczać jeden z czterech kolorów włosów: black, brown, red, blond. Tablica kontyngencji dla tego przykładu:

\begin{array}[]{c|cccc}\text{eyes}\setminus\text{hair}&\text{black}&\text{brown}&\text{red}&\text{blond}\\
\hline\text{brown}&68&119&26&7\\
\text{blue}&20&84&17&94\\
\text{hazel}&15&54&14&10\\
\text{green}&5&29&14&16\end{array}

Analiza odpowiedniości pozwoli nam na przedstawienie graficzne zależności pomiędzy kolorami włosów i oczu. Na przykład, będziemy mogli zobaczyć, czy osoby o niebieskim kolorze oczu mają najczęsciej włosy koloru blond.

Do analizy korespondencji potrzebna nam będzie macierz rezyduów Pearsona, której konstrukcję omówimy przy pomocy komend programu R:

  N=table(cbind(X,Y)) # macierz kontyngencji, gdzie X i Y to faktory
  P=N/sum(N) # macierz zaobserwowanych prawdopodobieństw
  Pi=apply(P,1,sum) # rozkład brzegowy dla X
  Pj=apply(P,2,sum) # rozkład brzegowy dla Y
  PP=Pi%*%t(Pj)
  RP=sqrt(sum(N))*(P-PP)/sqrt(PP) # macierz rezyduów Pearsona
 
Uwaga 5.1

Zauważmy, że sum(RP^2) to statystyka testowa dla testu niezależności.

Przykład 5.1 Sama postać macierzy RP może nam wiele powiedzieć o zależności poszczególnych cech. Macierz rezyduów Pearsona dla przykładu kolory oczu i włosów znajduje się w tabeli 5.1.

BLACK BROWN RED BLOND
Brown 4.40 1.23 -0.07 -5.85
Blue -3.07 -1.95 -1.73 7.05
Hazel -0.48 1.35 0.85 -2.23
Green -1.95 -0.35 2.28 0.61
Tabela 5.1. Macierz rezyduów Pearsona dla przykładu kolory oczu i włosów.

Największe dodatnie wartości, a więc największą dodatnią zależność pomiędzy cechami mamy dla par (brown,black) i (blue,blond). Największą ujemne wartości, a więc największą ujemną zależność obserwujemy dla par (blue,black) i (brown,blond).

Celem analizy odpowiedniości jest przedstawienie cech X i Y na płaszczyźnie, żeby widoczne były zależności między nimi. W tym celu zmniejszymy wymiar RP do 2, używając do tego analizy składowych głównych. Wiemy, że takie przybliżenie jest najlepsze w sensie błędu średniokwadratowego i opisuje możliwie najwięcej zmienności danych.

RP=d_{1}u_{1}v_{1}^{T}+d_{2}u_{2}v_{2}^{T}+\ldots+d_{l}u_{l}v_{l}^{T}\approx
\approx(\sqrt{d_{1}}u_{1})(\sqrt{d_{1}}v_{1})^{T}+(\sqrt{d_{2}}u_{2})(\sqrt{d_{2}}v_{2})^{T}.

Cechy X i Y przedstawiamy jako punkty:

\widetilde{X}=[\sqrt{d_{1}}u_{1},\sqrt{d_{2}}u_{2}]
\widetilde{Y}=[\sqrt{d_{1}}v_{1},\sqrt{d_{2}}v_{2}].

Pamiętamy z rozkładu SVD, że (RP)V=UD, U^{T}(RP)=DV^{T} , U rozpina przestrzeń kolumn macierzy RP, a V przestrzeń wierszy. Scentrowane punkty (od kolumn macierzy \widetilde{X} i \widetilde{Y} odejmujemy średnie w kolumnach tak żeby środek danych był w (0,0)) nanosimy na wykres (rysunek 5.1).

\par
Rys. 5.1. Analiza odpowiedniości dla przykładu kolory oczu i włosów.

Przykład 5.1 Dla interpretacji mapy odpowiedniości, potraktujmy wiersze macierzy \widetilde{X} oraz \widetilde{Y} jako współrzędne wektorów, zaczepionych w punkcie (0,0). Wiersze macierzy \widetilde{X} odpowiadają kolorom oczu, wiersze macierzy \widetilde{Y} kolorom włosów. Na rysunku zaznaczone zostały dla przykładu wektory odpowiadające cechom blue oraz black. Zauważmy, że iloczyn skalarny dwóch wektorów, i-tego z macierzy \widetilde{X} i j-tego z macierzy \widetilde{Y} równy jest przybliżeniu macierzy rezyduów Pearsona. Oznaczmy:

a=\widetilde{X}[i,]=(\sqrt{d_{1}}u_{1}[i],\sqrt{d_{2}}u_{2}[i]);
b=\widetilde{Y}[i,]=(\sqrt{d_{1}}v_{1}[i],\sqrt{d_{2}}v_{2}[i]);
RP\approx a^{T}b=a\circ b=|a||b|\cos(\vartheta),

gdzie \theta oznacza kąt pomiędzy wektorami. Interpretacja dla wektorów blue i black może być następująca: ponieważ długości obu wektorów są duże oraz \cos(\vartheta) jest ujemne o wartości bezwzględnej w przybliżeniu \frac{1}{2}, zależność pomiędzy cechami jest silnie ujemna. Na tej samej zasadzie możemy zaobserwować silną zależność pomiędzy włosami blond i oczami blue oraz włosami black i oczami brown.

Treść automatycznie generowana z plików źródłowych LaTeXa za pomocą oprogramowania wykorzystującego LaTeXML.

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu Społecznego.

Projekt współfinansowany przez Ministerstwo Nauki i Szkolnictwa Wyższego i przez Uniwersytet Warszawski.