Zagadnienia

1. Miary zależności i miary bliskości między zmiennymi

W rozdziale tym przedstawione zostaną wskaźniki liczbowe do analizy danych jedno- i dwuwymiarowych. Przypomniane zostaną miary rozrzutu oraz omówione miary zależności i miary bliskości między zmiennymi (cechami).

Główna różnica:

  • miary zależności: minimalne dla zmiennych niezależnych, maksymalne dla zmiennych identycznych;

  • miary bliskości (odległości, zróżnicowania): minimalne dla zmiennych identycznych;

Wygodnie jest podzielić zmienne na ilościowe (liczbowe), porządkowe i jakościowe (nominalne). Miary wprowadzone dla danych liczbowych, wykorzystujące wartości liczbowe, mają zastosowanie tylko dla nich. Miary dla zmiennych porządkowych nadają się również dla zmiennych liczbowych, ponieważ otrzymujemy je przez zamianę wartości cechy na kolejne liczby naturalne 1,2,\ldots,n lub ułamki jednostajnie rozłożone na odcinku [0,1], czyli \frac{i}{n}-\frac{1}{2n}, gdzie i=1,2,\ldots,n. Miary dla zmiennych jakościowych są oparte na gęstościach i mają zastosowanie do wszystkich zmiennych.

Miary zależności i bliskości zostaną podzielone na symetryczne i niesymetryczne (zależność czy błąd nie muszą być relacjami symetrycznymi). Podsumowanie znajduje się w poniższej tabelce:

Zmienne ilościowe Zmienne porządkowe Zmienne jakościowe
Miary zależności Korelacja Korelacja rang, Wspólna
symetryczne Współczynnik Kendalla Informacja
Miary zależności Współczynnik
niesymetryczne Goodmana-Kruskala
Miary odległości Błąd średniokwadratowy
symetryczne \mathbb{E}(X-Y)^{2}
Miary odległości \frac{\mathbb{E}(X-Y)^{2}}{\mathbb{E}Y^{2}} \chi^{2}(p,q),
niesymetryczne \text{H}(p||q)

W dalszej części skryptu będziemy oznaczać wielkimi literami, np. X, Y zarówno zmienne losowe jak i ich realizacje. Rozróżnienie będzie wynikać z kontekstu.

Definicja 1.1

Próbą będziemy nazywali n realizacji zmiennej losowej: X=(X_{1},\ldots,X_{n}).

Średnią z próby będziemy oznaczać jako:

\overline{X}=\frac{1}{n}\sum _{{i=1}}^{n}X_{i}\quad.

1.1. Zmienne ilościowe

Dla zmiennych ilościowych możemy zdefiniować kwantyle:

Definicja 1.2

Kwantyl rzędu p, p\in(0,1):

\varphi _{p}(X)=F_{X}^{{-1}}(p)=\inf\{ x:F_{X}(x)\geq p\},

gdzie F_{X} oznacza dystrybuantę. Kwantyle rzędu \frac{1}{4},\frac{1}{2}, i \frac{3}{4} nazywamy kwartylami, z czego kwantyl rzędu \frac{1}{2} to mediana.

Estymatorami kwantyli dla próby X=(X_{1},\ldots,X_{n}) są kwantyle próbkowe.

Definicja 1.3

Kwantyle próbkowe rzędu p dla próby n-elementowej, p\in(0,1):

\widehat{\varphi}_{p}(X)=\frac{1}{2}(X_{{\lfloor p(n+1):n\rfloor}}+X_{{\lceil p(n+1):n\rceil}}),

gdzie X_{{k:n}} oznacza k-ty element statystyki pozycyjnej: po uszeregowaniu niemalejąco wartości X_{i}\quad i=1,\ldots,n,\quad X_{{k:n}} oznacza k-tą wartość z n-elementowego ciągu. Funkcja ceiling zwraca najmniejszą liczbę całkowitą mniejszą od danej, a funkcja floor największą liczbę całkowitą mniejszą.

1.1.1. Miary rozrzutu

  • Wariancja:

    wersja populacyjna

    \text{Var}(X)=\mathbb{E}(X-\mathbb{E}X)^{2}\quad;

    wersja próbkowa

    \text{var}(X)=\frac{1}{n}\sum _{{i=1}}^{n}(X_{i}-\overline{X})^{2}\quad;

    wersja próbkowa nieobciążona

    \text{var}_{0}(X)=\frac{1}{n-1}\sum _{{i=1}}^{n}(X_{i}-\overline{X})^{2}\quad.
  • Odchylenie standardowe:

    wersja populacyjna

    \sigma(X)=\sqrt{\text{Var}(X)}\quad;

    wersja próbkowa

    \hat{\sigma}(X)=\sqrt{\text{var}(X)}\quad;

    wersja próbkowa niebciążona

    \hat{\sigma}_{0}(X)=\sqrt{\text{var}_{0}(X)}\quad.
  • MAD (Median of Absolute Deviation):

    \text{MAD}(X)=\widehat{\varphi}_{{\frac{1}{2}}}(X-\widehat{\varphi}_{{\frac{1}{2}}}(X)).

    Dla rozkładu normalnego, MAD\approx 1,35\sigma.

  • IQR (Interquartile Range)

    \text{IQR}(X)=\widehat{\varphi}_{{\frac{3}{4}}}(X)-\widehat{\varphi}_{{\frac{1}{4}}}(X)\quad.

    Dla rozkładu normalnego IQR\approx 0,6745\sigma.

1.1.2. Miary zależności

  • Korelacja pomiędzy zmiennymi X i Y:

    \text{Cor}(X,Y)=\frac{\mathbb{E}(X-\mathbb{E}X)(Y-\mathbb{E}Y)}{\sigma(X)\sigma(Y)}\quad.

    Dla próby n-elemnentowej: (X_{1},Y_{1}),\ldots,(X_{n},Y_{n}) korelacja próbkowa:

    \text{cor}(X,Y)=\frac{\frac{1}{n}\sum _{{i=1}}^{n}(X_{i}-\overline{X})(Y_{i}-\overline{Y})}{\widehat{\sigma}(X)\widehat{\sigma}(Y)}\quad;

    korelacja próbkowa nieobciążona:

    \text{cor}_{0}(X,Y)=\frac{\frac{1}{n-1}\sum _{{i=1}}^{n}(X_{i}-\overline{X})(Y_{i}-\overline{Y})}{\widehat{\sigma}_{0}(X)\widehat{\sigma}_{0}(Y)}\quad,
    \text{cor}_{0}(X,Y)=\text{cor}(X,Y).

1.2. Zmienne porządkowe

Zmienne porządkowe to takie, dla których nie są ważne wartości, ale kolejność, w jakiej są ustawione. Z pojęciem zmiennej porządkowej ściśle wiąże się pojęcie rangi. Nadanie rang obserwacjom uniezależnia je od skali.

Definicja 1.4

Rangi dla obserwacji w próbie X=(X_{1},\ldots,X_{n}):

R_{i}=R(X_{i})=\#\{ j:X_{j}<X_{i}\}+\frac{1+\#\{ j:X_{j}=X_{i}\}}{2}\quad.
Przykład 1.1

Dla X=(2;3;2,5;2,5;1,5) rangi są równe:

X 2 3 2,5 2,5 1,5
R 2 5 3,5 3,5 1

1.2.1. Miary zależności

  • Korelacja rang (Spearmana):

    \text{cor}_{R}(X,Y)=\text{cor}(R(X),R(Y))\quad,

    gdzie R(X)=(R(X_{1}),R(X_{2}),\ldots,R(X_{n})), R(Y)=(R(Y_{1}),R(Y_{2}),\ldots,R(Y_{n})).

Stwierdzenie 1.1

Załóżmy, że X,Y mają rozkłady o ciągłych i ściśle rosnących dystrybuantach. Wtedy:

  1. \frac{1}{n}\sum _{{i=1}}^{n}R_{i}=\frac{n+1}{2} ;

  2. \text{var(R(X))}=\frac{1}{n-1}\sum _{{i=1}}^{n}(R(X_{i})-\overline{R})^{2}=\frac{n(n+1)}{12} ;

  3. \text{cor}_{R}(X,Y)=\frac{12}{n(n^{2}-1)}\sum _{{i=1}}^{n}R(X_{i})R(Y_{i})-\frac{3(n+1)}{n-1} ;

  4. \text{cor}_{R}(X,Y)\xrightarrow[n\rightarrow\infty]{p.n}\text{Cor}(F_{X}(X),F_{Y}(Y)) ;

  5. Jeżeli (X,Y) ma 2-wymiarowy rozkład normalny,

    \text{Cor}(F_{X}(X),F_{Y}(Y))=\frac{6}{\pi}\arcsin\left(\frac{\text{Cor}(X,Y)}{2}\right).
  • Współczynnik Kendala zależności między X a Y:

    Załóżmy, że X_{1},X_{2} to zmienne losowe niezależne i o takim samym rozkładzie co X, Y_{1},Y_{2} niezależne o takim samym rozkładzie co Y. Niech:

    X_{{12}}=\left\{\begin{array}[]{ll}1,&\hbox{$X_{1}>X_{2}$ ;}\\
0,&\hbox{$X_{1}=X_{2}$ ;}\\
-1,&\hbox{$X_{1}<X_{2}$ .}\end{array}\right.\quad Y_{{12}}=\left\{\begin{array}[]{ll}1,&\hbox{$Y_{1}>Y_{2}$ ;}\\
0,&\hbox{$Y_{1}=Y_{2}$ ;}\\
-1,&\hbox{$Y_{1}<Y_{2}$ .}\end{array}\right.
\tau _{k}(X,Y)=\text{Cor}(X_{{12}},Y_{{12}})=
=\frac{\mathbb{P}((X_{1}-X_{2})(Y_{1}-Y_{2})>0)-\mathbb{P}((X_{1}-X_{2})(Y_{1}-Y_{2})<0)}{\sqrt{\mathbb{P}(X_{1}\neq X_{2})\mathbb{P}(Y_{1}\neq Y_{2})}}.

Jeśli X,Y mają ciągłe dystrybuanty, to

\tau _{k}(X,Y)=\mathbb{P}((X_{1}-X_{2})(Y_{1}-Y_{2})=1)-\mathbb{P}((X_{1}-X_{2})(Y_{1}-Y_{2})=-1).

Wersja próbkowa \tau _{k}:

\widehat{\tau}_{k}=\frac{2}{n(n-1)}\sum _{{1\leq i\leq j\leq n}}\text{sgn}((X_{i}-X_{j})(Y_{i}-Y_{j})).
Uwaga 1.1

W programie R: cor(X, Y, method = c(”pearson”, ”kendall”, ”spearman”)) z domyślnie ustawioną opcją ”pearson”.

1.3. Zmienne jakościowe

W tej części omówione zostaną miary rozrzutu, zależności i bliskości oparte na gęstościach prawdopodobieństwa, wykorzystywane przede wszytkim do analizy cech jakościowych.

1.3.1. Miary rozrzutu

  • Entropia dla gęstości p o nośniku \Omega:

    \text{H}(p)=-\int _{{\Omega}}[\ln p(v)]p(v)dv.

    Jeśli X - zmienna losowa o gęstości p_{X}, to \text{H}(X):=\text{H}(p_{X}).

Uwaga 1.2

Różnice i podobieństwa między H(X) i Var(X):

  1. Załóżmy, że 0\leq X\leq 1. Wtedy

    \text{Var}(X)=\mathbb{E}(X^{2})-(\mathbb{E}X)^{2}\leq\mathbb{E}X-(\mathbb{E}X)^{2}\leq\frac{1}{4}.

    Zatem wariancja jest największa dla rozkładu dwupunktowego: p_{0}=\frac{1}{2}=p_{1}. Entropia natomiast jest największa dla rozkładu jednostajnego.

  2. Załóżmy teraz, że X\sim\mathcal{N}(\mu,\sigma^{2}). Mamy:

    \ln p_{X}(x)=\ln\left(\frac{1}{\sqrt{2\pi}\sigma}\right)-\frac{(x-\mu)^{2}}{2\sigma^{2}};
    \text{Var}(X)=\int(x-\mu)^{2}p_{X}(x)dx=\sigma^{2};
    \text{H}(X)=-\ln\left(\frac{1}{\sqrt{2\pi}\sigma}\right)+\frac{1}{2}=const+\frac{1}{2}\ln\sigma^{2}.
  • Współczynnik Giniego dla gęstości p:

    \text{V}(p)=\int _{{\Omega}}[1-p(v)]p(v)dv=1-\int _{{\Omega}}p^{2}(v)dv.

    Jeśli X - zmienna losowa o gęstości p_{X}, to \text{V}(X)=\text{V}(p_{X}).

    V(p) jest liniowym (rozwinięcie Taylora dla logarytmu naturalnego: \ln(x)\approx x-1) przybliżeniem H(p).

1.3.2. Miary bliskości

Dla prostoty ograniczymy się w dalszej części wykładu do rozkładów dyskretnych zadanych gęstościami p i q o wspólnym nośniku \Omega.

  • Odległość Kullbacka-Leiblera (względna entropia):

    \text{H}(p||q)=\sum _{{i\in\Omega}}\left(\ln\frac{p_{i}}{q_{i}}\right)p_{i}\quad.
Stwierdzenie 1.2

Własności Odległości Kullbacka-Leiblera (entropii względnej):

  1. \text{H}(p||q)\geq 0 ;

  2. \text{H}(p||q)=0\Leftrightarrow p=q .

Skorzystajmy z nierówności: \ln(x)\leq x-1:

\text{H}(p||q)=\sum _{{i\in\Omega}}\left(\ln\frac{p_{i}}{q_{i}}\right)p_{i}=-\sum _{{i\in\Omega}}\left(\ln\frac{q_{i}}{p_{i}}\right)p_{i}\geq\sum _{{i\in\Omega}}\left(1-\frac{q_{i}}{p_{i}}\right)p_{i}=0.

Stąd otrzymujemy (1). Równość w ostatniej nierówności jest równoważna warunkowi \frac{q_{i}}{p_{i}}=1 dla wszystkich i, otrzymujemy (2).

  • Odległość \chi^{2} między rozkładami dyskretnymi zadanymi gęstościami p i q o wspólnym nośniku \Omega:

    \chi^{2}(p,q)=\sum _{{i\in\Omega}}\left(\frac{p_{i}-q_{i}}{p_{i}}\right)^{2}p_{i}=\sum _{{i\in\Omega}}\frac{(p_{i}-q_{i})^{2}}{p_{i}}\quad. (1.1)

    Odległość \chi^{2} jest kwadratowym (rozwinięcie Taylora dla logarytmu: \ln(1+x)\approx x-\frac{1}{2}x^{2}, gdzie za x wstawiamy \frac{q_{i}-p_{i}}{p_{i}}) przybliżeniem \text{H}(p||q): \text{H}(p||q)\approx\frac{1}{2}\chi^{2}(p,q).

1.3.3. Miary zależności

Niech X,Y będą zmiennymi o rozkładzie dyskretnym, niekoniecznie o tym samym nośniku \Omega. Ponadto zdefiniujmy:

p_{{ij}}=\mathbb{P}(X=i,Y=j) ;

p_{{j|i}}=\mathbb{P}(Y=j|X=i) ;

p_{{i.}}=\mathbb{P}(X=i) ;

p_{{.j}}=\mathbb{P}(Y=j) ;

warunkowy współczynnik Giniego \text{V}(Y|X=i)=1-\sum _{{j}}p^{2}_{{j|i}} ;

warunkową entropię \text{H}(Y|X=i)=-\sum _{{j}}(\ln p_{{j|i}})p_{{j|i}} .

Zauważmy, że:

\mathbb{E}\text{V}(Y|X)=\sum _{{i}}\text{V}(Y|X=i)p_{{i.}}=1-\sum _{{i}}p_{{i.}}\sum _{{j}}p^{2}_{{j|i}};
\mathbb{E}\text{H}(Y|X)=\sum _{{i}}\text{H}(Y|X=i)p_{{i.}}.
  • Współczynnik Goodmana-Kruskala (mówi on o tym, jak zmienił się rozrzut po zaobserwowaniu cechy X):

    \tau(Y|X)=\frac{\text{V}(Y)-\mathbb{E}(\text{V}(Y|X))}{\text{V}(Y)}.

    Zakładamy, że rozkład Y jest niezdegenerowany, czyli że \text{V}(Y)>0.

Stwierdzenie 1.3

Własności Współczynnika Goodmana-Kruskala:

  1. 0\leq\tau\leq 1 ;

  2. \tau=0\Leftrightarrow X,Y niezależne.

Oczywiście \tau\leq 1. Dla dowodu, że \tau\geq 0 zauważmy, że \mathbb{E}\text{V}(Y|X)=1-\sum _{{i}}p_{{i.}}\sum _{{j}}p^{2}_{{j|i}}. Wystarczy pokazać, że \sum _{{j}}p^{2}_{{.j}}\leq\sum _{{j}}\sum _{{i}}p_{{i.}}p^{2}_{{j|i}}. Z kolei wystarczy pokazać, że p^{2}_{{.j}}\leq\sum _{{i}}p_{{i.}}p^{2}_{{j|i}}. Lewa=p^{2}_{{.j}}=(\sum _{{i}}p_{{ij}})^{2}=(\sum _{{i}}p_{{j|i}}p_{{i.}})^{2}, więc (1) wynika z nierówności Jensena.

Dla dowodu (2) zauważmy, że ,,=” w nierówności Jensena wyrazów p_{{j|i}}=p_{{.j}} \forall i,j jest równoważna niezależności X,Y.

  • Wspólna informacja zawarta w X i Y:

    \text{M}(X,Y)=\sum _{{j=1}}^{l}\sum _{{i=1}}^{k}p_{{ij}}\ln\frac{p_{{ij}}}{p_{{i.}}p_{{.j}}}
Stwierdzenie 1.4

Własności Wspólnej informacji:

  1. \text{M}(X,Y)\geq 0 ;

  2. \text{M}(X,Y)=0\Leftrightarrow X,Y niezależne.

Wynika z własności odległości Kullbacka-Leiblera (stwierdzenie 1.2), bo \text{M}(X,Y)=H(p_{{ij}}||(p_{{i.}}p_{{.j}}))

Uwaga 1.3

Korzystając z przybliżenia rozwinięciem w szereg Taylora logarytmu: \ln(1+x)\approx x-\frac{1}{2}x^{2}, otrzymujemy:

\displaystyle\text{M}(X,Y)= \displaystyle-\sum _{j}\sum _{i}p_{{ij}}\ln\left(\frac{p_{{i.}}p_{{.j}}}{p_{{ij}}}-1+1\right)\approx
\displaystyle= \displaystyle-\left[\sum _{{ji}}\left(\frac{p_{{i.}}p_{{.j}}}{p_{{ij}}}-1\right)p_{{ij}}-\frac{1}{2}\sum _{{ji}}\left(\frac{p_{{i.}}p_{{.j}}}{p_{{ij}}}-1\right)^{2}p_{{ij}}\right]=
\displaystyle= \displaystyle\frac{1}{2}\sum _{{ij}}\frac{(p_{{i.}}p_{{.j}}-p_{{ij}})^{2}}{p_{{ij}}}.

Ostatnie wyrażenie oraz statystyka \chi^{2}=\sum _{{ij}}\frac{(p_{{ij}}-p_{{i.}}p_{{.j}})^{2}}{p_{{i.}}p_{{.j}}} dla testowania niezależności mają podobną interpretację, chociaż różnica w treści matematycznej jest zasadnicza. Być może o podobieństwie wyrażeń decydują własności błędu względnego: jeśli błąd względny oszacowania a za pomocą b jest nie większy od \varepsilon, to błąd względny oszacowania b za pomocą a jest nie większy niż \frac{\varepsilon}{1-\varepsilon}. Przy małym \varepsilon wyrażenia te są porównywalne.

Uwaga 1.4

Wspólna informacja dla rozkładu dwuwymiarowego normalnego, gdzie (X,Y)\sim\mathcal{N}\left(\left(\begin{array}[]{c}\mu _{X}\\
\mu _{Y}\\
\end{array}\right),\left(\begin{array}[]{cc}\sigma^{2}_{X}&\rho\sigma _{X}\sigma _{Y}\\
\rho\sigma _{X}\sigma _{Y}&\sigma _{Y}^{2}\\
\end{array}\right)\right), jest równa:

\text{M}(X,Y)=-\ln\sqrt{1-\rho^{2}},

gdzie \rho=\text{Cor}(X,Y).

  • Jeżeli zamiast współczynnika Giniego we wzorze na współczynnik Goodmana-Kruskala użyjemy entropii, otrzymamy analogiczny współczynnik \text{M}(Y|X):

    \text{M}(Y|X)=\frac{\text{H}(Y)-\mathbb{E}\text{H}(Y|X)}{\text{H}(Y)}.
Stwierdzenie 1.5
\text{M}(Y|X)=\frac{\text{H}(Y)-\mathbb{E}\text{H}(Y|X)}{\text{H}(Y)}=\frac{\text{M}(X,Y)}{\text{H}(Y)}.
\displaystyle\mathbb{E}\text{H}(Y|X) \displaystyle=-\sum _{i}p_{{i.}}\sum _{j}p_{{j|i}}\ln p_{{j|i}}=-\sum _{{ij}}p_{{ij}}\ln p_{{j|i}}=
\displaystyle=-\left[\sum _{{ij}}p_{{ij}}\ln p_{{ij}}-\sum _{{ij}}p_{{ij}}\ln p_{{i.}}\right]=
\displaystyle=\text{H}(X,Y)+\sum _{{i}}\ln p_{{i.}}\sum _{j}p_{{ij}}=\text{H}(X,Y)+\sum _{{i}}\ln p_{{i.}}\cdot p_{{i.}}=
\displaystyle=\text{H}(X,Y)-\text{H}(X),

gdzie \text{H}(X,Y)=\text{H}(P_{{(X,Y)}}).

Zatem \text{M}(Y|X)=\frac{\text{H}(X)+\text{H}(Y)-\text{H}(X,Y)}{\text{H}(Y)}.

\displaystyle\text{M}(X,Y)= \displaystyle\sum _{i}\sum _{j}p_{{ij}}\ln\frac{p_{{ij}}}{p_{{i.}}p_{{.j}}}=
\displaystyle= \displaystyle\sum _{i}\sum _{j}p_{{ij}}\ln p_{{ij}}-\sum _{i}\sum _{j}p_{{ij}}\ln(p_{{i.}}p_{{.j}})=
\displaystyle= \displaystyle-\text{H}(X,Y)-\sum _{i}\sum _{j}p_{{ij}}\ln p_{{i.}}-\sum _{j}\sum _{i}p_{{ij}}\ln p_{{.j}}=
\displaystyle= \displaystyle-\text{H}(X,Y)-\sum _{i}\ln(p_{{i.}})p_{{i.}}-\sum _{j}\ln(p_{{.j}})p_{{.j}}=
\displaystyle= \displaystyle-\text{H}(X,Y)+\text{H}(X)+\text{H}(Y).

Zatem \text{M}(X,Y)=\text{H}(X)+\text{H}(Y)-\text{H}(X,Y). Stąd \text{M}(Y|X)=\frac{\text{M}(X,Y)}{\text{H}(Y)}.

1.4. Przykłady w programie R

Obliczanie spółczynnika Goodmana-Kruskala: http://www.mimuw.edu.pl/~pokar/StatystykaII/EKSPLORACJA/tauGK.R

Treść automatycznie generowana z plików źródłowych LaTeXa za pomocą oprogramowania wykorzystującego LaTeXML.

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu Społecznego.

Projekt współfinansowany przez Ministerstwo Nauki i Szkolnictwa Wyższego i przez Uniwersytet Warszawski.