Zagadnienia

1. Miary zależności i miary bliskości między zmiennymi

W rozdziale tym przedstawione zostaną wskaźniki liczbowe do analizy danych jedno- i dwuwymiarowych. Przypomniane zostaną miary rozrzutu oraz omówione miary zależności i miary bliskości między zmiennymi (cechami).

Główna różnica:

  • miary zależności: minimalne dla zmiennych niezależnych, maksymalne dla zmiennych identycznych;

  • miary bliskości (odległości, zróżnicowania): minimalne dla zmiennych identycznych;

Wygodnie jest podzielić zmienne na ilościowe (liczbowe), porządkowe i jakościowe (nominalne). Miary wprowadzone dla danych liczbowych, wykorzystujące wartości liczbowe, mają zastosowanie tylko dla nich. Miary dla zmiennych porządkowych nadają się również dla zmiennych liczbowych, ponieważ otrzymujemy je przez zamianę wartości cechy na kolejne liczby naturalne 1,2,,n lub ułamki jednostajnie rozłożone na odcinku 0,1, czyli in-12n, gdzie i=1,2,,n. Miary dla zmiennych jakościowych są oparte na gęstościach i mają zastosowanie do wszystkich zmiennych.

Miary zależności i bliskości zostaną podzielone na symetryczne i niesymetryczne (zależność czy błąd nie muszą być relacjami symetrycznymi). Podsumowanie znajduje się w poniższej tabelce:

Zmienne ilościowe Zmienne porządkowe Zmienne jakościowe
Miary zależności Korelacja Korelacja rang, Wspólna
symetryczne Współczynnik Kendalla Informacja
Miary zależności Współczynnik
niesymetryczne Goodmana-Kruskala
Miary odległości Błąd średniokwadratowy
symetryczne EX-Y2
Miary odległości EX-Y2EY2 χ2p,q,
niesymetryczne H(p||q)

W dalszej części skryptu będziemy oznaczać wielkimi literami, np. X, Y zarówno zmienne losowe jak i ich realizacje. Rozróżnienie będzie wynikać z kontekstu.

Definicja 1.1

Próbą będziemy nazywali n realizacji zmiennej losowej: X=X1,,Xn.

Średnią z próby będziemy oznaczać jako:

X¯=1ni=1nXi.

1.1. Zmienne ilościowe

Dla zmiennych ilościowych możemy zdefiniować kwantyle:

Definicja 1.2

Kwantyl rzędu p, p0,1:

φpX=FX-1p=infx:FXxp,

gdzie FX oznacza dystrybuantę. Kwantyle rzędu 14,12, i 34 nazywamy kwartylami, z czego kwantyl rzędu 12 to mediana.

Estymatorami kwantyli dla próby X=X1,,Xn są kwantyle próbkowe.

Definicja 1.3

Kwantyle próbkowe rzędu p dla próby n-elementowej, p0,1:

φ^pX=12Xp(n+1):n+Xp(n+1):n,

gdzie Xk:n oznacza k-ty element statystyki pozycyjnej: po uszeregowaniu niemalejąco wartości Xii=1,,n,Xk:n oznacza k-tą wartość z n-elementowego ciągu. Funkcja ceiling zwraca najmniejszą liczbę całkowitą mniejszą od danej, a funkcja floor największą liczbę całkowitą mniejszą.

1.1.1. Miary rozrzutu

  • Wariancja:

    wersja populacyjna

    VarX=EX-EX2;

    wersja próbkowa

    varX=1ni=1nXi-X¯2;

    wersja próbkowa nieobciążona

    var0X=1n-1i=1nXi-X¯2.
  • Odchylenie standardowe:

    wersja populacyjna

    σX=VarX;

    wersja próbkowa

    σX=varX;

    wersja próbkowa niebciążona

    σ0X=var0X.
  • MAD (Median of Absolute Deviation):

    MADX=φ^12X-φ^12X.

    Dla rozkładu normalnego, MAD1,35σ.

  • IQR (Interquartile Range)

    IQRX=φ^34X-φ^14X.

    Dla rozkładu normalnego IQR0,6745σ.

1.1.2. Miary zależności

  • Korelacja pomiędzy zmiennymi X i Y:

    CorX,Y=EX-EXY-EYσXσY.

    Dla próby n-elemnentowej: X1,Y1,,Xn,Yn korelacja próbkowa:

    corX,Y=1ni=1nXi-X¯Yi-Y¯σ^Xσ^Y;

    korelacja próbkowa nieobciążona:

    cor0X,Y=1n-1i=1nXi-X¯Yi-Y¯σ^0Xσ^0Y,
    cor0X,Y=corX,Y.

1.2. Zmienne porządkowe

Zmienne porządkowe to takie, dla których nie są ważne wartości, ale kolejność, w jakiej są ustawione. Z pojęciem zmiennej porządkowej ściśle wiąże się pojęcie rangi. Nadanie rang obserwacjom uniezależnia je od skali.

Definicja 1.4

Rangi dla obserwacji w próbie X=X1,,Xn:

Ri=RXi=#j:Xj<Xi+1+#j:Xj=Xi2.
Przykład 1.1

Dla X=2;3;2,5;2,5;1,5 rangi są równe:

X 2 3 2,5 2,5 1,5
R 2 5 3,5 3,5 1

1.2.1. Miary zależności

  • Korelacja rang (Spearmana):

    corRX,Y=corRX,RY,

    gdzie RX=RX1,RX2,,RXn, RY=RY1,RY2,,RYn.

Stwierdzenie 1.1

Załóżmy, że X,Y mają rozkłady o ciągłych i ściśle rosnących dystrybuantach. Wtedy:

  1. 1ni=1nRi=n+12 ;

  2. var(R(X))=1n-1i=1nRXi-R¯2=nn+112 ;

  3. corRX,Y=12nn2-1i=1nRXiRYi-3n+1n-1 ;

  4. corRX,Yp.nCorFXX,FYY ;

  5. Jeżeli X,Y ma 2-wymiarowy rozkład normalny,

    CorFXX,FYY=6πarcsinCorX,Y2.
  • Współczynnik Kendala zależności między X a Y:

    Załóżmy, że X1,X2 to zmienne losowe niezależne i o takim samym rozkładzie co X, Y1,Y2 niezależne o takim samym rozkładzie co Y. Niech:

    X12=1,X1>X2 ;0,X1=X2 ;-1,X1<X2 .Y12=1,Y1>Y2 ;0,Y1=Y2 ;-1,Y1<Y2 .
τkX,Y=CorX12,Y12=
=P((X1-X2)(Y1-Y2)>0)-P((X1-X2)(Y1-Y2)<0)P(X1X2)P(Y1Y2).

Jeśli X,Y mają ciągłe dystrybuanty, to

τk(X,Y)=P((X1-X2)(Y1-Y2)=1)-P((X1-X2)(Y1-Y2)=-1).

Wersja próbkowa τk:

τ^k=2nn-11ijnsgnXi-XjYi-Yj.
Uwaga 1.1

W programie R: cor(X, Y, method = c(”pearson”, ”kendall”, ”spearman”)) z domyślnie ustawioną opcją ”pearson”.

1.3. Zmienne jakościowe

W tej części omówione zostaną miary rozrzutu, zależności i bliskości oparte na gęstościach prawdopodobieństwa, wykorzystywane przede wszytkim do analizy cech jakościowych.

1.3.1. Miary rozrzutu

  • Entropia dla gęstości p o nośniku Ω:

    Hp=-Ωlnpvpvdv.

    Jeśli X - zmienna losowa o gęstości pX, to HX:=HpX.

Uwaga 1.2

Różnice i podobieństwa między HX i VarX:

  1. Załóżmy, że 0X1. Wtedy

    VarX=EX2-EX2EX-EX214.

    Zatem wariancja jest największa dla rozkładu dwupunktowego: p0=12=p1. Entropia natomiast jest największa dla rozkładu jednostajnego.

  2. Załóżmy teraz, że XNμ,σ2. Mamy:

    lnpXx=ln12πσ-x-μ22σ2;
    VarX=x-μ2pXxdx=σ2;
    HX=-ln12πσ+12=const+12lnσ2.
  • Współczynnik Giniego dla gęstości p:

    Vp=Ω1-pvpvdv=1-Ωp2vdv.

    Jeśli X - zmienna losowa o gęstości pX, to VX=VpX.

    V(p) jest liniowym (rozwinięcie Taylora dla logarytmu naturalnego: lnxx-1) przybliżeniem H(p).

1.3.2. Miary bliskości

Dla prostoty ograniczymy się w dalszej części wykładu do rozkładów dyskretnych zadanych gęstościami p i q o wspólnym nośniku Ω.

  • Odległość Kullbacka-Leiblera (względna entropia):

    H(p||q)=iΩ(lnpiqi)pi.
Stwierdzenie 1.2

Własności Odległości Kullbacka-Leiblera (entropii względnej):

  1. H(p||q)0 ;

  2. H(p||q)=0p=q .

Skorzystajmy z nierówności: lnxx-1:

H(p||q)=iΩ(lnpiqi)pi=-iΩ(lnqipi)piiΩ(1-qipi)pi=0.

Stąd otrzymujemy 1. Równość w ostatniej nierówności jest równoważna warunkowi qipi=1 dla wszystkich i, otrzymujemy 2.

  • Odległość χ2 między rozkładami dyskretnymi zadanymi gęstościami p i q o wspólnym nośniku Ω:

    χ2p,q=iΩpi-qipi2pi=iΩpi-qi2pi. (1.1)

    Odległość χ2 jest kwadratowym (rozwinięcie Taylora dla logarytmu: ln1+xx-12x2, gdzie za x wstawiamy qi-pipi) przybliżeniem H(p||q): H(p||q)12χ2(p,q).

1.3.3. Miary zależności

Niech X,Y będą zmiennymi o rozkładzie dyskretnym, niekoniecznie o tym samym nośniku Ω. Ponadto zdefiniujmy:

pij=PX=i,Y=j ;

pj|i=P(Y=j|X=i) ;

pi.=PX=i ;

p.j=PY=j ;

warunkowy współczynnik Giniego V(Y|X=i)=1-jp2j|i ;

warunkową entropię H(Y|X=i)=-j(lnpj|i)pj|i .

Zauważmy, że:

EV(Y|X)=iV(Y|X=i)pi.=1-ipi.jp2j|i;
EH(Y|X)=iH(Y|X=i)pi..
  • Współczynnik Goodmana-Kruskala (mówi on o tym, jak zmienił się rozrzut po zaobserwowaniu cechy X):

    τ(Y|X)=V(Y)-E(V(Y|X))VY.

    Zakładamy, że rozkład Y jest niezdegenerowany, czyli że VY>0.

Stwierdzenie 1.3

Własności Współczynnika Goodmana-Kruskala:

  1. 0τ1 ;

  2. τ=0X,Y niezależne.

Oczywiście τ1. Dla dowodu, że τ0 zauważmy, że EV(Y|X)=1-ipi.jp2j|i. Wystarczy pokazać, że jp.j2jipi.pj|i2. Z kolei wystarczy pokazać, że p.j2ipi.pj|i2. Lewa=p2.j=(ipij)2=(ipj|ipi.)2, więc 1 wynika z nierówności Jensena.

Dla dowodu 2 zauważmy, że ,,=” w nierówności Jensena wyrazów pj|i=p.j i,j jest równoważna niezależności X,Y.

  • Wspólna informacja zawarta w X i Y:

    MX,Y=j=1li=1kpijlnpijpi.p.j
Stwierdzenie 1.4

Własności Wspólnej informacji:

  1. MX,Y0 ;

  2. MX,Y=0X,Y niezależne.

Wynika z własności odległości Kullbacka-Leiblera (stwierdzenie 1.2), bo M(X,Y)=H(pij||(pi.p.j))

Uwaga 1.3

Korzystając z przybliżenia rozwinięciem w szereg Taylora logarytmu: ln1+xx-12x2, otrzymujemy:

MX,Y=-jipijlnpi.p.jpij-1+1
=-jipi.p.jpij-1pij-12jipi.p.jpij-12pij=
=12ijpi.p.j-pij2pij.

Ostatnie wyrażenie oraz statystyka χ2=ijpij-pi.p.j2pi.p.j dla testowania niezależności mają podobną interpretację, chociaż różnica w treści matematycznej jest zasadnicza. Być może o podobieństwie wyrażeń decydują własności błędu względnego: jeśli błąd względny oszacowania a za pomocą b jest nie większy od ε, to błąd względny oszacowania b za pomocą a jest nie większy niż ε1-ε. Przy małym ε wyrażenia te są porównywalne.

Uwaga 1.4

Wspólna informacja dla rozkładu dwuwymiarowego normalnego, gdzie X,YNμXμY,σX2ρσXσYρσXσYσY2, jest równa:

MX,Y=-ln1-ρ2,

gdzie ρ=CorX,Y.

  • Jeżeli zamiast współczynnika Giniego we wzorze na współczynnik Goodmana-Kruskala użyjemy entropii, otrzymamy analogiczny współczynnik M(Y|X):

    M(Y|X)=H(Y)-EH(Y|X)HY.
Stwierdzenie 1.5
M(Y|X)=H(Y)-EH(Y|X)HY=MX,YHY.
EH(Y|X)=-ipi.jpj|ilnpj|i=-ijpijlnpj|i=
=-[ijpijlnpij-ijpijlnpi.]=
=H(X,Y)+ilnpi.jpij=H(X,Y)+ilnpi.pi.=
=HX,Y-HX,

gdzie HX,Y=HPX,Y.

Zatem M(Y|X)=HX+HY-HX,YHY.

MX,Y=ijpijlnpijpi.p.j=
=ijpijlnpij-ijpijlnpi.p.j=
=-HX,Y-ijpijlnpi.-jipijlnp.j=
=-HX,Y-ilnpi.pi.-jlnp.jp.j=
=-HX,Y+HX+HY.

Zatem MX,Y=HX+HY-HX,Y. Stąd M(Y|X)=MX,YHY.

1.4. Przykłady w programie R

Obliczanie spółczynnika Goodmana-Kruskala: http://www.mimuw.edu.pl/~pokar/StatystykaII/EKSPLORACJA/tauGK.R

Treść automatycznie generowana z plików źródłowych LaTeXa za pomocą oprogramowania wykorzystującego LaTeXML.

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu Społecznego.

Projekt współfinansowany przez Ministerstwo Nauki i Szkolnictwa Wyższego i przez Uniwersytet Warszawski.