W rozdziale tym przedstawione zostaną wskaźniki liczbowe do analizy danych jedno- i dwuwymiarowych. Przypomniane zostaną miary rozrzutu oraz omówione miary zależności i miary bliskości między zmiennymi (cechami).
Główna różnica:
miary zależności: minimalne dla zmiennych niezależnych, maksymalne dla zmiennych identycznych;
miary bliskości (odległości, zróżnicowania): minimalne dla zmiennych identycznych;
Wygodnie jest podzielić zmienne na ilościowe (liczbowe), porządkowe i jakościowe (nominalne). Miary wprowadzone dla danych liczbowych, wykorzystujące wartości liczbowe, mają zastosowanie tylko dla nich. Miary dla zmiennych porządkowych nadają się również dla zmiennych liczbowych, ponieważ otrzymujemy je przez zamianę wartości cechy na kolejne liczby naturalne
Miary zależności i bliskości zostaną podzielone na symetryczne i niesymetryczne (zależność czy błąd nie muszą być relacjami symetrycznymi). Podsumowanie znajduje się w poniższej tabelce:
Zmienne ilościowe | Zmienne porządkowe | Zmienne jakościowe | |
Miary zależności | Korelacja | Korelacja rang, | Wspólna |
symetryczne | Współczynnik Kendalla | Informacja | |
Miary zależności | Współczynnik | ||
niesymetryczne | Goodmana-Kruskala | ||
Miary odległości | Błąd średniokwadratowy | ||
symetryczne | |||
Miary odległości | |||
niesymetryczne |
W dalszej części skryptu będziemy oznaczać wielkimi literami, np.
Próbą będziemy nazywali
Średnią z próby będziemy oznaczać jako:
Dla zmiennych ilościowych możemy zdefiniować kwantyle:
Kwantyl rzędu
gdzie
Estymatorami kwantyli dla próby
Kwantyle próbkowe rzędu
gdzie
Wariancja:
wersja populacyjna
wersja próbkowa
wersja próbkowa nieobciążona
Odchylenie standardowe:
wersja populacyjna
wersja próbkowa
wersja próbkowa niebciążona
MAD (Median of Absolute Deviation):
Dla rozkładu normalnego, MAD
IQR (Interquartile Range)
Dla rozkładu normalnego IQR
Korelacja pomiędzy zmiennymi
Dla próby
korelacja próbkowa nieobciążona:
Zmienne porządkowe to takie, dla których nie są ważne wartości, ale kolejność, w jakiej są ustawione. Z pojęciem zmiennej porządkowej ściśle wiąże się pojęcie rangi. Nadanie rang obserwacjom uniezależnia je od skali.
Rangi dla obserwacji w próbie
Dla
X | 2 | 3 | 2,5 | 2,5 | 1,5 |
---|---|---|---|---|---|
R | 2 | 5 | 3,5 | 3,5 | 1 |
Korelacja rang (Spearmana):
gdzie
Załóżmy, że
Jeżeli
Współczynnik Kendala zależności między
Załóżmy, że
Jeśli
Wersja próbkowa
W programie R: cor(X, Y, method = c(”pearson”, ”kendall”, ”spearman”))
z domyślnie ustawioną opcją ”pearson”
.
W tej części omówione zostaną miary rozrzutu, zależności i bliskości oparte na gęstościach prawdopodobieństwa, wykorzystywane przede wszytkim do analizy cech jakościowych.
Entropia dla gęstości
Jeśli
Różnice i podobieństwa między H
Załóżmy, że
Zatem wariancja jest największa dla rozkładu dwupunktowego:
Załóżmy teraz, że
Współczynnik Giniego dla gęstości
Jeśli
V(p) jest liniowym (rozwinięcie Taylora dla logarytmu naturalnego:
Dla prostoty ograniczymy się w dalszej części wykładu do rozkładów dyskretnych zadanych gęstościami
Odległość Kullbacka-Leiblera (względna entropia):
Własności Odległości Kullbacka-Leiblera (entropii względnej):
Skorzystajmy z nierówności:
Stąd otrzymujemy
Odległość
(1.1) |
Odległość
Niech
warunkowy współczynnik Giniego
warunkową entropię
Zauważmy, że:
Współczynnik Goodmana-Kruskala (mówi on o tym, jak zmienił się rozrzut po zaobserwowaniu cechy
Zakładamy, że rozkład
Własności Współczynnika Goodmana-Kruskala:
Oczywiście
Dla dowodu
Wspólna informacja zawarta w
Własności Wspólnej informacji:
Wynika z własności odległości Kullbacka-Leiblera (stwierdzenie 1.2), bo
Korzystając z przybliżenia rozwinięciem w szereg Taylora logarytmu:
Ostatnie wyrażenie oraz statystyka
Wspólna informacja dla rozkładu dwuwymiarowego normalnego, gdzie
gdzie
Jeżeli zamiast współczynnika Giniego we wzorze na współczynnik Goodmana-Kruskala użyjemy entropii, otrzymamy analogiczny współczynnik
gdzie
Zatem
Zatem
Obliczanie spółczynnika Goodmana-Kruskala: http://www.mimuw.edu.pl/~pokar/StatystykaII/EKSPLORACJA/tauGK.R
Treść automatycznie generowana z plików źródłowych LaTeXa za pomocą oprogramowania wykorzystującego LaTeXML.
strona główna | webmaster | o portalu | pomoc
© Wydział Matematyki, Informatyki i
Mechaniki UW, 2009-2010. Niniejsze materiały są udostępnione bezpłatnie na licencji Creative Commons Uznanie autorstwa-Użycie niekomercyjne-Bez utworów zależnych 3.0 Polska.
Projekt współfinansowany przez Unię Europejską w ramach
Europejskiego Funduszu Społecznego.
Projekt współfinansowany przez Ministerstwo Nauki i Szkolnictwa Wyższego i przez Uniwersytet Warszawski.