W rozdziale tym przedstawione zostaną wskaźniki liczbowe do analizy danych jedno- i dwuwymiarowych. Przypomniane zostaną miary rozrzutu oraz omówione miary zależności i miary bliskości między zmiennymi (cechami).
Główna różnica:
miary zależności: minimalne dla zmiennych niezależnych, maksymalne dla zmiennych identycznych;
miary bliskości (odległości, zróżnicowania): minimalne dla zmiennych identycznych;
Wygodnie jest podzielić zmienne na ilościowe (liczbowe), porządkowe i jakościowe (nominalne). Miary wprowadzone dla danych liczbowych, wykorzystujące wartości liczbowe, mają zastosowanie tylko dla nich. Miary dla zmiennych porządkowych nadają się również dla zmiennych liczbowych, ponieważ otrzymujemy je przez zamianę wartości cechy na kolejne liczby naturalne lub ułamki jednostajnie rozłożone na odcinku , czyli , gdzie . Miary dla zmiennych jakościowych są oparte na gęstościach i mają zastosowanie do wszystkich zmiennych.
Miary zależności i bliskości zostaną podzielone na symetryczne i niesymetryczne (zależność czy błąd nie muszą być relacjami symetrycznymi). Podsumowanie znajduje się w poniższej tabelce:
Zmienne ilościowe | Zmienne porządkowe | Zmienne jakościowe | |
Miary zależności | Korelacja | Korelacja rang, | Wspólna |
symetryczne | Współczynnik Kendalla | Informacja | |
Miary zależności | Współczynnik | ||
niesymetryczne | Goodmana-Kruskala | ||
Miary odległości | Błąd średniokwadratowy | ||
symetryczne | |||
Miary odległości | , | ||
niesymetryczne |
W dalszej części skryptu będziemy oznaczać wielkimi literami, np. , zarówno zmienne losowe jak i ich realizacje. Rozróżnienie będzie wynikać z kontekstu.
Próbą będziemy nazywali realizacji zmiennej losowej: .
Średnią z próby będziemy oznaczać jako:
Dla zmiennych ilościowych możemy zdefiniować kwantyle:
Kwantyl rzędu , :
gdzie oznacza dystrybuantę. Kwantyle rzędu i nazywamy kwartylami, z czego kwantyl rzędu to mediana.
Estymatorami kwantyli dla próby są kwantyle próbkowe.
Kwantyle próbkowe rzędu dla próby n-elementowej, :
gdzie oznacza -ty element statystyki pozycyjnej: po uszeregowaniu niemalejąco wartości oznacza -tą wartość z -elementowego ciągu. Funkcja ceiling zwraca najmniejszą liczbę całkowitą mniejszą od danej, a funkcja floor największą liczbę całkowitą mniejszą.
Wariancja:
wersja populacyjna
wersja próbkowa
wersja próbkowa nieobciążona
Odchylenie standardowe:
wersja populacyjna
wersja próbkowa
wersja próbkowa niebciążona
MAD (Median of Absolute Deviation):
Dla rozkładu normalnego, MAD.
IQR (Interquartile Range)
Dla rozkładu normalnego IQR.
Korelacja pomiędzy zmiennymi i :
Dla próby -elemnentowej: korelacja próbkowa:
korelacja próbkowa nieobciążona:
Zmienne porządkowe to takie, dla których nie są ważne wartości, ale kolejność, w jakiej są ustawione. Z pojęciem zmiennej porządkowej ściśle wiąże się pojęcie rangi. Nadanie rang obserwacjom uniezależnia je od skali.
Rangi dla obserwacji w próbie :
Dla rangi są równe:
X | 2 | 3 | 2,5 | 2,5 | 1,5 |
---|---|---|---|---|---|
R | 2 | 5 | 3,5 | 3,5 | 1 |
Korelacja rang (Spearmana):
gdzie ,
Załóżmy, że mają rozkłady o ciągłych i ściśle rosnących dystrybuantach. Wtedy:
;
;
;
;
Jeżeli ma 2-wymiarowy rozkład normalny,
Współczynnik Kendala zależności między a :
Załóżmy, że to zmienne losowe niezależne i o takim samym rozkładzie co , niezależne o takim samym rozkładzie co . Niech:
Jeśli mają ciągłe dystrybuanty, to
Wersja próbkowa :
W programie R: cor(X, Y, method = c(”pearson”, ”kendall”, ”spearman”))
z domyślnie ustawioną opcją ”pearson”
.
W tej części omówione zostaną miary rozrzutu, zależności i bliskości oparte na gęstościach prawdopodobieństwa, wykorzystywane przede wszytkim do analizy cech jakościowych.
Entropia dla gęstości o nośniku :
Jeśli - zmienna losowa o gęstości , to .
Różnice i podobieństwa między H i Var:
Załóżmy, że . Wtedy
Zatem wariancja jest największa dla rozkładu dwupunktowego: . Entropia natomiast jest największa dla rozkładu jednostajnego.
Załóżmy teraz, że . Mamy:
Współczynnik Giniego dla gęstości :
Jeśli - zmienna losowa o gęstości , to .
V(p) jest liniowym (rozwinięcie Taylora dla logarytmu naturalnego: ) przybliżeniem H(p).
Dla prostoty ograniczymy się w dalszej części wykładu do rozkładów dyskretnych zadanych gęstościami i o wspólnym nośniku .
Odległość Kullbacka-Leiblera (względna entropia):
Własności Odległości Kullbacka-Leiblera (entropii względnej):
;
.
Skorzystajmy z nierówności: :
Stąd otrzymujemy Równość w ostatniej nierówności jest równoważna warunkowi dla wszystkich , otrzymujemy
∎Odległość między rozkładami dyskretnymi zadanymi gęstościami i o wspólnym nośniku :
(1.1) |
Odległość jest kwadratowym (rozwinięcie Taylora dla logarytmu: , gdzie za wstawiamy ) przybliżeniem : .
Niech będą zmiennymi o rozkładzie dyskretnym, niekoniecznie o tym samym nośniku . Ponadto zdefiniujmy:
;
;
;
;
warunkowy współczynnik Giniego ;
warunkową entropię .
Zauważmy, że:
Współczynnik Goodmana-Kruskala (mówi on o tym, jak zmienił się rozrzut po zaobserwowaniu cechy ):
Zakładamy, że rozkład jest niezdegenerowany, czyli że .
Własności Współczynnika Goodmana-Kruskala:
;
niezależne.
Oczywiście . Dla dowodu, że zauważmy, że Wystarczy pokazać, że . Z kolei wystarczy pokazać, że . Lewa, więc wynika z nierówności Jensena.
Dla dowodu zauważmy, że ,,=” w nierówności Jensena wyrazów jest równoważna niezależności .
∎Wspólna informacja zawarta w i :
Własności Wspólnej informacji:
;
niezależne.
Wynika z własności odległości Kullbacka-Leiblera (stwierdzenie 1.2), bo
∎Korzystając z przybliżenia rozwinięciem w szereg Taylora logarytmu: , otrzymujemy:
Ostatnie wyrażenie oraz statystyka dla testowania niezależności mają podobną interpretację, chociaż różnica w treści matematycznej jest zasadnicza. Być może o podobieństwie wyrażeń decydują własności błędu względnego: jeśli błąd względny oszacowania za pomocą jest nie większy od , to błąd względny oszacowania za pomocą jest nie większy niż . Przy małym wyrażenia te są porównywalne.
Wspólna informacja dla rozkładu dwuwymiarowego normalnego, gdzie , jest równa:
gdzie .
Jeżeli zamiast współczynnika Giniego we wzorze na współczynnik Goodmana-Kruskala użyjemy entropii, otrzymamy analogiczny współczynnik :
gdzie .
Zatem .
Zatem . Stąd .
∎Obliczanie spółczynnika Goodmana-Kruskala: http://www.mimuw.edu.pl/~pokar/StatystykaII/EKSPLORACJA/tauGK.R
Treść automatycznie generowana z plików źródłowych LaTeXa za pomocą oprogramowania wykorzystującego LaTeXML.
strona główna | webmaster | o portalu | pomoc
© Wydział Matematyki, Informatyki i Mechaniki UW, 2009-2010. Niniejsze materiały są udostępnione bezpłatnie na licencji Creative Commons Uznanie autorstwa-Użycie niekomercyjne-Bez utworów zależnych 3.0 Polska.
Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu Społecznego.
Projekt współfinansowany przez Ministerstwo Nauki i Szkolnictwa Wyższego i przez Uniwersytet Warszawski.