Zagadnienia

2. Podstawowe metody prezentacji danych

\par
Rys. 2.1. Przykładowe boxplot, histogram i estymator jądrowy gęstości dla zmiennej crabs[,5] ze zbioru danych crabs (MASS).

2.1. Boxplot

Dla próby losowej X=X1,,Xn zajmiemy się reprezentacją graficzną danych. Zaczniemy od boxplotu.

  • Boxplot. Przykładowy boxplot znajduje się na rysunku 2.1. Do jego narysowania potrzebne są następujące elementy:

    1. kwartyle próbkowe φ14X,φ12X,φ34X ;

    2. rozstęp międzykwartylowy (wysokość pudełka) IQRX=φ34X-φ14X;

    3. wąs górny wasGX=φ34X+1,5IQRXmaxX, gdzie maxX oznacza element maksymalny z próby;

    4. wąs dolny wasDX=φ14X-1,5*IQR(X)minX, gdzie minX oznacza element minimalny z próby;

    5. obserwacje odstające, które nie mieszczą się w przedziale wasDX,wasGX i nanosimy je oddzielnie w postaci punktów.

\par
Rys. 2.2. Przykładowy boxplot.

2.2. Estymacja gęstości

Załóżmy, że próba X=X1,,Xn pochodzi z rozkładu o gęstości f i jest iid (niezależna o tym samym rozkładzie), będziemy szukać estymatora dla gęstości f.

  • Histogram. Przykładowy histogram znajduje się na rysunku 2.1. Wybieramy dowolne x0R. Dla ustalonego h>0, oznaczającego szerokość klasy, tworzymy odcinki:

    Im=x0+mh,x0+m+1h,m=,-2,-1,0,1,2,;
    Brak opisu
     wtedy xR!m , że xIm, oznaczmy Ix=Im jeśli xIm.

    Histogramem nazywamy funkcję xR:

    fnx=#i:xiIxnh=1ni=1n1h1(xiI(x)).
Uwaga 2.1

Podczas rysowania histogramu ważną kwestią jest dobór odpowiedniej szerokości przedziału, h. Istnieje wiele konwencji wyboru, niektóre z nich to:

hoptcn-13, gdzie
  1. Jeżeli f,fL2R, c=6fx2dx13.

  2. Jeśli f jest normalna, c=2313π16σ3,186σ.

  3. Inny wybór to c=2,64* IQR.

  • Estymator jądrowy gęstości. Przykładowy estymator jądrowy gęstości znajduje się na rysunku 2.1.

    f˘nx=1ni=1n1h¯Kx-Xih¯.

    Dla budowy tego estymatora ważny jest dobór dwóch parametrów: szerokości pasma h¯ oraz funkcji jądra K. Jądro jest gęstością dowolnego rozkładu, czyli jest dowolną funkcją określoną na R o własnościach K0, Kxdx=1. Jednym z wyborów może być jądro postaci:

    Ket=3451-15t2,t5;0,wpp.
Uwaga 2.2
  1. Jeśli fC2 oraz f′′2<, to w klasie symetrycznych jąder KL2R, asymptotycznie optymalne jest Ke. Ponadto:

    h¯optcn-15 , gdzie
    c=t2Ktdt-25K2tdt15f′′x2dx-15.
  2. Jeśli f jest gęstością rozkładu normalnego, to f′′x2dx=38π-12σ-50,212σ-5.

  3. Jeśli jądro K jest gęstością standardowego rozkładu normalnego oraz f jest rozkładem normalnym, to h¯norm=1,06σn-15.

  4. Jeśli jądro jest równe Ke oraz f jest rozkładem normalnym, to h¯e=1,05σn-15

  5. Domyślnie w programie R nastawiona jest metoda Silvermana wyboru parametru h¯: h¯=0,9minσ2,IQR1,34n-15.

2.3. Przykłady w programie R

Estymator jądrowy gęstości:

Treść automatycznie generowana z plików źródłowych LaTeXa za pomocą oprogramowania wykorzystującego LaTeXML.

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu Społecznego.

Projekt współfinansowany przez Ministerstwo Nauki i Szkolnictwa Wyższego i przez Uniwersytet Warszawski.