Zagadnienia

2. Podstawowe metody prezentacji danych

\par
Rys. 2.1. Przykładowe boxplot, histogram i estymator jądrowy gęstości dla zmiennej crabs[,5] ze zbioru danych crabs (MASS).

2.1. Boxplot

Dla próby losowej X=(X_{1},\ldots,X_{n}) zajmiemy się reprezentacją graficzną danych. Zaczniemy od boxplotu.

  • Boxplot. Przykładowy boxplot znajduje się na rysunku 2.1. Do jego narysowania potrzebne są następujące elementy:

    1. kwartyle próbkowe \hat{\varphi}_{{\frac{1}{4}}}(X),\hat{\varphi}_{{\frac{1}{2}}}(X),\hat{\varphi}_{{\frac{3}{4}}}(X) ;

    2. rozstęp międzykwartylowy (wysokość pudełka) \text{IQR}(X)=\hat{\varphi}_{{\frac{3}{4}}}(X)-\hat{\varphi}_{{\frac{1}{4}}}(X);

    3. wąs górny \text{wasG}(X)=(\hat{\varphi}_{{\frac{3}{4}}}(X)+1,5*\text{IQR}(X))\wedge\max(X), gdzie \max(X) oznacza element maksymalny z próby;

    4. wąs dolny \text{wasD}(X)=(\hat{\varphi}_{{\frac{1}{4}}}(X)-1,5*\text{IQR(X)})\vee\min(X), gdzie \min(X) oznacza element minimalny z próby;

    5. obserwacje odstające, które nie mieszczą się w przedziale [\text{wasD}(X),\text{wasG}(X)] i nanosimy je oddzielnie w postaci punktów.

\par
Rys. 2.2. Przykładowy boxplot.

2.2. Estymacja gęstości

Załóżmy, że próba X=X_{1},\ldots,X_{n} pochodzi z rozkładu o gęstości f i jest iid (niezależna o tym samym rozkładzie), będziemy szukać estymatora dla gęstości f.

  • Histogram. Przykładowy histogram znajduje się na rysunku 2.1. Wybieramy dowolne x_{0}\in\mathbb{R}. Dla ustalonego h>0, oznaczającego szerokość klasy, tworzymy odcinki:

    I_{m}=[x_{0}+mh,x_{0}+(m+1)h),\quad m=\ldots,-2,-1,0,1,2,\ldots;
    Brak opisu
    \text{ wtedy }\forall x\in\mathbb{R}\quad\exists!\  m\text{ , że }x\in I_{m},\text{ oznaczmy }I(x)=I_{m}\text{ jeśli }x\in I_{m}.

    Histogramem nazywamy funkcję x\in\mathbb{R}:

    \hat{f}_{n}(x)=\frac{\#\{ i:x_{i}\in I(x)\}}{nh}=\frac{1}{n}\sum _{{i=1}}^{n}\frac{1}{h}\mathbf{1}_{{\left(x_{i}\in I(x)\right)}}.
Uwaga 2.1

Podczas rysowania histogramu ważną kwestią jest dobór odpowiedniej szerokości przedziału, h. Istnieje wiele konwencji wyboru, niektóre z nich to:

h_{{opt}}\approx cn^{{-\frac{1}{3}}}\text{, gdzie}
  1. Jeżeli f,f^{{\prime}}\in L^{2}(\mathbb{R}), c=\left(\frac{6}{\int[f^{{\prime}}(x)]^{2}dx}\right)^{{\frac{1}{3}}}.

  2. Jeśli f jest normalna, c=2\cdot 3^{{\frac{1}{3}}}\pi^{{\frac{1}{6}}}\sigma\approx 3,186\sigma.

  3. Inny wybór to c=2,64*\text{ IQR}.

  • Estymator jądrowy gęstości. Przykładowy estymator jądrowy gęstości znajduje się na rysunku 2.1.

    \breve{f}_{n}(x)=\frac{1}{n}\sum _{{i=1}}^{n}\frac{1}{\bar{h}}K\left(\frac{x-X_{i}}{\bar{h}}\right).

    Dla budowy tego estymatora ważny jest dobór dwóch parametrów: szerokości pasma \bar{h} oraz funkcji jądra K. Jądro jest gęstością dowolnego rozkładu, czyli jest dowolną funkcją określoną na \mathbb{R} o własnościach K\geq 0, \int K(x)dx=1. Jednym z wyborów może być jądro postaci:

    K_{e}(t)=\left\{\begin{array}[]{ll}\frac{3}{4\sqrt{5}}(1-\frac{1}{5}t^{2}),&\hbox{$|t|\leq\sqrt{5}$;}\\
0,&\hbox{wpp.}\end{array}\right.
Uwaga 2.2
  1. Jeśli f\in C^{2} oraz \int(f^{{\prime\prime}})^{2}<\infty, to w klasie symetrycznych jąder K\in L^{2}(\mathbb{R}), asymptotycznie optymalne jest K_{e}. Ponadto:

    \bar{h}_{{opt}}\approx c\cdot n^{{-\frac{1}{5}}}\text{ , gdzie}
    c=\left[\int t^{2}K(t)dt\right]^{{-\frac{2}{5}}}\left[\int K^{2}(t)dt\right]^{{\frac{1}{5}}}\left[\int(f^{{\prime\prime}}(x))^{2}dx\right]^{{-\frac{1}{5}}}.
  2. Jeśli f jest gęstością rozkładu normalnego, to \int(f^{{\prime\prime}}(x))^{2}dx=\frac{3}{8}\pi^{{-\frac{1}{2}}}\sigma^{{-5}}\approx 0,212\sigma^{{-5}}.

  3. Jeśli jądro K jest gęstością standardowego rozkładu normalnego oraz f jest rozkładem normalnym, to \bar{h}_{{norm}}=1,06\sigma n^{{-\frac{1}{5}}}.

  4. Jeśli jądro jest równe K_{e} oraz f jest rozkładem normalnym, to \bar{h}_{e}=1,05\sigma n^{{-\frac{1}{5}}}

  5. Domyślnie w programie R nastawiona jest metoda Silvermana wyboru parametru \bar{h}: \bar{h}=0,9\min(\hat{\sigma}^{2},\frac{\text{IQR}}{1,34})n^{{-\frac{1}{5}}}.

2.3. Przykłady w programie R

Estymator jądrowy gęstości:

Treść automatycznie generowana z plików źródłowych LaTeXa za pomocą oprogramowania wykorzystującego LaTeXML.

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu Społecznego.

Projekt współfinansowany przez Ministerstwo Nauki i Szkolnictwa Wyższego i przez Uniwersytet Warszawski.