Zagadnienia

4. Skalowanie wielowymiarowe

Skalowanie wielowymiarowe pozwala na redukcję wymiaru cech. Dla macierzy danych:

X=X1TX2TXnTn×p

będziemy chcieli zrzutować ,,optymalnie” dane na Rk, czyli zmniejszyć macierz X do Z o wymiarch n×k, k<p.

Optymalność zdefiniujemy w kategoriach macierzy odległości lub podobieństwa dla n obiektów. Zadaniem będzie znalezienie optymalnej reprezentacji obiektów w Rk.

Definicja 4.1

Macierz odległości to taka macierz, która spełnia własności:

D=diji,j=1n,dij0,dij=dji,dii=0.

Macierz podobieństwa jest macierzą konstruowaną w sposób przeciwstawny do macierzy odległości o własnościach:

C=ciji,j=1n,cij=cji,ciicij i,j.

4.1. Metody skalowania danych

Dla macierzy danych X o wymiarach n×p, zdefiniujmy D jako macierz odległości euklidesowych pomiędzy obiektami:

dij2=Xi-Xj2.
  1. Classical multidimensional scaling:

    Z^1,,Z^n=minZ1,,ZnRk ijdij2-Zi-Zj2;
  2. Sammon scaling:

    Z^1,,Z^n=minZ1,,ZnRk 1kldklijdij-Zi-Zj2dij=
    =minZ1,,ZnRk ijdij-Zi-Zjdij2dijkldkl;
  3. Kruskal-Shepard scaling:

    Z^1,,Z^n=minZ1,,ZnRk ijdij-Zi-Zj2.

4.2. Własności

Niech L oznacza macierz ortogonalną p×p, L=L1,L2, L1 o wymiarze p×k. Oznaczmy Z^=XL1, czyli rzut X na Rk. Zdefiniujmy macierz odległości dla Z^ jako D^=d^rs. Zauważmy, że:

drs2=Xr-Xs2=LTXr-Xs2,

ponieważ mnożenie wektora przez macierz ortogonalną nie zmienia jego normy. Mamy więc:

drs2=j=1pXrj-Xsj2=j=1pljTXr-Xs2j=1kljTXr-Xs2=d^rs2.
Stwierdzenie 4.1

Rzut X na k pierwszych składowych głównych minimalizuje wyrażenie rsdrs2-d^rs2 wśród wszystkich rzutów XL1. Jest więc rozwiązaniem zadania classical multidimensional scaling.

Przyjrzyjmy się następującej macierzy:

r,s=1nXr-XsXr-XsT=

dla X¯=1ni=1nXi,

=2nr=1n(Xr-X¯)(Xr-X¯)T-2r=1n(Xr-X¯)s=1nXs-X¯T=0pT=
=2n (r=1nXr1-X¯.12r=1nXr1-X¯.1Xrp-X¯.pr=1nXrp-X¯.pXr1-X¯.1r=1nXrp-X¯.p2)+0=
=2nnS,

gdzie S jest macierzą kowariancji próbkowej (estymator obciążony).

Wróćmy do minimalizacji wyrażenia:

r,s=1ndrs2-d^rs2=r,s=1ndrs2p współczynników-r,s=1nd^rs2k współczynników=
=r,s=1nj=k+1pljTXr-Xs2zostaje p-k współczynników.

Ponieważ r,s=1ndrs2 jest stałą, zadanie minimalizacji wyrażenia r,s=1ndrs2-d^rs2 jest równoważne zadaniu maksymalizacji r,s=1nd^rs2. Maksymalizujemy po ortogonalnym układzie wektorów l1,,lk wyrażenie:

r,s=1nj=1kljTXr-XsXr-XsTlj=
=j=1kljT[r,s=1n(Xr-Xs)(Xr-Xs)T]lj=
=2n2j=1kljTSlj=

korzystając z rozkładu spektralnego S,

=2n2j=1kljT(i=1pλiviviT)lj=
=2n2j=1ki=1pλiviTlj2.

Dalszy dowód przebiega analogicznie do dowodu stwierdzenia 3.6. Można zauważyć związek pomiędzy własnościami składowych głównych dla podejścia populacyjnego i próbkowego.

4.3. Przykłady w programie R

Skalowanie wielowymiarowe:

Treść automatycznie generowana z plików źródłowych LaTeXa za pomocą oprogramowania wykorzystującego LaTeXML.

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu Społecznego.

Projekt współfinansowany przez Ministerstwo Nauki i Szkolnictwa Wyższego i przez Uniwersytet Warszawski.