Zagadnienia

5. Hodowla zwierząt

Aby ocenić wartość hodowlaną n zwierząt na podstawie mn pomiarów wartości pewnej cechy, stosuje się pewien model liniowy, prowadzący do następującego zagadnienia, opisanego w [29, rozdział 5]:

XTXXTZZTXZTZ+kA-1ba=XTyZTy (5.1)

Szukane wartości hodowlane zwierząt oznaczone są jako wektor aRn (zatem i-te zwierzę ma wartość ai). Niewiadomymi pomocniczymi są parametry wpływu płciowości bR2.

Pozostałe parametry występujące w (5.1) — A, X, Z, y, k — są zadane jako parametry modelu. Jak to często się zdarza w przypadku obliczeń naukowych, będziemy dysponować jedynie częściową informacją o danych modelu, a naszym zadaniem będzie po prostu wskazanie sensownej metody numerycznego rozwiązywania układu równań liniowych (5.1). Co zatem na początek wiemy o parametrach modelu? Nasz ,,zleceniodawca” z pewnością zwróci nam uwagę na to, że macierze X oraz Z są macierzami zerojedynkowymi. Macierz X rozmiaru m×2 określa płeć badanego zwierzęcia, a macierz Z, rozmiaru m×n, odpowiada za ,,wkład” danego zwierzęcia do badanej cechy hodowlanej.

Wreszcie, o macierzy A rozmiaru n×n — tzw. macierzy addytywnych pokrewieństw — wiadomo, że ma elementy nieujemne, jest symetryczna i dodatnio określona.

W praktyce [19, Table 1] spotyka się zadania dla n z zakresu od 101 do 106. Macierz addytywnych pokrewieństw A w niektórych modelach może być pominięta (co odpowiada wartości parametru skalującego k=0), a w ogólności ze względu na swoją naturę powinna ona być dosyć rozrzedzona (hodowcy dążą do tego, by ograniczyć pokrewieństwa pomiędzy osobnikami).

Poniżej zacytujemy konkretne zadanie modelowe opisane w [29].

Przykład 5.1 (Przykład 62 z [29])

W oparciu o metodę BLUP wykonać ocenę wartości hodowlanej zwierząt dla cechy masa cieląt przy odsadzeniu w oparciu o następujące informacje:

Cielę Płeć Ojciec Matka Waga przy odsadzeniu (kg)
4 buhajek 1 - 4,5
5 cieliczka 3 2 2,9
6 cieliczka 1 2 3,9
7 buhajek 4 5 3,5
8 buhajek 3 6 5,0

Zebrane informacje fenotypowe prowadzą do zadania (5.1), w którym

X=111115×2,Z=111115×8,y=4.52.93.93.55.0,

parametr k=2, a symetryczna macierz addytywnych pokrewieństw jest zadana przez

A=11/21/21/41/411/21/21/41/411/21/41/211/41/21/8sym11/41/23/811/41/211/418×8.

5.1. Dyskusja problemu

Zadanie wydaje się łatwe do rozwiązania: dane są macierze i parametry, wskazany jest układ n+2 równań do rozwiązania (5.1) — więc wystarczy zbudować jego macierz i go rozwiązać. Gdy zadanie nie jest zbyt wielkiego rozmiaru (n rzędu tysiąca?) — możemy je rozwiązać wprost w Octave. Rzeczywiście, [29, rozdział 10] podaje gotowy skrypt:

G = [X'*X, X'*Z ; Z'*X, Z'*Z + k*inv(A)];
r = [X'*y; Z'*y];
s = inv(G)*r;
b = s(1:2); a = s(3:end);

Przedyskutujmy wady i zalety powyższego rozwiązania. Tym, co od razu kłuje na w oczy, jest używanie funkcji inv do wyznaczania macierzy odwrotnej do G i do A. O ile macierz odwrotna do A występuje w samym sformułowaniu zadania, o tyle wyznaczenie rozwiązania układu równań

Gs=r

metodą s = inv(G)*r powinno zjeżyć nam włos na głowie. Oczywiście, choć matematycznie jest to poprawne, w realizacji numerycznej nie powinniśmy wyznaczać wprost macierzy odwrotnej! Znacznie lepiej dokonać rozkładu LDL macierzy G (wszak jest symetryczna!) i następnie rozwiązać dwa układy równań z macierzami trójkątnymi i jedną diagonalną. Ten algorytm realizuje w Octave operator ,,dzielenia” macierzowego:

s = G\r;

Zapatrzeni w odwracanie macierzy, możemy przeoczyć inną niepokojącą cechę układu (5.1): jeśli bowiem k=0, to macierz naszego układu przyjmuje postać:

XTXXTZZTXZTZ.

To jest przecież nic innego, jak macierz równań normalnych dla zadania najmniejszych kwadratów

y-XZba2min!

— a zadanie najmniejszych kwadratów, jak wiemy, bezpieczniej rozwiązywać metodami innymi niż poprzez układ równań normalnych: na przykład, opartymi na rozkładzie QR macierzy XZ. Najpierw jednak musimy zadać sobie pytanie, czy również oryginalny układ (5.1) odpowiada jakiemuś zadaniu najmniejszych kwadratów? Możemy domyślać się, że tak (wiedząc o tym, jaki jest jego rodowód). I rzeczywiście, przecież dla dowolnej macierzy symetrycznej S,

XZ0STXZ0S=XTXXTZZTXZTZ+S2.

Biorąc więc S=k1/2A-1/2 (istnieje, bo A jest symetryczna i dodatnio określona) dostajemy, że (5.1) jest układem równań normalnych dla zadania najmniejszych kwadratów:

y0-XZ0Sba2min! (5.2)

Problem z ostatnim sformułowaniem problemu polega na tym, że aby go postawić, musimy wyznaczyć A-1/2, czyli — w rzeczywistości — rozwiązać pełne zagadnienie własne dla macierzy A (znaleźć wszystkie wektory i wartości własne).

Jednak po chwili namysłu możemy zobaczyć, że S nie musi być symetryczna, wystarczy tylko, żeby STS=kA-1. Biorąc więc (łatwo obliczalny) rozkład Cholesky'ego–Banachiewicza macierzy A,

A=LLT,

dostajemy S=k1/2L-1. Ponieważ L jest macierzą dolną trójkątną, macierz L-1 można wyznaczyć przyzwoitym kosztem.

Ostatecznie więc, zamiast zadania (5.1) należy rozwiązać równoważne zadanie najmniejszych kwadratów,

y0-XZ0kL-1ba2min! (5.3)

Jeśli obecność macierzy odwrotnej w powyższym sformułowaniu wciąż nas niepokoi, możemy drążyć dalej. Rozpisując, dostajemy inną postać minimalizowanego wyrażenia (5.3),

y-Xb-Za22+kL-1a22min!

Oznaczając g=L-1a, mamy równoważnie

y-Xb-ZLg22+kg22min!

— a tu już nie występuje macierz odwrotna do L! Ostatecznie, dostajemy następujące sformułowanie zadania wyjściowego (por. [15, zadanie 11.3.4]:

  1. Wyznacz rozkład Cholesky'ego A=LLT.

  2. Wyznacz rozwiązanie b,gR2×Rn zadania najmniejszych kwadratów

    y0-Bbg2min! (5.4)

    gdzie B jest prostokątną macierzą rozmiaru m+n×2+n postaci

    B=XZL0k1/2I.
  3. Oblicz a=Lg.

5.2. Implementacja

Dzięki odpowiedniemu potraktowaniu problemu, całkowicie uniknęliśmy wyznaczania macierzy odwrotnych oraz niepotrzebnego przekształcania zadania najmniejszych kwadratów do postaci normalnej.

Rozkład Cholesky'ego macierzy A wyznaczymy korzystając z funkcji Octave U = chol(A). Jednak musimy pamiętać, że wynikiem działania chol(A) jest macierz trójkątna górna taka, że UTU=A, czyli innymi słowy, U=LT. Dlatego musimy odpowiednio dostosować macierz zadania (5.4):

B = [X Z*U'; zeros(n,2), sqrt(k)*eye(size(U))];

Dalej, wystarczy rozwiązać zadanie najmniejszych kwadratów z macierzą B:

f = [y; zeros(n,1)];
q = B \ f;
b = q(1:2); a = U'*q(3:end);

Przypomnijmy, że w Octave zadanie najmniejszych kwadratów rozwiązuje się, korzystając z tego samego operatora ,,dzielenia”, \, który służy do rozwiązywania układów równań.

Jednak nasze zadanie jest bardzo szczególnej postaci blokowej: blok 2,2 macierzy B jest macierzą diagonalną, co może nam pozwolić osiągnąć dalszą redukcję kosztów obliczeń [15, rozdział 11.3]. Ponadto, można od razu tak ponumerować równania, by macierz Z była postaci

Z=0I,

co spowoduje, że iloczyn ZL będzie wyznaczalny zerowym kosztem obliczeniowym.

5.3. Wykorzystanie specyfiki zadania

Dotychczas atakowaliśmy postawione zadanie przy minimalnej wiedzy o jego naturze. Staraliśmy się przyjąć neutralny punkt widzenia numeryka, pozwalający nam dostrzec w zadaniu pewne typowe cechy samego zadania obliczeniowego. Jednak tym, co naprawdę jest piękne w obliczeniach naukowych jest to, że zadania — choć na swój sposób typowe — mają swoje niuanse, które powodują, że czasem warto zmienić swój punkt widzenia i dopasować używane metody do tego, co więcej wiemy o charakterze zadania!

Jak dotąd, braliśmy pod uwagę jedynie fakt, że macierz A jest z góry zadana, dosyć rzadka, symetryczna i dodatnio określona. Nie chcieliśmy wyznaczać A-1 wiedząc, jak niezręcznie jest numerycznie korzystać z takiej macierzy.

Przypomnijmy powody:

  • Wyznaczenie macierzy odwrotnej A-1 jest procesem bardziej kosztownym niż wyznaczenie współczynników jej rozkładu (np. Cholesky'ego, A=LLT, lub, unikając kosztownych pierwiastków, A=LDLT)

  • Aby dla danego y wyznaczyć A-1y wystarczy rozwiązać dwa układy równań z macierzą L, każdy kosztem co najwyżej On2 działań (i ewentualnie D, kosztem liniowym). Tak wyznaczone rozwiązanie numeryczne jest rozwiązaniem pewnego zadania sąsiedniego, o ile tylko użylismy dobrego algorytmu wyznaczania rozkładu macierzy.

  • Nawet jeśli A jest macierzą rzadką, to A-1 zazwyczaj jest macierzą gęstą.

Tymczasem okazuje się, że spotykane w praktyce modele (5.1) korzystają z macierzy A, która jest tak zwaną macierzą addytywnych pokrewieństw. Mając zadaną taką macierz, możemy wyznaczyć macierz do niej odwrotną, ale na pierwszy rzut oka nie widać w niej jakiejś wyrazistej regularności:

A = [0 0 0 1/2 0 1/2 1/4 1/4;
 0 0 0 0 1/2 1/2 1/4 1/4;
 0 0 0 0 1/2 0   1/4 1/2;
 0 0 0 0 0   1/4 1/2 1/8;
 0 0 0 0 0   1/4 1/2 3/8;
 0 0 0 0 0   0   1/4 1/2;
 0 0 0 0 0   0   0   1/4;
 0 0 0 0 0   0   0   0;];
n = size(A,1);
A = A + A' + eye(n);
inv(A)

Jednak, jeśli sprawdzić w fachowej literaturze (np. w [19]) definicję macierzy A to okaże się, że jej elementy wyznacza się z prostego rekurencyjnego wzoru, który bazuje na znanym z danych hodowlanych rodowodzie każdego zwierzęcia. Spojrzenie na wzór określający A w terminach operacji macierzowych, może słabszych psychicznie zwalić z nóg:

A=I-P-1DI-P-T,

gdzie P jest pewną macierzą o co najwyżej dwóch niezerowych elementach w wierszu! Co więcej, macierz P bardzo łatwo wyznaczyć z danych rodowodowych, natomiast D jest zadaną macierzą diagonalną [19]. Stąd oczywiście dostajemy natychmiast bardzo łatwo wyliczalną macierz odwrotną,

A-1=I-PTD-1I-P.

Widzimy więc, że macierz A-1 nie dość, że jest banalna do wyznaczenia, to od razu jest dana w postaci rozkładu kA-1=STS, w którym co prawda S=k1/2D-1/2I-P nie musi być trójkątna górna, ale za to na pewno jest bardzo rozrzedzona (ma tylko około 2n niezerowych elementów.

To odkrycie zmienia nasz punkt widzenia! Jeśli bowiem mamy do dyspozycji rozrzedzoną macierz P i diagonalę d macierzy D, konstrukcja macierzy zadania najmniejszych kwadratów (5.2) upraszcza się do utworzenia bloku S, co możemy zaimplementować w Octave na przykład w poniższy sposób:

B = [X Z; zeros(n,2), spdiag(sqrt(k*d))*(speye(n)-P)];

5.4. Przypadek dużego n

Niektóre badania mogą dotyczyć n=106 zwierząt (m, czyli zbiór danych pomiarowych) jest wtedy zwykle dużo mniejsze), więc każdy sposób na to, by obniżyć koszt pamięciowy i obliczeniowy wyznaczenia rozwiązania jest wart uwagi.

Macierze rzadkie

Przede wszystkim, należy wykorzystać fakt, że macierze X,Z,A-1 są w praktyce macierzami mocno rozrzedzonymi.

Jeśli więc utworzymy X,Z,P jako macierze rzadkie (poleceniem sparse), to macierz B też będzie rzadka. W przypadku, gdy operator \ zostanie przyłożony do prostokątnej macierzy rzadkiej, spowoduje wywołanie specjalizowanej funkcji bibliotecznej z pakietu CXSPARSE, wykonującej rzadki rozkład QR.

Zmniejszenie rozmiaru zadania przez powrót do układu równań normalnych

Równań normalnych nie musimy się obawiać, gdy uwarunkowanie macierzy BTB jest nieduże. W niektórych przypadkach tak rzeczywiście będzie nawet dla bardzo dużych n. Należy jednak pamiętać, że jeśli mn, to zastąpienie macierzy prostokątnej B rozmiaru m+n×2+n macierzą kwadratową BTB rozmiaru 2+n×2+n nie musi dawać znaczących zysków, zwłaszcza, że BTB będzie mniej rozrzedzona niż B.

Użycie metody iteracyjnej

Gdy n jest na tyle duże, że układ równań normalnych BTB stanowiłby poważne wyzwanie dla metody bezpośredniej, można byłoby wówczas skorzystać z metody iteracyjnej rozwiązywania układu BTB — na przykład, moglibyśmy tu zastosować metodę PCG, jednak wyłącznie wówczas, gdy wyjściowe zadanie jest bardzo dobrze uwarunkowane.

Stosując metodę iteracyjną, można przy okazji uniknąć składania całej wielkiej macierzy A-1: wystarczy, zgodnie z powyższym przepisem, przyłożyć macierz do wektora, co możemy zapisać stosunkowo prostą funkcją.

Alternatywą dla rozwiązania układu równań normalnych metodą PCG możne być rozwiązanie (nieco lepiej uwarunkowanego) zadania z (pozornie!) wielką macierzą kwadratową M rozmiaru 2n+m+2, o bardzo specjalnej, prostej strukturze:

MpqαIBBTpq=y0,

gdzie α>0 jest zadanym parametrem dobranym do zadania.

Rzeczywiście, p,q jest rozwiązaniem powyższego równania wtedy i tylko wtedy, gdy q jest rozwiązaniem zadania najmniejszych kwadratów Bq-y2=min, a p=y-Bq/α jest przeskalowanym wektorem residuum.

Ponieważ macierz M jest symetryczna, ale nie jest dodatnio określona, należy zastosować do niej metodę PCR, dostępną m.in. w Octave. Prostoduszna implementacja

M = [alpha*speye(size(B,1)), B; B', spalloc(size(B,2),size(B,2))];
[X,info,relres] = pcr(M,[y;zeros(size(B,2),1)]);
info
q = X(size(B,1)+1:end);
może efektywnością ustąpić miejsca bardziej wyrafinowanej, korzystającej z operatorowej definicji M:
Mmult = @(x) [alpha*x(1:size(B,1)) + B*x(size(B,1)+1:end); B'*x(1:size(B,1))];
[X,info,relres] = pcr(Mmult,[y;zeros(size(B,2),1)]);
info
q = X(size(B,1)+1:end);
Koszt mnożenia wektora przez M możemy jeszcze bardziej zredukować, korzystając z wiedzy o strukturze B: jest ona macierzą blokową trójkątną górną, a i bloki mają specyficzną strukturę, upraszczającą mnożenie przez wektor.

Obniżenie kosztu mnożenia przez A-1

Możemy też próbować mnożenie przez A-1 uczynić tańszym, zwłaszcza, gdy implementujemy nasz program w języku C lub podobnym. Z pomocą przychodzi tu doświadczenie… programowania metody elementu skończonego (technika stosowana w numerycznych obliczeniach inżynierskich!). Ponieważ w wierszu P odpowiadającym i-temu zwierzęciu znajdują się co najwyżej dwie niezerowe wartości:

pi,si=pi,di=1/2,di=1/2,

gdy ojcem i jest zwierzę o numerze si, a matką — zwierzę o numerze di, a w przypadku, gdy znane jest tylko jedno z rodziców, ri, tylko jeden element jest niezerowy,

pi,ri=1/2,di=3/4,

a gdy żadne z rodziców zwierzęcia i nie jest znane, cały i-ty wiersz P jest zerowy, natomiast di=1.

Stąd wynika, że A-1=iAi-1, gdzie Ai-1 jest wkładem i-tego zwierzęcia. Na przykład, gdy znani są oboje rodzice zwierzęcia,

Ai-1=1-1/2-1/2di-11-1/2-1/2,

przy czym elementy tej macierzy należy rozrzucić na trójkę i,si,di współrzędnych A-1.

Ćwiczenie 5.1

Niech będzie dana tabela R, rozmiaru n×2, określająca bezpośrednie relacje pomiędzy zwierzętami:

ri,1=si, gdy ojcem i-tego zwierzęcia był osobnik o numerze si,0.

Podobnie określamy ri,2, identyfikator matki zwierzęcia i. Niech A rozmiaru n×n będzie macierzą addytywnych pokrewieństw pomiędzy zwierzętami wyznaczoną przez R. Napisz możliwie szybko działającą procedurę, obliczającą A-1y na zadanym wektorze y przy minimalnym zapotrzebowaniu na pamięć roboczą.

Jeśli chcesz zbliżyć się do realnych warunków pracy, przyjmij założenie, że dane z tablicy R są zapisane w arkuszu kalkulacyjnym Excela (lub w jakimś bardziej egzotycznym formacie): konwersja formatów danych to jeden z pomijanych, a bardzo uciążliwych programistycznie, aspektów obliczeń naukowych.

Ćwiczenie 5.2

W bardzo licznych zastosowaniach statystycznych należy wskazać zestaw tych wartości własnych (i, przy okazji, wektorów własnych) macierzy kowariancji XTX, które są powyżej zadanego progu η2. To zadanie nazywa się analizą głównych składowych (principal component analysis, PCA), a celem może być zmniejszenie rozmiaru zbioru danych statystycznych poprzez eliminację mało istotnych parametrów.

W sformułowaniu matematycznym, mając zadaną macierz XRn×m — przy czym nm — musimy wyznaczyć rozkład spektralny macierzy (symetrycznej i nieujemnie określonej) XTX:

XTX=VΛVT,

gdzie Λ jest macierzą diagonalną, zawierającą wartości własne, a V jest macierzą ortogonalną, VTV=I, złożoną z wektorów własnych macierzy XTX, a następnie zwrócić te wektory własne vi, które spełniają warunek λiη2.

Napisz funkcję, która wykona to zadanie.

Rozwiązanie: 

Funkcja Octave, realizująca nasze zadanie mogłaby mieć postać:

function [V, L] = pca1(X, eta)
[V, L] = eig(X'*X);
[L, I] = sort(diag(L), 'descend'); V = V(:,I);
I = find(L>eta);
V = V(:,I); L = L(I);
end

Dodatkowo, nasza funkcja sortuje wektory i wartości własne w kolejności od największej, do najmniejszej.

Jednak ma ona tę wadę, że formując macierz XTX tracimy informację zawartą w X: macierz XTX jest wymiaru tylko m×m. Dlatego bezpieczniej skorzystać z rozkładu SVD13Więcej o rozkładzie według wartości szczególnych (SVD) dowiesz się z wykładu z Matematyki Obliczeniowej II. macierzy X:

X=UΣVT

i faktu, że XTX=VΣ2VT. Ponieważ funkcja svd zwraca macierze U,Σ,V, lepsza numerycznie wersja naszej funkcji miałaby następującą postać:

function [V, L] = pca(X, eta)
[U L V] = svd(X,0); % economy-version
[L, I]  = sort(diag(L).^2, 'descend'); V = V(:,I);
I = find(L>eta);
V = V(:,I); L = L(I);
end

Treść automatycznie generowana z plików źródłowych LaTeXa za pomocą oprogramowania wykorzystującego LaTeXML.

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu Społecznego.

Projekt współfinansowany przez Ministerstwo Nauki i Szkolnictwa Wyższego i przez Uniwersytet Warszawski.