Chapitre 3
La methode APLAT
Ce chapitre traite de notre première m'ethode propos'ee
qui consiste a` lin'eariser la performance des g'enotypes pr'edite par le
modèle SarraH au voisinage d'un g'enotype de r'ef'erence. Une fois la
lin'earisation effectu'ee, l'estimation des paramètres, du fait du
nombre important de r'egresseurs dont nous disposions, s'est faite par
r'egression Partial least squares. Nous commencerons alors par
pr'esenter a` la section 1.1 cette technique de r'egression et terminerons ce
chapitre en pr'esentant a` la section 1.2, la m'ethode d'estimation APLAT.
3.1 La regression Partial least squares
La r'egression PLS, Partial least squares est
devenue aujourd'hui, une m'ethode très utilis'ee dans le cas des
r'egressions sur donn'ees corr'el'ees. Aussi, est-elle une bonne alternative
s'il y a plus de r'egresseurs que d'observations (Wold, Albano, Dunn, Esbensen,
Hellberg, Johansson, Sjöström 1983; Tenenhaus, 2001).
Un petit nombre de variables appel'ees »facteurs» ou
»variables latentes» sont construites l'une après l'autre de
façon it'erative et permettent de remplacer l'espace initial des
nombreux r'egresseurs par un espace de plus faible dimension. Ces facteurs
deviennent les nouvelles variables explicatives dans un modèle de
r'egression lin'eaire classique.
Les facteurs sont orthogonaux, et sont des combinaisons
lin'eaires des variables explicatives initiales. A ce titre, ils renvoient aux
composantes principales de la RCP, R'egression sur composantes principales.
Mais alors que ces dernières ne sont calcul'ees qu'àpartir des
variables explicatives (et donc sans r'ef'erence a` la variable a` expliquer),
les facteurs de la r'egression PLS maximisent les corr'elations successives
entre les r'egresseurs et la variable a`
expliquer, tout en maintenant la contrainte d'orthogonalit'e
avec ceux d'ejàconstruits.
La r'egression PLS s'effectue selon le principe de
l'algorithme NIPALS, Nonlinear estimation by iterative partial least
squares d'evelopp'e par Herman Swold (1966) pour l'analyse en
composantes principales. Cette r'egression s'inspire de l'approche PLS (Wold,
1975) pour l'estimation des modèles d''equation structurelles reliant
plusieurs blocs de variables entre eux.
A pr'esent, pour d'ecrire cette m'ethode, nous nous
plaçons dans le cadre du modèle lin'eaire classique. Le vecteur
des observations Y de dimension n × 1
est suppos'e suivre le modèle suivant
Y = Xâ + e (3.1)
o`u le vecteur â d'ordre p est le
paramètre inconnu a` estimer, X la matrice de dimension
n × p des variables explicatives, et le vecteur e
un terme d'erreur al'eatoire.
Nous supposerons qu'il n'y a pas de données manquantes
et qu'il n'y a qu'une seule variable a` expliquer pour une explication plus
claire de la méthode. L'algorithme PLS calcule les variables latentes
t1,··· ,th étape par
étape. Ces variables latentes th = Xwh sont des
combinaisons linéaires des X qui sont orthogonales
entre elles et qui maximisent Cov(th, Y) sous la contrainte
II wh 11= 1.
A l'étape 1, w1 = (w1 1
· · ·
wp1)' est solution
du problème d'optimisation
? ?
?
max Cov(Xw1, Y) k w1
11= 1
Pour déterminer w1, il suffit
d'écrire l'expression du Lagrangien.
L(w1,ë) =
Cov(Xw1,Y) - ë(w'
1w1 - 1)
= w1
1Cov(X1,Y) + ··· +
wp 1Cov(Xp,Y) -
ë[(w1 1)2 + ·
· · + (wp
1)2 - 1]
o`u ë est le multiplicateur de Lagrange
associéa` la contrainte.
Les solutions a` ce problème d'optimisation sont
obtenues en dérivant L(w1, ë) par
rapport a` w11,··· ,
wp 1, ë. Les p + 1
équations aux dérivées partielles ou
équations normales s'écrivent
? ???????
???????
|
Cov(X1,Y) -
2ëw1 1 = 0
...
Cov(Xp,Y) - 2ëw1 p =
0 (w11)2
+ ···(wp
1)2 = 1
|
o`u Xp est la
pecolonne de X
En remplacant dans la dernière équation
de ce système les composantes de w1 tirées dans
les p premières équations, nous obtenons
[Cov(X1,Y)/2ë]2
+ · · · + [Cov(Xp,Y)/2ë]2=
1
D'o`u
X p
j=1
[Cov(Xj,Y)]2 =
4ë2
Et
ë =
/P[Cov(Xj,Y)]2/2
En reportant cette valeur de ë dans chacune
des p premières équations nor-males, nous
avons
wj 1 =
Cov(Xj,Y)/V/P[Cov(Xj,Y)]2
Ainsi, la première composante t1
= w1 1X1 +
· · · + wp 1Xp
est construite. Puis, il est effectuéune régression
simple de Y sur t1
Y = c1t1 +
Y1
o`u c1 est le coefficient de régression
et Y1 le vecteur des résidus.
S'il reste encore de l'information, il est construit une
deuxième variable latente t2?t1. Cette
deuxième variable latente est combinaison linéaire des colonnes
de X1, résidu de la régression linéaire
de X sur t1.
A l'étape 2, w2 = (w1 2
· · · wp
2)' est solution du problème
d'optimisation
? ?
?
|
max Cov(X1w2,
Y1) II w2 11= 1
|
La deuxième variable latente t2
construite, il est effectuéune régression linéaire
multiple de Y sur t1 et
t2
Y = c1t1 +
c2t2 + Y2
Cette proc'edure it'erative peut ainsi continuer en utilisant les
r'esidus Y2, X2 des r'egressions de
Y, X sur t1 et
t2.
Le nombre de composantes
t1, · · · ,tH a`
retenir avec H rang(X), peut être d'etermin'e a` l'aide
de trois critères : l'ajustement de l''echantillon d'apprentissage
(X, Y) par
(bX,
bY), la pr'ediction sur un
'echantillon externe et la pr'ediction interne aux donn'ees d'apprentissage
appel'ee validation crois'ee.
3.2 La méthode APLAT : linéarisation
au-tour d'un témoin
Cette m'ethode a fait l'objet d'un article publi'e aux Comptes
rendus de l'acad'emie des sciences dont l'original se trouve en Annexe B.
|