4.2 La r'egression PLS sur un modèle de variance
connue
La régression PLS est une méthode d'estimation
particulière utilisée pour les modèles linéaires
avec l'éventualitén < p. Pour ce type
d'analyse, l'objectif est de prédire Y par des
combinaisons linéaires des colonnes de X
appelées variables latentes. Il est habituellement mis en
oeuvre a` l'aide de l'algorithme NIPALS, Nonlinear estimation by
iterative partial least squares (Wold 1966; de Jong 1993) o`u le
calcul des variables latentes est effectuésimultanément avec un
ensemble de régressions par OLS. Cependant, ces régressions sont
adéquates seulement dans le cas des erreurs sur Y
iid.
L'algorithme PLS appliquéa` un modèle de
variance connue est effectuéen remplaçant les régressions
OLS sur les variables latentes par des régressions GLS, General
least squares, dont voici la description.
1. Centrer et éventuellement réduire X
et Y : x0 = X,
y0 = Y
2. Pour h = 1,··· ,H avec
1 H rang(X)
(a) Calculer les p-vecteurs wh =
[w1 h · · · wp
h]' V/X
o`u wp h = Cov(xp h, yh)/
Cov2(xp h, yh) et
xp h la pe colonne de
xh
p
(b) Normer wh : wh = wh/ wh
II
(c) Calculer les variables latentes PLS th =
xh-1wh
(d) Calculer ch par régression GLS de
yh-1 sur th
yh-1 = thch + yh o`u
Var(yh-1) = V ch =(t'
hV-1th)-t'
hV-1yh-1
(e) Calculer ph par régression de
xh-1 sur th
)-1t'
xh-1 = thp'
h + xh d'o`u p'
h =(t' hth hxh-1
(f) Calculer les résidus xh et yh
(g) Alors Y = t1c1 +
· · · + thch + yh
Ainsi, le seul changement par rapport a` l'algorithme PLS
classique est le remplacement de la régression OLS par la
régression GLS au point 2.(d).
4.3 La méthode PLS-Mixte
Les méthodes de vraisemblances, ML ou REML, comme
techniques pour estimer les paramètres fixes et les composantes de
variance dans un modèle linéaire mixte, ne sont applicables que
dans le cas classique o`u le nombre de régresseurs est faible devant le
nombre d'observations, c'est-à-dire n > p. Dans ce
cas, comme nous l'avons vu, un algorithme itératif tel que l'algorithme
EM est nécessaire pour obtenir l'estimation des paramètres
inconnus.
Pour traiter du cas n < p, nous proposons
d'imbriquer une méthode de réduction de dimension telle que la
régression PLS dans l'algorithme EM. Puisqu'il s'agira d'estimer des
composantes de variance dans un contexte de réduction de dimension, nous
avons appelécette technique PLS-Mixte.
Avant cette méthode proposée, dans les
modèles o`u il y avait plus de régresseurs que d'observations et
plusieurs sources de variation, l'estimation des paramètres inconnus se
faisait simplement par régression PLS, c'est-à-dire sans
tenir compte précisément des sources de variation.
Aussi, avons-nous comparél'estimation faite par simple
régression PLS a` celle faite par notre méthode en
utilisant le critère MSEP, Mean square error of
prediction, dans les différentes applications de ce chapitre.
La question de la convergence sera abordée plus loin.
|