Chapitre 4
La méthode APLAT-mixte
Dans ce chapitre, nous partirons de la m'ethode APLAT, qui
nous le rappelons, consiste a` lin'eariser autour du vecteur de
paramètres d'un g'enotype de r'ef'erence, la r'eponse de g'enotypes
pr'edite par un modèle de simulation de cultures.
Notre hypothèse pour cette m'ethode, 'etait qu'un
modèle de simulation de cultures, qui est une fonction des
paramètres des g'enotypes et des caract'eristiques des environnements
o`u nous voulons faire la pr'ediction, permet de capter la majeure partie de
l'effet al'eatoire de l'environnement. Ce qui autorise la r'eduction des
interactions al'eatoires G×E, et par là, facilite
la s'election vari'etale.
Dans cette partie, nous revenons sur cette hypothèse
faite en première approximation et consid'erons que certes, si l'al'ea
de l'environnement peut être pris en compte par un modèle de
simulation de cultures, il ne l'est toutefois pas totalement. Ainsi, si nous
pensons toujours pouvoir mod'eliser les variations de la r'eponse d'un
g'enotype dans un environnement par le biais de tels modèles de
simulation, il subsistera n'eanmoins de l'al'ea environnemental,
responsable d''eventuelles interactions
G×E, dont il conviendra d'estimer sa variance, le cas
'ech'eant.
Ce chapitre traite alors de notre deuxième m'ethode
mise au point pour estimer les paramètres fixes issus de la
lin'earisation du rendement des g'enotypes par le modèle SarraH et les
composantes de variance de l'al'ea environnemental restant. Avec les nombreux
paramètres de SarraH, ce qui est le cas pour la plupart des
modèles de simulation de cultures, nous devons identifier un
modèle o`u un nombre important de r'egresseurs et des composantes de
variance coexistent. Nous avons a` cet effet, propos'e une m'ethode combin'ee
de r'egression PLS et de modèle mixte pour l'estimation des
paramètres inconnus. Il s'agit d'une extension de la m'ethode APLAT
propos'ee au pr'ec'edent chapitre o`u cette fois-ci, il est not'e la pr'esence
d'effets al'eatoires additionnels dont nous nous attacherons a` estimer les
variances. Cette m'ethode a 'et'e d'enomm'ee APLAT-Mixte.
Nous d'ebutons ce chapitre par la Section 4.1 o`u nous faisons
un retour sur le modèle mixte. Si les composantes de variance 'etaient
connues, c'est-àdire s'il y avait uniquement une contrainte a` savoir le
nombre important de r'egresseurs par rapport aux observations, une extension de
la m'ethode PLS devrait suffire pour r'esoudre le problème. Une telle
proc'edure est alors d'etaill'ee a` la Section 4.2. Comme ces composantes sont
est en fait souvent inconnues, une m'ethode combin'ee de PLS et d'algorithme EM
est pr'esent'ee a` la Section 4.3 pour estimer les paramètres inconnus.
Les d'eveloppements de cette m'ethode appel'ee PLS-Mixte, sont fond'es dans un
premier temps, sur un modèle mixte o`u des effets al'eatoires sont
suppos'es simplement de variance
ó2I. Pour l''eprouver, nous
nous sommes 'eloign'es de nos donn'ees qui ne s'y prêtent pas et avons eu
recours a` des donn'ees de NIRS. Ensuite, puisque nos donn'ees d'interaction
G×E peuvent être appr'ehend'ees a` travers un
modèle mixte o`u les effets al'eatoires sont suppos'es de variance
ó2Ä, nous avons
adapt'e la m'ethode PLS-Mixte a` ce type de modèle.
4.1 Le modèle mixte
Consid'erons un modèle lin'eaire mixte comme d'ecrit
par McCulloch et Searle (2001). Le vecteur des observations Y
de dimension n × 1 est suppos'e suivre le
modèle suivant :
Y = Xâ + Zu + e (4.1)
o`u â d'ordre p est le vecteur de
paramètres des effets fixes, u d'ordre q
le vecteur de paramètres des effets al'eatoires, X
et Z deux matrices d'incidence connues, et e
le vecteur d'erreur al'eatoire.
Dans ce modèle, si nous avons r effets
al'eatoires, Zu peut être d'ecompos'e comme suit :
Zu = [ Z1 · · ·
Zr ]
ur
o`u uk d'ordre qk, est le
vecteur des effets al'eatoires pour le facteur k avec les
suppositions i(uk) = 0, Var(uk) = ó2
kIqk ? k, et Cov(uk,u' k')
= 0 pour k =6 k',
q= Xr qk
k=1
Aussi i(e) = 0, Var(e) =
ó2 eIn et Cov(uk,
e') = 0 ? k. La fonction i(·)
indique l'esp'erance.
En posant u0 = e,
q0 = n et Z0 =
In comme dans la pr'esentation de Rao et Kleffe (1988),
l''equation (4.1) devient
Y = Xâ + Xr Zkuk
(4.2)
k=0
et V = Xr ZkZ'
ió2 k
k=0
L'estimation des paramètres â et
ó2 k peut se faire concomitamment au
moyen des méthodes de vraisemblance ML, Maximum likelihood
ou REML, Restricted or residual maximum likelihood.
Pour chacune de ces méthodes, une fonction log-vraisemblance est
maximisée par rapport aux paramètres inconnus. La fonction
log-vraisemblance pour la méthode ML (REML étant une variation de
ML) s'écrit,
l = (-1/2)[log |V| + (Y -
Xâ)'V-1(Y
- Xâ) + n log(2ð)]
En dérivant la fonction l par rapport a`
â et a` chacun des ó2 k et en
annulant ces dérivées, nous obtenons r + 1
équations pour ó2 k et
une équation pour â.
? ?
?
|
?l/?â =
2X'V-1Y -
2X'V-1Xâ
[ ]
?l/?ó2 k = -(1/2)
tr(V-1V' k) - (Y -
Xâ)'V-1V'
kV-1(Y - Xâ)
|
oiV' k = ?V/?ó2
k
Les solutions de ce système d'équations ne sont
généralement pas obtenues de façon explicite. Pour
résoudre ce problème d'optimisation, l'on a recours a` des
algorithmes itératifs tels que celui de Newton-Raphson ou l'algorithme
EM, Expectation maximization.
Ces deux méthodes d'itérations requièrent
des valeurs initiales pour les pa- ramètres inconnus. L'algorithme EM
permet de s'approcher de la région de
l'optimum plus rapidement mais la progression vers l'optimum
est lente. Au contraire, celui de Newton-Raphson, malgréqu'il soit
instable loin de l'optimum, permet une convergence vers celui-ci beaucoup plus
rapidement une fois dans sa région.
L'algorithme de Newton-Raphson utilise un développement
de premier ordre de la fonction score c'est-à-dire du gradient de la
fonction log-vraisemblance autour de l'estimation du paramètre a` la
me itération pour fournir l'estimation a` la
(m + 1)e itération. Chaque étape dans
l'algorithme nécessite le calcul de la fonction score et de sa
dérivée, la matrice hessienne de la logvraisemblance.
L'algorithme EM (Meng and van Dyk, 1997) permet l'estimation
de paramètres dans des modèles avec des données
incomplètes. L'argumentaire de l'utilisation de cet algorithme dans le
cadre du modèle mixte est fourni en détail par Searle, Cassella
et McCulloch (1992, pp. 297-303). Ainsi, les effets aléatoires sont-ils
vus comme des données non observées. Searle et al.
considèrent alors que si ces effets aléatoires étaient
connus, l'estimation des paramètres inconnus pourrait facilement se
faire. En effet, il suffirait d'adopter une démarche a` deux
étape.
D'abord, estimer la variance de chaque effet aléatoire
par
bó2 k = (1/qk) Xqk (uk
- uk)2 = (1/qk) Xqk u2
k = u' kuk/qk k=1 k=1
o`u uk d'ordre qk est
supposégaussien d'espérance nulle et de variance
ó2 k.
Ensuite, déduire ces effets aléatoires
supposés connus du vecteur des données Y et
appliquer une régression OLS, Ordinary least squares,
sur le modèle suivant
Y - Xr Zkuk ~ N(Xâ,
ó2 0In) k=1
Mais comme ces effets al'eatoires ne sont pas connus en
r'ealit'e, l'algorithme EM permet de calculer les valeurs conditionnelles
de u'iui a` utiliser a` la place
de u'iui et les valeurs
conditionnelles de ui a` la place de ui.
Selon la terminologie de l'algorithme EM, dans le cas du
mod`ele mixte, les donn'ees observ'ees Y sont appel'ees
donn'ees incompl`etes et Y en plus des effets al'eatoires non
observ'es u1, . . . , ur
constituent les donn'ees compl`etes. Nous rappelons ci-dessous cet algorithme
pour l'estimation des param`etres fond'ee sur une variation de ML publi'ee par
Laird (1982). Les valeurs calcul'ees ók
2(m) de óz sont
obtenues apr`es la me it'eration et sont utilis'ees
pour la mise a` jour de la variance
V-1(m).
'Etape 0 Poser m = 0 et choisir
des valeurs initiales 2(0)
ók
'Etape 1 ('Etape-E) Calculer
Q(ó2 |
ó2(m))
=Eó2(m)(u'kuk
| Y)
= qkók · ak
2(m) + 4(m)
[Y'P(m)ZkZ'kP(m)Y
-
tr(Z'kV-1(m)Zk)1
o`u P(m) =
V-1(m) -
V-1(m)X(X'V-1(m)X~-X'V-1(m)
'Etape 2 ('Etape-M) Determiner
ó2k(m+1) qui maximise
Q(ó2 |
ó2(m)) c'est-`a-dire,
tel que
Q(ó2(m+1) |
ó2(m))
Q(ó2 |
ó2(m)). Alors,
ók2(m+1)
= Eó2(m)(ukuk |
Y)/qk for k = 0, 1,···, r
'Etape 3 A la convergence c`ad
L(ó2k (m+1) | Y)
-L(ó2k (m)
|Y) ç o`u
ç est une quantit'e arbitrairement petite
et L la fonction de vraisemblance, prendre
bó2k =
ók2(m+1) et alors calculer
Xbâ =
X(X'V-1(m+1)X)-X'V-1(m+1)Y
sinon ajouter 1 a` m et
retourner a` l''Etape 1.
A l''Etape-E, calculer l'esp'erance de la
vraisemblance conditionnelle fond'ee sur
fY,u1,··· ,ur,la
fonction de densit'e des donn'ees compl`etes sachant les donn'ees incompl`etes
est 'equivalent a`
calculerEó2(m)(u'kuk
| Y).
|