WOW !! MUCH LOVE ! SO WORLD PEACE !
Fond bitcoin pour l'amélioration du site: 1memzGeKS7CB3ECNkzSn2qHwxU6NZoJ8o
  Dogecoin (tips/pourboires): DCLoo9Dd4qECqpMLurdgGnaoqbftj16Nvp


Home | Publier un mémoire | Une page au hasard

 > 

Prédiction de l'interaction génotype à— environnement par linéarisation et régression PLS-mixte

( Télécharger le fichier original )
par Ibnou DIENG
Universite Montpellier II - Doctorat 2007
  

précédent sommaire suivant

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy

Chapitre 4

La méthode APLAT-mixte

Dans ce chapitre, nous partirons de la m'ethode APLAT, qui nous le rappelons, consiste a` lin'eariser autour du vecteur de paramètres d'un g'enotype de r'ef'erence, la r'eponse de g'enotypes pr'edite par un modèle de simulation de cultures.

Notre hypothèse pour cette m'ethode, 'etait qu'un modèle de simulation de cultures, qui est une fonction des paramètres des g'enotypes et des caract'eristiques des environnements o`u nous voulons faire la pr'ediction, permet de capter la majeure partie de l'effet al'eatoire de l'environnement. Ce qui autorise la r'eduction des interactions al'eatoires G×E, et par là, facilite la s'election vari'etale.

Dans cette partie, nous revenons sur cette hypothèse faite en première approximation et consid'erons que certes, si l'al'ea de l'environnement peut être pris en compte par un modèle de simulation de cultures, il ne l'est toutefois pas totalement. Ainsi, si nous pensons toujours pouvoir mod'eliser les variations de la r'eponse d'un g'enotype dans un environnement par le biais de tels modèles de simulation, il subsistera n'eanmoins de l'al'ea environnemental,

responsable d''eventuelles interactions G×E, dont il conviendra d'estimer sa variance, le cas 'ech'eant.

Ce chapitre traite alors de notre deuxième m'ethode mise au point pour estimer les paramètres fixes issus de la lin'earisation du rendement des g'enotypes par le modèle SarraH et les composantes de variance de l'al'ea environnemental restant. Avec les nombreux paramètres de SarraH, ce qui est le cas pour la plupart des modèles de simulation de cultures, nous devons identifier un modèle o`u un nombre important de r'egresseurs et des composantes de variance coexistent. Nous avons a` cet effet, propos'e une m'ethode combin'ee de r'egression PLS et de modèle mixte pour l'estimation des paramètres inconnus. Il s'agit d'une extension de la m'ethode APLAT propos'ee au pr'ec'edent chapitre o`u cette fois-ci, il est not'e la pr'esence d'effets al'eatoires additionnels dont nous nous attacherons a` estimer les variances. Cette m'ethode a 'et'e d'enomm'ee APLAT-Mixte.

Nous d'ebutons ce chapitre par la Section 4.1 o`u nous faisons un retour sur le modèle mixte. Si les composantes de variance 'etaient connues, c'est-àdire s'il y avait uniquement une contrainte a` savoir le nombre important de r'egresseurs par rapport aux observations, une extension de la m'ethode PLS devrait suffire pour r'esoudre le problème. Une telle proc'edure est alors d'etaill'ee a` la Section 4.2. Comme ces composantes sont est en fait souvent inconnues, une m'ethode combin'ee de PLS et d'algorithme EM est pr'esent'ee a` la Section 4.3 pour estimer les paramètres inconnus. Les d'eveloppements de cette m'ethode appel'ee PLS-Mixte, sont fond'es dans un premier temps, sur un modèle mixte o`u des effets al'eatoires sont suppos'es simplement de variance ó2I. Pour l''eprouver, nous nous sommes 'eloign'es de nos donn'ees qui ne s'y prêtent pas et avons eu recours a` des donn'ees de NIRS. Ensuite, puisque nos donn'ees d'interaction G×E peuvent être appr'ehend'ees a` travers un modèle mixte o`u les effets al'eatoires sont suppos'es de variance ó2Ä, nous avons adapt'e la m'ethode PLS-Mixte a` ce type de modèle.

4.1 Le modèle mixte

Consid'erons un modèle lin'eaire mixte comme d'ecrit par McCulloch et Searle (2001). Le vecteur des observations Y de dimension n × 1 est suppos'e suivre le modèle suivant :

Y = Xâ + Zu + e (4.1)

o`u â d'ordre p est le vecteur de paramètres des effets fixes, u d'ordre q le vecteur de paramètres des effets al'eatoires, X et Z deux matrices d'incidence connues, et e le vecteur d'erreur al'eatoire.

Dans ce modèle, si nous avons r effets al'eatoires, Zu peut être d'ecompos'e comme suit :

u1
...

=

Xr
k
=1

Zkuk

Zu = [ Z1 · · · Zr ]

ur

o`u uk d'ordre qk, est le vecteur des effets al'eatoires pour le facteur k avec les suppositions i(uk) = 0, Var(uk) = ó2 kIqk ? k, et Cov(uk,u' k') = 0 pour k =6 k',

q= Xr qk

k=1

Aussi i(e) = 0, Var(e) = ó2 eIn et Cov(uk, e') = 0 ? k. La fonction i(·) indique l'esp'erance.

En posant u0 = e, q0 = n et Z0 = In comme dans la pr'esentation de Rao et Kleffe (1988), l''equation (4.1) devient

Y = Xâ + Xr Zkuk (4.2)

k=0

et V = Xr ZkZ'2 k

k=0

L'estimation des paramètres â et ó2 k peut se faire concomitamment au moyen des méthodes de vraisemblance ML, Maximum likelihood ou REML, Restricted or residual maximum likelihood. Pour chacune de ces méthodes, une fonction log-vraisemblance est maximisée par rapport aux paramètres inconnus. La fonction log-vraisemblance pour la méthode ML (REML étant une variation de ML) s'écrit,

l = (-1/2)[log |V| + (Y - Xâ)'V-1(Y - Xâ) + n log(2ð)]

En dérivant la fonction l par rapport a` â et a` chacun des ó2 k et en annulant ces dérivées, nous obtenons r + 1 équations pour ó2 k et une équation pour â.

? ?

?

?l/?â = 2X'V-1Y - 2X'V-1Xâ

[ ]

?l/?ó2 k = -(1/2) tr(V-1V' k) - (Y - Xâ)'V-1V' kV-1(Y - Xâ)

oiV' k = ?V/?ó2 k

Les solutions de ce système d'équations ne sont généralement pas obtenues de façon explicite. Pour résoudre ce problème d'optimisation, l'on a recours a` des algorithmes itératifs tels que celui de Newton-Raphson ou l'algorithme EM, Expectation maximization.

Ces deux méthodes d'itérations requièrent des valeurs initiales pour les pa-
ramètres inconnus. L'algorithme EM permet de s'approcher de la région de

l'optimum plus rapidement mais la progression vers l'optimum est lente. Au contraire, celui de Newton-Raphson, malgréqu'il soit instable loin de l'optimum, permet une convergence vers celui-ci beaucoup plus rapidement une fois dans sa région.

L'algorithme de Newton-Raphson utilise un développement de premier ordre de la fonction score c'est-à-dire du gradient de la fonction log-vraisemblance autour de l'estimation du paramètre a` la me itération pour fournir l'estimation a` la (m + 1)e itération. Chaque étape dans l'algorithme nécessite le calcul de la fonction score et de sa dérivée, la matrice hessienne de la logvraisemblance.

L'algorithme EM (Meng and van Dyk, 1997) permet l'estimation de paramètres dans des modèles avec des données incomplètes. L'argumentaire de l'utilisation de cet algorithme dans le cadre du modèle mixte est fourni en détail par Searle, Cassella et McCulloch (1992, pp. 297-303). Ainsi, les effets aléatoires sont-ils vus comme des données non observées. Searle et al. considèrent alors que si ces effets aléatoires étaient connus, l'estimation des paramètres inconnus pourrait facilement se faire. En effet, il suffirait d'adopter une démarche a` deux étape.

D'abord, estimer la variance de chaque effet aléatoire par

2 k = (1/qk) Xqk (uk - uk)2 = (1/qk) Xqk u2 k = u' kuk/qk k=1 k=1

o`u uk d'ordre qk est supposégaussien d'espérance nulle et de variance ó2 k.

Ensuite, déduire ces effets aléatoires supposés connus du vecteur des données Y et appliquer une régression OLS, Ordinary least squares, sur le modèle suivant

Y - Xr Zkuk ~ N(Xâ, ó2 0In) k=1

Mais comme ces effets al'eatoires ne sont pas connus en r'ealit'e, l'algorithme EM permet de calculer les valeurs conditionnelles de u'iui a` utiliser a` la place de u'iui et les valeurs conditionnelles de ui a` la place de ui.

Selon la terminologie de l'algorithme EM, dans le cas du mod`ele mixte, les donn'ees observ'ees Y sont appel'ees donn'ees incompl`etes et Y en plus des effets al'eatoires non observ'es u1, . . . , ur constituent les donn'ees compl`etes. Nous rappelons ci-dessous cet algorithme pour l'estimation des param`etres fond'ee sur une variation de ML publi'ee par Laird (1982). Les valeurs calcul'ees ók 2(m) de óz sont obtenues apr`es la me it'eration et sont utilis'ees pour la mise a` jour de la variance V-1(m).

'Etape 0 Poser m = 0 et choisir des valeurs initiales 2(0)

ók

'Etape 1 ('Etape-E) Calculer

Q(ó2 | ó2(m)) =Eó2(m)(u'kuk | Y)

= qkók
· ak

2(m) + 4(m) [Y'P(m)ZkZ'kP(m)Y - tr(Z'kV-1(m)Zk)1 o`u P(m) = V-1(m) - V-1(m)X(X'V-1(m)X~-X'V-1(m)

'Etape 2 ('Etape-M) Determiner ó2k(m+1) qui maximise Q(ó2 | ó2(m)) c'est-`a-dire,

tel que Q(ó2(m+1) | ó2(m)) Q(ó2 | ó2(m)). Alors,

ók2(m+1) = Eó2(m)(ukuk | Y)/qk for k = 0, 1,···, r

'Etape 3 A la convergence c`ad L(ó2k (m+1) | Y) -L(ó2k (m) |Y) ç o`u

ç est une quantit'e arbitrairement petite et L la fonction de vraisemblance, prendre2k = ók2(m+1) et alors calculer

Xbâ = X(X'V-1(m+1)X)-X'V-1(m+1)Y

sinon ajouter 1 a` m et retourner a` l''Etape 1.

A l''Etape-E, calculer l'esp'erance de la vraisemblance conditionnelle fond'ee sur fY,u1,··· ,ur,la fonction de densit'e des donn'ees compl`etes sachant les donn'ees incompl`etes est 'equivalent a` calculerEó2(m)(u'kuk | Y).

précédent sommaire suivant






Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy








"Le don sans la technique n'est qu'une maladie"