WOW !! MUCH LOVE ! SO WORLD PEACE !
Fond bitcoin pour l'amélioration du site: 1memzGeKS7CB3ECNkzSn2qHwxU6NZoJ8o
  Dogecoin (tips/pourboires): DCLoo9Dd4qECqpMLurdgGnaoqbftj16Nvp


Home | Publier un mémoire | Une page au hasard

 > 

Prédiction de l'interaction génotype à— environnement par linéarisation et régression PLS-mixte

( Télécharger le fichier original )
par Ibnou DIENG
Universite Montpellier II - Doctorat 2007
  

précédent sommaire suivant

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy

I.

Le symbole ? designe le produit de Kronecker.

Le vecteur o est un vecteur d'erreur aleatoire. Sa matrice de covariance est de la forme ó2uÙ avec

 
 

?
? ? ? ? ? ? ? ? ?

ù1

..

.

 
 

0

1

 

Ù=

 
 
 

ùj

 
 

o`u

 

0

 
 
 

...

ùJ

(

ùj =

2 1

...

1 2

?
? ? ?

Les matrices Ù et ùj sont carrees de nombre de lignes, respectivement le nombre d'observations de tous les environnements et le nombre d'observations de l'environnement j. La matrice Ù est bloc diagonale tandis que ùj est une matrice form'ee de 1 partout sauf des 2 sur la diagonale. Dans le cas o`u tous les genotypes ont etevus une seule fois dans chaque environnement, Ù est de dimension IJ × IJ et ùj de dimension I × I.

Ensuite,

X = [ X(1) ? II · · · X(p) ? II · · · X(P) ? II

o`u

X(p)' = [ X1p) ... XSp) ]

de longueur J, est le vecteur des derivees des sorties de notre modele de simulation de cultures, SarraH, dans chacun des environnements par rapport au pe parametre du vecteur de parametres du temoin.

La matrice II est la matrice identited'ordre I, la matrice X(p) 0II s'ecrit alors de cette facon :

X(p)

1
...

X(p)
( J )

0

(

1

.

0

0

..

1

)

=

X(p)

1

?

0

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?

X(p)

J

0

...

...

0

?

X(p)

1

...

0

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?

X(p)

J

C'est une matrice a` IJ lignes et I colonnes. Par consequent, la matrice X est de dimension IJ x PI.

Enfin

â = [ â(1)' ...â(P)' 1'

avec

â(p)' = [ â1.p) ... â(p) ]

Nous avons proposed'appeler cette methode par l'acronyme APLAT : Ap-
proximation Par Linearisation Autour d'un Temoin. Elle consiste a` appro-
cher, localement, le rendement predit par un modele de simulation de cultures,

par s'erie de Taylor a` l'ordre 1 au voisinage du vecteur de paramètres d'un g'enotype de r'ef'erence. Cette lin'earisation permet, par r'egression lin'eaire, l'estimation des paramètres de ces g'enotypes. Par la suite, la pr'ediction de l''ecart entre le rendement de ces g'enotypes et celui du g'enotype de r'ef'erence dans des environnements nouveaux, c'est a` dire o`u ils ne sont pas encore test'es, pourra se faire si le climat de ces derniers est connu.

Il y a en g'en'eral beaucoup de paramètres dans un modèle de simulation de cultures et peu d'environnements dans un essai multienvironnement, ce qui rend souvent PI grand par rapport a` IJ.

Pour notre exemple, nous avons utilis'e SarraH comme modèle de simulation de cultures. Ce modèle dispose de 61 paramètres fonction du g'enotype. Avec un tel nombre de pr'edicteurs, l'estimation de â s'est faite par r'egression PLS. Ceci permet de r'eduire l'espace des r'egresseurs de rang de X a` k dimensions.

La r'egression PLS, voir section 3.1, s'effectue selon le principe de l'algorithme NIPALS, Nonlinear estimation by Iterative Partial Least Squares, (Tenenhaus, 2001) o`u un ensemble de r'egressions successives par moindres carr'es ordinaires est effectu'e, en même temps que le calcul des composantes.

Ici, la matrice de covariance de o est 'egale a` ó2 uÙ et non a` ó2 uIIJ. La solution serait d'effectuer toutes les r'egressions partielles par moindres carr'es g'en'eralis'es. Mais cette matrice de covariance est inconnue. Elle s''ecrit tout de même a` une constante multiplicative près en fonction de Ù qui elle est connue. La matrice Ù 'etant sym'etrique et semi-d'efinie positive, par d'ecomposition de Cholesky, il existe une matrice ç tel que ç'ç = Ù-1.

Si nous multiplions a` gauche tous les termes du modèle 3.5 par ç, nous obtenons le modèle 3.6 dont les erreurs sont ind'ependantes.

çY - ç(Y0 ? 1I) = çX · â + ço (3.6)

En effet, la variance de l'erreur ço s''ecrit

uçç-1(ç')-1ç' = ó2

E(çoo'ç') = çI(oo')ç' = ó2 uçÙç' = ó2 uç(ç'ç)-1ç' = ó2 uIIJ

â peut alors être estim'e a` l'aide des moindres carr'es ordinaires, appelons âPLS son estimateur.

Le nombre de composantes a` retenir est d'etermin'e par le PRESS, Prediction Error Sum of Squares (Tenenhaus, 2001).

3.2.2 Illustration avec les données de l'essai pluriannuel

Les données

Les donn'ees sont les r'esultats de l'essai pluriannuel (tableau 1.1, page 13). Rappelons que le g'enotype de r'ef'erence est le 55-437, un g'enotype de 90 jours. C'est une vari'et'e largement cultiv'ee au S'en'egal, dans le bassin arachidier, a` ce titre elle a 'et'e pr'esente comme t'emoin dans tous les essais et c'est elle aussi qui a servi pour le param'etrage du modèle SarraH.

Dans ce milieu a` forte variabilit'e des pluies dans l'espace et même dans le temps pour un même lieu, nous avons consid'er'e chacune des 5 ann'ees d'exp'erimentation comme un environnement (figure 3.1).

SarraH a 'et'e utilis'e pour calculer X. Compte tenu du nombre de donn'ees disponibles, seuls deux paramètres (P = 2) ont 'et'e consid'er'es parmi les 61 de SarraH. Le premier paramètre est en fait un coefficient multiplicateur qui agit sur 5 paramètres de SarraH : Coefficient moyen d'angle des feuilles, Coefficient de conversion en assimilat, Coefficient d'efficience d'assimilation des feuilles a` la phase v'eg'etative juv'enile, Coefficient d'efficience d'assimilation

FIG. 3.1 - R'epartition des pluies sur la station de Bambey au S'en'egal de 1994 a` 1998.

MIT

0 50 100 150 200 250

1994 1995 1996 1997 1998

Juin Juillet Août Septembre Octobre

des feuilles a` la première phase de maturation - phase sensible de remplissage des grains - et Coefficient d'efficience d'assimilation des feuilles a` la deuxième phase de maturation - phase non sensible -. Le deuxième paramètre est le poids moyen des gousses.

Validation croisée

Pour valider notre modèle, nous avons r'eserv'e successivement chacune des ann'ees et estim'e les paramètres des g'enotypes sur les ann'ees restantes. Pour chacune des cinq ann'ees, nous avons identifi'e un modèle par la m'ethode APLAT et les rendements observ'es ont 'et'e compar'es a` ceux ainsi pr'edits. Les rendements sont exprim'es en kilogrammes de gousses par hectare.

L''evaluation de la qualit'e de chaque modèle propos'e est faite avec l'erreur
quadratique moyenne de pr'ediction MSEP, Mean Squared Error of Prediction

(Wallach et Goffinet, 1987). La MSEP est utilis'ee comme critère pour comparer diff'erents modèles dont le mod`ele moyen (Colson, Wallach, Bouniols, Denis et Jones, 1995) d'efini pour nos donn'ees par :

Yij = m + gi + Ej + äij (3.7)

o`u m est la moyenne de la population et gi l'effet g'enotype. L'effet Ej de l'environnement j est suppos'e al'eatoire, d'esp'erance nulle et de variance ó2E. Les erreurs äij sont ind'ependantes, d'esp'erance nulle et de variance ó2ä. De plus, Ej et äij sont suppos'es ind'ependants.

Le modèle moyen n'est rien d'autre que le modèle lin'eaire mixte (2.1) o`u l'interaction al'eatoire G×E, impr'evissible, est fusionn'ee avec le terme d'erreur qui porte les màemes indices i pour le g'enotype et j pour l'environnement.

Nous avons calcul'e les intervalles de confiance des coefficients estim'es par la m'ethode bootstrap (Efron, 1979). Cette technique permet d'estimer la loi inconnue d'un estimateur par une loi empirique obtenue a` partir d'une proc'edure de r'e'echantillonnage fond'ee sur des tirages al'eatoires avec remise des donn'ees. Les intervalles de confiance construits sont de type percentile-t (Aji, Tavolaro, Lantz, et Faraj, 2003).

Soit z(p)?b

i,PLS la variable al'eatoire d'efinie par :

(p)?b
zi,PLS =

(3.8)

ei?LbS)

â(p)?b i,PLS- 7A,S

s?(

o`u â(p)i,PLS est le (p.i)e 'el'ement de eâPLS, il s'agit du pe paramètre de la ie vari'et'e
estim'e par la m'ethode PLS. gL?bS est obtenu au be tirage avec b = 1,
·
·
·
, B.

de la matrice de variance de

â(p)?b i,PLS.

Soit bFB la fonction de répartition empirique des z(pP )?b Le fractile d'ordre á,

i LS'

1
B

XB
b=1

FB (á) est estimépar la valeur bt(á) telle que

1n = á

z(p)?b

Alors un intervalle de confiance percentile-t pour le (p.i)e élément de 13 peut s'écrire :

hs(â(p)i,PLS) t(1 - á) , /R1,3P)LS - s(â(p)i,PLS) · Rá) ] (3.9)

R'esultats

Pour les modeles sans les données respectivement de 1994, 1995 et 1997, le PRESS minimal est atteint avec 6 composantes. Pour les deux autres modeles, le PRESS est minimal avec 9 composantes, mais nous avons réduit leur espace a` 5 dimensions car le PRESS n'y est pas trop différent de ses valeurs minimales (figure 3.2).

Les coefficients des régressions PLS et les intervalles de confiance qui leur sont associés, sont représent'es a` la figure 3.3.

Les MSEP estimées pour les modeles APLAT, sauf celle sans les données de l'année 1998, sont inférieures aux MSEP des modeles moyens correspondants (tableau 4.2). Ce qui signifie que pour ces modeles, prédire le rendement par la méthode APLAT est meilleur que par la moyenne des rendements du passé. Ainsi, 4 fois sur 5, la méthode APLAT s'est révélée meilleure que le modele moyen. Toutefois, cette étude souffre de la faible taille de notre échantillon.

Evolution du PRESS en fonction du nombre de composantes. Le FIG. 3.2 - modèle (-1994) utilise les données sauf celles de l'année 1994 et ainsi de suite.

PRESS

0.0 0.5 1.0 1.5 2.0 2.5

PRESS

Modèle (-1994) : Dim. opt. 6, PRESS=0.051

5 10 15 20

Dim. Mod.

Modèle (-1996) : Dim. opt. 9, PRESS=0.037

5 10 15 20

Dim. Mod.

Modèle (-1995) : Dim. opt. 6, PRESS=0.061

5 10 15 20

Dim. Mod.

Modèle (-1997) : Dim. opt. 6, PRESS=0.034

5 10 15 20

Dim. Mod.

Modèle (-1998) : Dim. opt. 9, PRESS=0.046

5 10 15 20

PRESS

0.0 0.5 1.0 1.5

PRESS

0.0 0.5 1.0 1.5

PRESS

Dim. Mod.

Intervalle de confiance percentile-t a` 95% des coefficients es-
timés. Le modèle (-1994) est sans les données de 1994 et ainsi

FIG. 3.3 - de suite. Sur l'axe des abscisses, les valeurs de chaque paramètre sont rangées par ordre alphabétique de génotype. Le symbole représente l'estimation ponctuelle des coefficients.

0.5 1.0 1.5 2.0 2.5

3

Paramètre 1 Paramètre 2

Modèle (-1994)

Paramètre 1 Paramètre 2

010 20 30

Modèle (-1996)

Paramètre 1 Paramètre 2

Modèle (-1995)

0 10 20 30

Modèle (-1997)

Paramètre 1 Paramètre

0 10 20 30 50 0 10 20 30

-0.5 0.0 0.5 1.0 1.5 2.0

Modèle (-1998)

Paramètre 1 Paramètre 2

50

40

30

0 10 20

 

APLAT

Modèle moyen

Modèle (-1994)

24

687,3

64

651,6

Modèle (-1995)

5

915,0

7

160,6

Modèle (-1996)

35

446,1

37

814,8

Modèle (-1997)

10

038,3

18

201,1

Modèle (-1998)

118

304,9

84

963,6

MSEP des différents modèles APLAT et modèles moyens corres-

TAB. 3.1 - pondants de l'essai pluriannuel. Le modèle (-1994) est sans les données de 1994 et ainsi de suite.

précédent sommaire suivant






Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy








"Il y a des temps ou l'on doit dispenser son mépris qu'avec économie à cause du grand nombre de nécessiteux"   Chateaubriand