3. Estimation des paramètres et validation du
modèle
Il y a en général beaucoup de paramètres
dans un modèle de simulation de cultures et peu d'environnements dans un
essai multienvironnement, ce qui rend souvent PI grand par rapport
à IJ. Pour notre exemple, nous avons utilisé SarraH
comme modèle de simulation de cultures. Ce modèle dispose de 61
paramètres, qui sont fonction du génotype. Avec un tel nombre de
prédicteurs, l'estimation de â s'est
faite par régression PLS, Partial Least Squares [7]. Il s'agit
donc pour nous d'écrire un modèle linéaire de
prédiction des rendements des génotypes pour de nouveaux
environnements par les sensibilités par rapport aux paramètres
des génotypes des sorties d'un modèle de simulation de cultures,
fondé sur la construction de composantes orthogonales dans l'image
de X. Ceci permet de réduire l'espace des
régresseurs de rang de X à k
dimensions. La régression PLS s'effectue selon le principe de
l'algorithme NI-PALS, Nonlinear estimation by Iterative Partial Least
Squares [7], où un ensemble de régressions partielles par
moindres carrés ordinaires est effectué, en même temps que
le calcul des composantes. Ici, la matrice de covariance de
E est égale à
ó2u? et
non à
ó2uIIJ .
La solution serait d'effectuer toutes les régressions partielles par
moindres carrés généralisés. Mais cette matrice de
covariance est inconnue. Elle s'écrit tout de même, à une
constante multiplicative près, en fonction de
?, qui elle est connue. La
matrice ? étant symétrique et
semi-définie positive, par décomposition de Cholesky, il existe
une matrice ç tel que
ç~ç
= ?-1.
Ainsi, estimer â par PLS avec
les régressions partielles par moindres carrés
généralisés consiste à poser le modèle
suivant :
çY -
ç(Y0 ?
1I) = çX
· â + çe
(6)
où âPLS est
l'estimation avec les régressions partielles effectuées par
moindres carrés ordinaires.
Dans ce cas, la variance de l'erreur
çc s'écrit :
E(ç~E~ç~)
=
çE(ce)ç'
=
ó2uç?ç'
=
ó2uç(ç'ç)-1ç~
2
=
óuçç
-1(çr)-1ç/
= ó2uIIJ
Le nombre de composantes à retenir est
déterminé par le PRESS, Prediction Error Sum of Squares
[7].
Nous avons calculé les intervalles de confiance des
coefficients estimés par la méthode bootstrap [8]. Cette
technique permet d'estimer la loi inconnue d'un estimateur par une loi
empirique obtenue à partir d'une procédure de
rééchantillonnage fondée sur des tirages aléatoires
avec remise des données. Les intervalles de confiance construits sont de
type percentile-t [9]. Soit
(p)*b
zi,PLS la variable aléatoire définie par
:
(p)*b zi,PLS =
(7)
â(p)~b
i,PLS -
â(p)
i,PLS
s*(
â(p)~b i,PLS)
où âi(,pPlS est le (p
· i)e élément de
âPLS,
âi(,PL p)*S obtenu
au be tirage avec b = 1, . . .
, B et s( â(p)~b
i,PLS) l'écart-type
estimé de
â~bPLS. Soit 'FB la fonction de
répartition empi-
rique des z(p)~b
i,PLS. Le fractile d'ordre á,
%1 (á) est estimé
par la valeur àt(á) telle que :
1 B
~B b=1
(p)*bà= á
{zi,PLS t(á)}
Donc un intervalle de confiance percentile-t pour le
(p.i)e élément de â
peut s'écrire :
[ â(p)
i,PLS - s~ â(p) ~
· àt(1 - á),
â(p)
i,PLS - s( â(p) )
· àt(á)]
i,PLS i,PLS
(8)
L'évaluation de la qualité du modèle
proposé est faite avec l'erreur quadratique moyenne de prédiction
MSEP, Mean Squared Error of Prediction [10]. La MSEP est
utilisée comme critère pour comparer différents
modèles dont le modèle moyen [11], défini pour nos
donnés par:
Yij = m + gi + Ej +
äij (9)
où m est la moyenne de la population et gi
l'effet génotype. L'effet Ej de l'environnement j
est supposé aléatoire, d'espérance nulle et de
variance ó2 E. Les erreurs
äij sont indépendantes, d'espérance
nulle et de variance ó2 ä . De plus, Ej
et äij sont supposés
indépendants.
Le logiciel R [12] a été utilisé la
fonction qui a servi pour les régression est de J.-F. Durand [13].
|