3.3 Analyse de la variabilité des
paramètres
Après avoir obtenu les différentes combinaisons
pour les valeurs des paramètres, il était nécessaire de
faire une analyse graphique et statistique des relations entre ces
paramètres. L'objectif est éventuellement de pouvoir
réduire le nombre de paramètres à ajuster, si certains
paramètres sont très fortement corrélés. Pour faire
cette analyse, nous avons fait 50 estimations selon l'ajustement
parallèle (section précédente) sur chacun
de nos 8 génotypes, ce qui a donné 50 valeurs par
paramètre sur tous les génotypes. Chaque estimation a
été trouvée après avoir appelé NSGA-II sur
toujours la même Table3.1 par génotype. Sur la Table3.3, les
paramètres sont les colonnes et les estimations (compromis) sont les
lignes. Deux méthodes d'analyses ont été utilisées
à savoir, la fonction "pairs" et la méthode ACP (analyse
composant principale), elle seront traitées dans les sous sections
suivantes.
3.3.1 L
|
'analyse avec la fonction pairs
|
pairs est une fonction graphique sous R de
haut niveau qui utilise un ensemble de fonctions et paramètres par
défaut pour faire des graphes de corrélations de variables 2
à 2. Elle peut être appelée par génotype sur la
Table3.3 (voir les Figure3.14 et
Figure3.15) et pour l'ensemble des génotypes (voir la
sous-figure "l'ensemble des génotypes" en bas sur la
Figure3.15).
Sur ces graphiques, le nom des paramètres sont
indiqués sur la diagonale, les coefficients de corrélations
au-dessus de la diagonale. Trois couples de paramètres sont
corrélés entre eux 2 à 2,
(tstar et tau_a),
(tstar et nu_m) et
(Y _param et
pi_f0). Ces deux derniers couples sont les
plus fortement corrélés aussi bien au niveau de l'analyse par
génotype que dans l'analyse globale. Les valeurs des paramètres
nu_m et pi_f0 seront fixés dans ce qui
suit et seuls les paramètres tstar et Y_param
peuvent être ajustés parmi ces deux couples.
3.3.2 L
|
'analyse avec ACP
|
La méthode ACP (analyse en composantes principales),
consiste à transformer des variables liées entre elles (dites
"corrélées" en statistique) en nouvelles variables
décorrélées les unes des autres. Ces nouvelles variables
sont nommées "composantes principales", ou axes principaux. Elle permet
au praticien de réduire le nombre de variables et de rendre
l'information moins redondante [wikipedia]. Elle peut être appelée
par génotype sur la Table3.3 (voir la
Figure3.16) ou pour l'ensemble des génotypes (voir la
sous-figure "l'ensemble des génotypes" en bas sur la
Figure3.16).
Sur les sous figures, ACP sélectionne les deux axes qui
explique en pourcentage le plus de variance. Dans les cercles si deux
paramètres forment :
> Un angle inférieur à 90°,
ils sont en corrélation positive. Plus l'angle est fermé (l'angle
converge vers 0°) plus la corrélation positive est
forte,
> Un angle supérieur à 90°,
ils sont en corrélation négative. Plus l'angle est ouvert
(l'angle converge vers 180°), plus la corrélation
négative est forte,
47
> Un angle proche de 90?, ils
ne sont pas corrélés,
La partie à gauche des sous figures représente
la distribution des estimations sur les axes choisis. On trouve encore les
mêmes couples (tstar et n_m), en très
fortement corrélation négative et (Y _param et
pi_f0), très fortement corrélés
positivement, aussi bien sur l'analyse par génotype et que pour
l'ensemble des génotypes. Donc les résultats de cette
méthode confirment bien ceux de la fonction pairs. La question
maintenant, est de savoir à quelles valeurs fixer les paramètres
n_m et pi_f0?
A partir des 400 valeurs trouvées (50 valeurs pour
chacun des huit génotypes) pour les paramètres n_m
et pi_f0, on dessine les histogrammes associés
(la Figure3.17). Chaque histogramme présente la
distribution des valeurs prises par le paramètre désigné
et la médiane "median" associée se trouve dans
l'intervalle le plus fréquenté dans cette distribution. On va
fixer les paramètres aux valeurs de leurs médianes, soient donc
0.030 pour n_m et 7.36 pour
pi_f0. Cependant le fait de fixer un paramètre peut
dégrader la qualité d'ajustement et très probablement
certains génotypes deviennent quasiment non ajustables sur une des
courbes (MF ou MS) en condition témoin ou stressée. Pour
éviter ce problème, il a fallu construire un critère
permettant de prendre une décision sur une corrélation forte. La
décision soit oui (la corrélation sera prise en compte) soit non
(la corrélation ne sera pas prise en compte), (voir la sous section
suivante).
3.3.3 Le critère de décision sur une
corrélation forte
Pour ce faire, on trie les n (50 ici) compromis
trouvés par génotype du meilleur jusqu'au moins bon. Dès
que ce tri est fait par le critère de sélection par seuil
(sectin2.5.1.4), on dessine les valeurs des paramètres
à fixer en fonction des compromis triés et une droite horizontale
représentant la valeur de la médiane pour laquelle, il faut fixer
le paramètre désigné (la Figure3.18).
Rappelons que la valeur de la médiane est bien celle trouvée sur
400 valeurs (pour les huit génotypes), donc c'est une valeur globale
pour les histogrammes de paramètre associé et non locale. La
décision est oui, si la droite (la valeur de la médiane) simule
au moins une partie de l'ensemble des nuages des points de son paramètre
sur tous les huit génotypes et non en cas d'existence d'un
génotype qui ne vérifie pas cette contrainte. Donc d'après
la Figure3.18, la décision est oui pour les couples de
corrélations (tstar et n_m) et (Y
_param et pi_f0).
Remarque 3.2. La variable
(Val_de_critère_de_seuil) sur la Figure3.18 représente les
valeurs de la somme pondérée (car on applique l'ajustement
parallèle) dans la liste L_max (revoir encore la sectin2.5.1.4).
Maintenant, on fixe les paramètres n_m
et pi_f0 à leurs valeurs indiquées
à la section précédente, puis on ajuste les six
paramètres restants avec éventuellement la recherche des
nouvelles corrélations.
|