2.3 Élaboration d'un modèle explicatif du
CAU
Les objectifs de modélisation sont de deux ordres. Le
premier est cognitif, on souhaite comprendre la nature des relations : quelles
sont les variables explicatives du CAU? Les hypothèses de travail
posées par François Limaux et François Laurent se
vérifient-elles? Le second est prédictif. Avec la connaissance
que l'on a de la nature des relations, et si les hypothèses de travail
sont vérifiées, peut-on prédire le niveau de CAU d'un
apport? Un objectif poséen introduction est de produire un modèle
pour l'ensemble du cycle de la culture. A ` travers l'étude des trois
variables calculées (VC puis INN puis une variable issue des groupes de
mesures pluviométriques) on tente d'expliquer le CAU sur l'ensemble du
cycle.
2.3.1 Analyse factorielle
Dans un premier temps il convient d'obtenir une
représentation synthétique des données. Disposant de
plusieurs variables quantitatives on opte pour un outil d'analyse factorielle.
Néanmoins, on souhaite équilibrer le poids des variables dans le
jeu de données, notamment celui des huit variables
pluviométriques probablement fortement corrélées entre
elles. L'Analyse Factorielle Multiple (AFM) permet de représenter
l'espace des variables prenant en compte les groupes de variables
pluviométriques, la VC et l'INN formant chacun un groupe. Le CAU,
variable à expliquer, est projetédans cet espace en illustratif
ainsi que le stade de fertilisation pour observer la liaison linéaire
des variables au
temps. L'individu projetécorrespond àune
microparcelle d'un essai appliquéune année, exposée
àune modalitéde fertilisation, pour laquelle il a
étépossible de calculer l'efficacitéde la
fertilisation.
15
2.3.2 Approche linéaire de la sélection
de modèles
Si rien ne contredit les hypothèses de
linéarité(sur représentation graphique) une approche
linéaire des effets est adoptée, en tenant compte des
interactions possibles (ce qui peut introduire des réponses non
linéaires). L'élaboration d'un modèle linéaire est
le choix qu'a réaliséFrançois Limaux, et présente
une simplification intéressante pour appréhender les relations
existantes.
La sélection du modèle est ascendante. A `
partir du modèle nul on apporte de nouvelles variables pour expliquer le
CAU, justifiées a priori par des représentations
graphiques des données. L'ordre dans lequel les variables sont
ajoutées est dictépar les connaissances que l'on a des relations
entre variables et CAU. On commence par étudier la relation qui lie le
CAU à la VC, en comparant nos résultats obtenus à ceux de
François Limaux puis on ajoute ensuite l'effet du fertilisant, l'INN et
enfin la pluviométrie. Cette démarche se justifie par la
volontéd'apprécier le progrès qu'apporte chacune des
hypothèses de travail.
On sait que les effets aléatoires induisent une
structure particulière des données, on veut donc les prendre en
compte pour améliorer les estimations des différents
modèles (cf paragraphe précédent). Une couche de
complexitésupplémentaire est donc introduite par la prise en
compte des effets aléatoires. En effet, les méthodes d'ajustement
des modèles mixtes demandent d'avoir des hypothèses sur la
structure de covariance mais nous ne disposons pas d'information
spécifique permettant de nous orienter. On simplifie le problème
en ne considérant que deux types de structures de covariances :
- les effets aléatoires sont indépendants
(structure de covariance diagonale);
- les effets aléatoires ne sont pas
indépendants, il faut estimer les corrélations entre effets
aléatoires.
(Annexe VII : choix d'une structure de variance-covariance,
D.Bates)
A ` chaque niveau du modèle, àchaque ajout de
variable, on détermine dans un premier temps la structure des effets
aléatoires, puis la structure des effets fixes (quels effets, quelles
interactions?). Les effets aléatoires sont sélectionnés
sur la base de la probabilitécritique associée à un test
de x2 pour des modèles ajustés par maximisation de la
vraisemblance restreinte (REML). La combinaison des effets fixes de chaque
modèle testéest sélectionnée sur la base de la
probabilitécritique d'un test F (approximation des degrés de
libertéde Sattertwhaite) (Kuznetsova and Brockhoff, 2012). La
qualitéd'ajustement de chacun des modèles est
appréciée par le BIC (équation 2.13), le BIC permettant de
pénaliser la variabilitéexpliquée par le nombre de
paramètres ajoutés dans le modèle. On compare
également les modèles et sous modèles, de structure
aléatoire identique, par un test de rapport de vraisemblance. On
construit la statistique de test qui suit une loi de x2 sous H0 (H0
: la vraisemblance du modèle est égale àla vraisemblance
du sous modèle V1 = V2), elle permet de juger de l'amélioration
apportée par le modèle en comparaison àun sous
modèle (équation 2.14). Cependant, pour comparer des
modèles emboîtés avec des structures d'effets fixes
différents, il est recommandéd'utiliser un ajustement de
modèle maximisant la vraisemblance (ML) et non plus la vraisemblance
restreinte (REML) (Crawley, 2007). Tests F et tests du x2
fournissent des probabilités critiques considérées
significatives au seuil á = 5%.
BIC= -2-lnV+K-lnn (2.13)
- V : vraisemblance;
- K : nombre de paramètres indépendants; - n :
nombre d'individus.
-2 [ln V2 - ln V1] H9 x2 (2.14)
ddl
- V1,V2 : vraisemblance respective des modèles 1 et 2;
- ddl : degrés de liberté.
La normalitéet l'homogénéitédes
variances de chaque modèle sont vérifiées par une
représentation graphique du résidu contre les valeurs
ajustées, de la distribution du résidu, et de la confrontation
des valeurs observées contre les valeurs estimées.
16
|