2.3.4. Pluviométrie et rendements agricoles
historiques
Pour apprécier l'effet de la pluviométrie de
façon directe dans la prévision des rendements agricoles, un
cumul de la pluviométrie est fait également sur
différentes décades du cycle de développement de la
culture. Les rendements agricoles historiques qui constituent la variable
à expliquer fait partie des variables qui constituent le set
d'entrée de Statistica.
2.3.5. Statistica
2.3.5.1. Contrôle de la qualité des
données.
La première étape a été
l'observation visuelle des données et ensuite la vérification de
la normalité des variables. Pour réaliser cette première
étape, des paramètres de tendance centrale (moyenne) et de
dispersion (variance et écart type) ont été produits. Des
boîtes à moustaches ont été produites pour
apprécier la présence de points atypiques et extrêmes. Dans
Microsoft Excel, des calculs de totaux ont permis de contrôler les
valeurs des données d'entrée de Statistica et les données
brutes
obtenues auprès des services techniques ou des sorties
de logiciel. De plus, des représentations graphiques sous forme de
courbes ont permis d'identifier les valeurs qui s'écartent des autres et
de vérifier si elles sont le résultat obtenu suivant la
procédure souhaitée.
2.3.5.2. Identification des variables
corrélées
Pour chaque sortie de modèles utilisés, un tri
de variables qui ont un sens agronomique dans le cadre de cette étude a
été fait. Ces variables sont utilisées pour rechercher
celles qui sont corrélées entre elles de sorte à ne pas
produire un modèle comportant des variables corrélées. Une
régression multiple pas à pas est faite en petits groupes pour
identifier les variables qui ont une probabilité significative dans
l'explication du rendement agricole.
2.3.5.3. Identification du modèle, calibration et
validation
L'étape suivante a consisté en
l'élaboration de Modèles Généraux de
Régression à partir des variables non corrélées.
Les modèles proposés sont classés par valeur
décroissante du coefficient de détermination (R2). Pour le choix
du meilleur modèle de prévision des rendements, nous avons
utilisé les mêmes variables explicatives pour faire à
nouveau une régression pas à pas en se limitant aux variables
dont les paramètres présentent une probabilité
significative avec 95% de confiance au moins. La dernière étape
de l'utilisation du logiciel Statistica est la cross-validation en vue de
vérifier le niveau de réplication des résultats. La
procédure a consisté à utiliser une partie des
observations pour calibrer le modèle et une autre partie pour le
valider. Dans notre cas, le leave-one-out (LOO) cross-validation a
été utilisé. Il s'agit simplement d'utiliser (K-1)
observations pour calibrer le modèle et l'observation restante est
utilisée pour la validation. Cette opération est
réalisée (K-1) fois. K étant le nombre total
d'observations utilisées pour l'étude.
|