11.4. Simulation n°4
Voici les caractéristiques des individus actifs :
Et les caractéristiques de la population mère :
Les caractéristiques de l'échantillon semblent
assez peu représentatives de celles de la population mère,
à l'instar de ce que l'on a pu constater lors des simulations 1 et 3.
L'instabilité de la variable X4 semble y être pour beaucoup.
Les différents modèles obtenus à partir de
l'échantillon sont les suivants :
Le critère du « R2 ajouté »,
sans équivoque, nous recommande de retenir 2 étapes. Notons que
les coefficients sont assez stables à partir de l'étape 2
jusqu'à l'étape 5.
Etudions à présent les variances des
différentes composantes :
Ce critère nous incite à retenir 3 étapes,
la 3ème étant apparemment presque aussi importante que
la première.
Nous allons donc, en quelques sortes, privilégier,
cette fois, le second critère, et choisir 3 composantes, surtout
parce que la troisième composante semble très importante au
regard du second critère, et aussi parce que les coefficients semblent
raisonnablement stables entre l'étape 2 et l'étape 3. Un
phénomène de surparamétrage ne semble donc pas trop
à craindre. Il s'agit au contraire de tenir davantage compte de
l'inertie de l'ensemble des variables explicatives.
Les résultats donnés par les modèles sont
les suivant :
Cette fois, il y a vraiment très peu de
différences entre les 4 derniers modèles. La stabilité
relative des coefficients s'agissant des 4 dernières étapes
aurait pu nous le suggérer.
Dans cette simulation, le plus important était de ne
pas retenir le premier modèle, qui est le seul dont les résultats
se démarquent (dans le mauvais sens) du lot. Le choix du nombre
d'étapes importait peu, pourvu qu'on en retienne au moins deux. Nous en
avons retenu 3, sur base des critères, et avons ainsi pu éviter
le seul danger possible.
Notons que, dans l'ensemble, les prévisions ne semblent
pas très bonnes. Voyons donc quel était le résultat
optimal :
Le meilleur modèle était à un peu plus de
7% du meilleur résultat possible. La qualité de
l'échantillon était donc probablement moyenne. La population
mère, quant à elle, devait également être de
qualité moyenne, puisqu'elle est la moins bien modélisable sur
les 4 simulations que nous avons pu faire.
Ce n'est pas pour autant que le bilan de la méthode PLS
soit mauvais sur cet exemple, car même si la régression
linéaire aurait donné de meilleurs résultats que ceux
donnés par le modèle choisi, la différence était
négligeable.
|