11.3. Simulation n°3
Les caractéristiques des individus actifs et de la
population mère sont les suivantes. Pour les individus actifs :
Pour la population mère :
Comme dans la première simulation, les
caractéristiques des individus actifs représentent moyennement
celles de la population mère.
Intéressons nous à présent aux
modèles et composantes :
Les individus actifs semblent facilement modélisables. Ce
critère nous invite à retenir une, ou éventuellement deux
composantes.
Le critère de la variance des axes semble nous inviter
à retenir 4 composantes, mais nous indique clairement que la
première composante est de loin la plus représentative.
Nous retiendrons 3 composantes, et ce pour deux raisons
:
- Parce que les coefficients semblent hautement instables
à partir de l'étape 4.
- Parce qu'il serait trop dangereux de se priver d'une partie
trop importante de l'inertie des axes. Les deux premiers axes, à eux
seuls, ne suffisent peut-être pas. Bien sûr, l'idéal serait
de retenir 4 axes au regard du critère d'inertie, mais cela reviendrait
à ignorer complètement le premier critère. Le choix de 3
composantes relève donc encore du principe de compromis.
Passons à présent aux résultats des
estimations des modèles :
Cette fois, il semblerait que nous ayons choisi le bon nombre
d'axes.
Notons que le premier critère, à lui seul, nous
aurais dangereusement tenté de ne retenir qu'un seul axe. Il
était important de se fier au second critère. Néanmoins,
ce dernier, à lui seul, nous aurait poussé à retenir 4
axes, dont un aurait été de trop. Il est donc important de se
fier aux deux critères en relativisant l'importance d'un seul
critère pris isolément.
Notons que, dans l'ensemble, les prévisions sont
meilleures qu'elles ne l'étaient lors de la première simulation,
et moins bonnes qu'elles ne l'étaient pour la seconde.
Le résultat optimal était le suivant :
Contrairement à la première simulation, le
meilleur modèle (qui fut d'ailleurs le modèle choisi) s'approche
considérablement du meilleur résultat possible. La
régression linéaire, quant à elle, était nettement
plus loin du résultat.
Bien que l'on craignait, au départ, d'avoir un
échantillon peu représentatif de la population mère, et
d'avoir des résultats semblables à ceux de la première
simulation, ce fut moins le cas ici. Les prévisions des
différents modèles ne sont pas aussi bonnes qu'elles ne
l'étaient dans la seconde simulation, mais cette fois, les
critères nous ont poussés à choisir le bon modèle,
qui lui était tout à fait correct.
La régression PLS, dans ce cas-ci, était donc
utile.
|