11.2. Simulation n°2
Voyons tout de suite quelles sont les caractéristiques des
séries. Tout d'abord celles des individus actifs :
Et voici celles de la population mère :
1l semblerait les coefficients de corrélations des
séries issues des individus actifs soient un peu plus
représentatifs de ceux de celles issues de la population mère que
dans la simulation précédente.
Etudions à présent la construction des
modèles et des composantes, avec, tout d'abord, les modèles en
question :
Notons que les coefficients évoluent de manière
assez stable d'étape en étape, si l'on ne tient pas compte de
l'étape n°2 qui marque une sorte de « coupure »
s'agissant du coefficient de la constante et de celui de x1.
Ce critère nous incite, sans équivoque, à
retenir les deux premières composantes.
Notons par contre que les individus sont moins bien
prédictibles que dans la simulation précédente (94.89% au
mieux contre 99.34% dans la simulation n°1).
Etudions à présent les variances des axes :
Ce critère nous conduit à conserver 3 ou 4 axes. A
nouveau, nous choisissons le compromis et retiendrons 3 axes.
Les résultats des modèles sont les suivants :
Les résultats semblent assez indifférents quant
au modèle choisi. C'est à nouveau le modèle à 2
composantes qui sort légèrement du lot, tel que le
préconisait le premier critère (c'était déjà
le cas dans la simulation précédente). Le choix de 3 axes
constitue le 2ème meilleur choix possible.
Voyons quels sont les données du résultat optimal
sur les 40 individus concernés :
On s'aperçoit que le modèle PLS(2) était
vraiment proche du résultat optimal. Pourtant, les coefficients, pour
certains d'entre eux, sont loin d'être les mêmes.
On remarque cette fois-ci que, contrairement à
l'exemple précédent, qui voyait un écart de + de 12% entre
le meilleur modèle et le résultat optimal, ici, cet écart
est inférieur à 1%. Cela tend à confirmer que la
simulation précédente constituait une exception. On peut penser
que les individus actifs représentaient un échantillon de
meilleure qualité (plus représentatif) de la population
active.
Pour ce qui en est de l'efficacité de la méthode
PLS, nous pouvons dire qu'elle est ici difficilement démontrable
étant donné la proximité des modèles en terme de
qualité d'estimations.
Néanmoins, le fait que les critères nous aient
amenés à choisir le deuxième meilleur modèle (le
modèle PLS(3)), et le fait que l'hésitation portait sur les
modèles PLS(2), PLS(3) et PLS(4) (les 3 meilleurs modèles), nous
laisse à penser que la méthode est satisfaisante.
|