1.2. Simulation n°2
La population mère et les individus actifs étant
tous régénérés (selon les mêmes formules que
pour la première simulation), voici ce que deviennent les nouvelles
statistiques.
Pour les individus actifs :
Pour la population mère :
Par rapport à la précédente simulation,
il faut noter une forte instabilité des corrélations des
individus actifs, et une instabilité significative des
corrélations de la population mère.
Intéressons nous à présent aux composantes
PLS et aux différents modèles selon le nombre d'étapes
:
Au regard de ce tableau, il semble inutile de retenir davantage
de 1 étape. On note une grande instabilité des coefficients,
à l'exception de la variable x5.
L'interprétation est plus délicate s'agissant de
la variance des composantes. Il faut, au regard de ce critère, retenir
au moins 2 étapes. Mais les 3 dernières étapes semblent
également significatives, notamment la toute dernière, qui nous
obligerait à retenir les deux autres si on souhaitait la prendre en
compte.
A la vue du premier tableau, et dans l'optique de trouver un
compromis, nous allons nous contenter de deux étapes.
Voyons à présent les résultats de
l'application des différents modèles sur les individus non-actifs
:
Nous sommes ici dans un cas plus délicat. Tous les
modèles, sans exception, donnent des résultats satisfaisants, et
ce malgré une amplitude conséquente des coefficients.
Néanmoins, dans ce cas-ci, la qualité des
résultats semble fonction croissante du nombre d'étapes retenues.
C'est ce que pouvait nous laisser imaginer le deuxième critère.
Mais ce n'est pas le cas du premier critère, qui nous aurait
plutôt poussés à ne retenir qu'une seule étape.
Néanmoins, on peut noter que l'amélioration des
résultats n'est pas si importante que cela, et que le choix du second
modèle, dans l'optique de compromis, n'était pas un si mauvais
choix.
Voyons ce que nous donne la régression linéaire
multiple sur les individus non-actifs :
On remarque là aussi, par rapport à la
précédente simulation, une forte instabilité des
coefficients (ce qui est surprenant lorsqu'il s'agit de comparer deux
populations de taille presque aussi importante que leur population mère
respective).
On constate que les 5 modèles approchent raisonnablement
ce résultat optimal (au sens des moindres carrés), et que le
modèle PLS(5) (ou de régression linéaire) est le
meilleur.
1.3. Simulation n°3
Données des individus actifs :
Données de la population mère :
On note toujours des instabilités conséquentes par
rapport aux deux précédentes simulations.
Passons sans attendre à l'étude des modèles
et composantes :
On remarque que le modèle à 5 composantes
explique très bien la population active. Néanmoins, le
modèle à 2 composantes semble suffire, avec un R2 de
96.21%, les 3 autres étapes n'apportant rien de significatif.
Ici, le choix semble nettement plus délicat. Il semble
inconcevable de retenir moins de 3 composantes, et les deux dernières
composantes semblent également importantes, mais nettement moins que ne
l'est la troisième.
D'après les deux tableaux, le mieux semblerait être
de retenir 3 composantes.
Voyons à présent les résultats des
modèles sur le reste de la population mère :
Cette fois, la contradiction est de taille. Les
critères nous on poussé à choisir le moins bon
modèle, et le seul « bon » modèle qui le soit vraiment
(quand on connaît les résultats obtenus lors des deux autres
simulations) est le modèle PLS(1).
Malheureusement, peu de choses laissaient présager que
le modèle 1 était le bon, excepté le fait que la
première composante suffisait à expliquer 79.96% de la variance
de Y s'agissant des individus actifs. On aurait hélas pu penser que, le
second axe apportant 16.25% d'explication de la variance de Y, et le
troisième axe présentant une inertie considérable (presque
aussi importante que celle du premier axe), il était indispensable de
retenir 3 axes.
Ce n'était malheureusement pas le cas. On peut
probablement expliquer cela par le fort degré d'aléa, qui soumet
la qualité de l'échantillon à un hasard
considérable.
Notons néanmoins que la régression linéaire
multiple n'aurait pas, elle non plus, atteint des résultats
intéressants
Voici les données et les résultats du meilleur
modèle possible :
On constate ici que le modèle PLS(1) était d'une
bonne qualité. La régression PLS n'était donc pas une
mauvaise méthode sur cet exercice (bien au contraire, elle surpasse
complètement la régression linéaire), mais le choix du
nombre correct d'étapes était impossible au regard des
critères, ce qui rend ici l'utilité de la méthode
nettement moins intéressante (à quoi bon détenir le bon
modèle si on ne sait pas le distinguer des autres lorsqu'on ne peut pas
le tester sur la population mère ?).
|