II.5. Conclusions sur le test n°2
Il est maintenant temps de conclure sur ce second test, dont
l'originalité, par rapport au premier test, était de travailler
sur des relations moins aléatoires.
Voici le tableau retraçant les résultats des
différents modèles pour chaque simulation :
On s'aperçoit que notre choix s'est invariablement
porté sur la conservation des 3 premières étapes.
On remarque aussi que la régression PLS(1) était
dans tous les cas celle qui donnait les moins bons résultats, alors que,
le plus souvent, il suffisait d'ajouter la seconde composante que pour obtenir
le meilleur résultat possible.
Néanmoins, le choix systématique de 3
étapes n'était pas si mauvais en soi. Il constitue, dans 1 des 4
cas, le meilleur choix possible, et dans les autres cas, montre des
résultats presque aussi bons que ceux du meilleur choix possible.
Sur l'ensemble des 4 simulations, l'apport de la
méthode PLS est considérable, car il donne, en moyenne des
résultats plus proches du « résultat optimal » que ne
le fait la régression linéaire (PLS(5)).
On note, sur l'ensemble des simulations, que la population
formée par les individus non-actifs était
légèrement mieux modélisable que ce n'était le cas
dans le test précédent (le meilleur résultat possible
donne à présent un R2 en moyenne de 93.96%, contre
91.85% lors du premier test).
On peut également constater que, dans l'ensemble, les
modèles établis sur les individus actifs prédisent
nettement mieux le reste de la population.
En revanche, ce que l'on constate moins, c'est un
éventuel rapprochement entre le résultat du meilleur des 5
modèles et le « résultat optimal ». Cet écart
reste, en moyenne, d'environ 5%.
On constate d'ailleurs une sorte de convergence des
résultats, comme si chaque modèle (excepté le
modèle PLS(1)) était aussi bien capable d'estimer le reste de la
population mère que les autres ne le sont.
Les prédictions s'améliorent donc nettement,
mais l'écart du meilleur modèle (et également du
modèle choisi) par rapport au meilleur résultat possible ne
diminue pas en moyenne. De plus, les résultats semblent être moins
sensibles par rapport au choix du modèle.
On remarque néanmoins que cette différence par
rapport au premier test s'explique principalement par la simulation n°3 de
ce dernier, qui avait complètement bouleversé les
résultats. Sans elle, les conclusions du premier test ressembleraient
davantage à celle du second. Mais la probabilité d'obtenir une
simulation aussi atypique était bien entendu plus élevée
dans le premier test, étant donné l'instabilité des
séries.
Regardons à présent les écarts-types
enregistrés sur les coefficients :
On observe cette fois que les modèles PLS(2) et PLS(3)
sont les plus stables. Le modèle PLS(1) est aussi relativement stable
constante exceptée.
De manière générale, la stabilité
des modèles est légèrement meilleure que celle
constatée lors du modèle précédent. On note
également que le meilleur modèle possible sur individus ne
faisant pas partie de l'échantillon est de loin le plus stable.
Etudions à présent les moyennes enregistrées
sur les séries :
Par rapport au précédent test, on note que les
séries sont devenues nettement plus stables, que ce soit au niveau de
l'échantillon qu'au niveau de la population mère. Les
écarts par rapport à l'espérance sont devenus acceptables,
excepté s'agissant de la variable x4, qui reste hautement instable.
La question que l'on peut légitimement se poser est la
suivante : Est-ce que la réduction du facteur aléatoire avantage
l'approche PLS ou l'approche des MCO ?
En fait, la réponse théorique à cette
question est assez délicate, car plusieurs effets entrent en jeu :
- S'il n'y avait aucun facteur aléatoire, les individus
actifs seraient à 100% représentatifs de la population
mère, et la régression linéaire serait avantagée,
car en passant au plus près du nuage de points formé par les
individus actifs, elle passerait forcément au plus près de celui
formé par le reste de la population. Une réduction du facteur
aléatoire avantage donc, de ce point de vue, l'approche des MCO.
- Une réduction du facteur aléatoire,
compensée par une hausse des relations directes entre les variables
explicatives, peut renforcer la nécessité d'utiliser la
méthode PLS, qui, comme nous l'avons vu, permet en partie de faire face
au phénomène de multicolinéarité. Toutefois, cet
effet semble nettement moins évident que le premier.
Si l'on observe les résultats moyens des modèles
au cours des deux tests, on s'aperçoit que, visiblement, c'est la
régression linéaire qui est avantagée par la
réduction du facteur aléatoire, puisque ses résultats
s'améliorent en moyenne.
Ce tableau permet de comparer les résultats moyens
enregistrés au cours des 2 tests :
On s'aperçoit que tous les résultats sont en nette
progression, excepté pour le modèle à une composante.
L'approche PLS pure semble donc affaiblie et l'approche des
MCO semble renforcée. Mais la nécessite d'utiliser la
méthode PLS, combinée aux critères utilisés, quant
à elle, reste bien réelle, car bien que l'écart
enregistré entre le modèle choisi et le modèle PLS(5) est
faible, il est assez stable d'une simulation à l'autre.
En réalité, la diminution du facteur
aléatoire n'avait pas pour but d'avantager l'une ou l'autre
méthode (même si l'approche PLS semble s'en trouver
désavantagée), mais d'avoir des résultats qui nous
permettent des conclusions plus stables, étant donné le nombre de
simulations limitées que nous avons le loisir de pratiquer.
Si nous avions pu faire plusieurs dizaines de simulations,
nous aurions probablement pu nous contenter des relations utilisées dans
le premier test. Ce n'est malheureusement pas le cas car j'ai personnellement
choisi de détailler un maximum le déroulement de chaque
simulation, dans le but de rester le plus transparent possible (le manque de
transparence pouvant, en statistiques, couvrir une éventuelle
manipulation des résultats dont je ne souhaite pas être
soupçonné, sous peine d'enlever toute crédibilité
aux résultats trouvés lors des simulations).
Le fait de travailler avec des séries plus stables
permet de compenser, dans une certaine proportion, le faible nombre de
simulations. Cet objectif semble être atteint, dans une certaine mesure,
car les résultats ont assez peu varié d'une simulation à
l'autre :
- Le nombre d'étapes choisi au regard des critères
fut toujours le même.
- Le meilleur modèle était dans 3 cas le
modèle PLS(2), et dans l'autre cas le modèle PLS(3), sachant que
même dans ce cas, le modèle PLS(2) donnait des résultats
très satisfaisants.
- Les résultats des différents modèles sont
plus stables.
- La prévisibilité de la population mère
était plus stable.
L'autre but était tout de même de savoir si une
réduction du facteur aléa affectait plus particulièrement
un modèle qu'un autre. Apparemment, c'est le cas. Il faut retenir, en
moyenne, plus d'étapes que dans le premier test, pour obtenir un bon
modèle. Mais cette conclusion, basée sur seulement 4 simulations
par test, est à relativiser à cause de l'instabilité des
résultats du premier test.
Pour en finir sur les conclusions de ce deuxième test,
nous dirons que la régression PLS fut efficace dans presque 100% des
cas, car les résultats du modèle retenu étaient toujours
meilleurs que ceux du modèle PLS(5) équivalent à la
régression linéaire selon le critère des MCO,
excepté lors de la dernière simulation où les deux
modèles se valent (avec un léger avantage pour le modèle
des MCO).
Par rapport au précédent test, on note des
conditions plus stables. Le modèle choisi creuse, en moyenne, un
écart moins important par rapport au modèle PLS(5), mais un
écart qui est plus constant que dans le test précédent.
On peut penser que le modèle PLS retenu est, pour les
deux tests, globalement meilleur que le modèle PLS(5), et que cet
écart est plus conséquent lorsque l'aléa prédomine,
mais qu'il est plus constant lorsque l'aléa est plus faible.
Il est maintenant temps de procéder à un
troisième et dernier test. Le but va être de mettre en valeur la
capacité de la régression PLS à fonctionner sur un nombre
d'individus actifs à peine supérieur au nombre de variables.
|