III. Test n°3
Par rapport au précédent test, les relations
génériques entre les variables ne changeront pas. Il suffit donc
de retourner au début du second test pour connaître les
propriétés exactes des variables.
Pour rappel, voici les espérances théoriques des
séries :
La seule modification portera sur le nombre d'individus
actifs. Le nombre d'individus actifs passera de 10 à 7. La taille de la
population mère choisie sera toujours de 50 individus, ce qui nous
laisse 43 individus sur lesquels nous mettrons à l'épreuve les
qualités d'estimation des modèles.
Le but est de mettre en évidence les qualités
d'estimation de la régression PLS sur faible échantillon.
Nous choisissons une telle approche car l'intérêt
de la régression PLS se justifie surtout dans ce genre de cas de
figures. Sur un échantillon trop élevé, les individus
atypiques se compensent et on obtient souvent des caractéristiques trop
représentatives de la population mère, ce qui élimine
mécaniquement, en grande partie, le danger de surparamétrage de
la régression linéaire au sens des MCO.
Néanmoins, afin de « laisser une chance »
à la régression multiple, nous conservons un nombre d'individus
actifs légèrement supérieur au nombre de variables, sans
quoi ce test serait totalement inutile.
Ainsi, le fait de passer de 10 à 7 individus semble
peut-être anodin, mais en réalité, cela change
énormément la donne, puisque le nombre d'individus
supplémentaires par rapport au nombre de variables explicatives passe de
5 à 2.
III.1 Simulation n°1
Observons les données des individus actifs :
Et les données de la population mère :
On s'aperçoit, cette fois, que les relations entre Y et
chaque variable explicative sont assez comparables au sein des individus actifs
et de la population mère, mais que les relations entre les variables
explicatives sont mal représentées par l'échantillon.
Quant aux moyennes des séries, elles sont, pour certaines,
s'agissant des individus actifs, loin de correspondre aux espérances
théoriques.
Intéressons nous à présent aux
critères de décisions
Tout d'abord, les prévisions des modèles retenus
:
On remarque une instabilité assez forte des
coefficients.
Ce critère nous incite plutôt à retenir 2,
éventuellement 3 composantes. Mais compte tenu du faible nombre
d'individus actifs, on peut s'attendre à un surparamétrage
rapide. La troisième composante, n'apportant que 4.19% d'explication de
la variance de Y, ne semble donc pas intéressante. Le fait de retenir
une seule composante pourrait également se justifier.
Voyons à présent ce qu'il en est des variances des
axes :
Ce critère nous incite à retenir 2 ou 3
composantes.
Dans les simulations précédentes, nous en
aurions probablement retenu 3, mais ici, nous allons nous contenter de 2
composantes, étant donné le faible nombre d'individus actifs et
la contribution modérée de la 3ème composante
à l'explication de la variance de Y.
Notre choix se portera donc sur la conservation de 2
composantes.
Partie 3: Simulations Confrontons à
présent les modèles au reste de la population mère :
Nous sommes en présence d'un cas assez particulier. Il
fallait avant tout éviter de retenir 3 ou 5 composantes.
S'il est clair que nous n'aurions pas retenu 5 composantes,
nous avons douté quant au choix du 3ème modèle,
ce qui, ici, aurait été une erreur. Par contre, si nous avions
retenu 4 composantes, cela n'en aurait pas été une au regard des
résultats empiriques. Néanmoins, le score réalisé
par le modèle PLS(4) tient probablement davantage au hasard. Nous avons
donc bien fait de retenir un faible nombre d'étapes. Le nombre
d'individus actifs étant faible, il aurait été quelque peu
dangereux de retenir une troisième composante. Mais cela aurait pu se
justifier.
Dans tous les cas, le résultat obtenu aurait
été meilleur qu'en régression linéaire. Voyons
à présent quel était le meilleur résultat possible
sur les 43 individus non-actifs :
Bien évidemment, avec un échantillon aussi
faible, il aurait été très chanceux d'arriver à
prédire aussi bien la population active que ce n'était le cas
dans les simulations du test précédent.
On constate que la régression linéaire
s'éloigne complètement du résultat. La régression
PLS, dans ses premières étapes, parvient à compenser, dans
une certaine mesure, la mauvaise qualité de l'échantillon. Mais
cette compensation est loin d'être intégrale.
Il est important de faire d'autres simulations pour voir dans
quelle mesure ces résultats se vérifient.
Partie 3: Simulations
111.2 Simulation n°2
Les statistiques des individus actifs sont les suivantes :
Et voici celles de la population mère :
Les corrélations de la population formée des 7
individus actifs semblent assez peu représentatives de celles de la
population mère.
1ntéressons nous à présent aux
différents modèles qui s'offrent à nous.
Tout d'abord, les modèles en eux-mêmes :
Le critère du R2 nous invite à retenir
une composante, éventuellement 2. Voyons ce que nous dit le
critère de la variance des composantes :
Le critère nous suggère de retenir 3 étapes.
Selon le même principe que pour la précédente simulation,
il semblerait néanmoins bon de sacrifier la 3ème
composante.
Les deux critères étant pris en
considération, le plus sage semble être de retenir 2
étapes, le premier axe ne présentant pas une variance
suffisante.
Nous retenons donc 2 composantes.
Voici les résultats de la confrontation des modèles
avec les autres individus :
Notre choix s'est porté sur un des deux meilleurs
modèles.
Il est étonnant de constater que le troisième
axe, n'apportant presque rien en termes de R2 ajouté (sur les
individus actifs), corresponde au meilleur modèle. Néanmoins, sa
variance était importante.
Ce qu'il fallait avant tout éviter, ici, était
de retenir 1, 4 ou 5 axes. C'est ce que les critères, combinés
l'un à l'autre, nous ont conduit, bien que le premier critère,
pris isolément, nous aurait peut-être conduit à ne retenir
qu'un seul axe.
Voyons à présent quel était le meilleur
résultat possible :
Par rapport à la simulation précédente,
on peut dire que les modèles sont nettement plus proches du meilleur
résultat possible. Ce n'est probablement pas la population mère
qui est en cause, mais la capacité de représentation de
l'échantillon, qui est probablement meilleure dans ce cas-ci.
Pour en conclure sur cette simulation, nous pouvons dire que
la méthode de régression PLS obtient des résultats
significatifs. Cette fois encore, le modèle PLS(5), correspondant au
critère des MCO, était le moins bon. Le modèle que nous
avons retenu lui a été meilleur.
Partie 3: Simulations
|