111.3 Simulation n°3
Les données des individus actifs sont les suivantes :
Et voici les données de la population mère :
Les données des individus actifs semblent assez peu
représentatives de celles de la population mère.
Passons maintenant en revue les critères des
différents modèles qui s'offrent à nous. Tout d'abord, les
modèles en eux-mêmes :
Le critère du R2 ajouté par chaque
composante semble nous indiquer de ne retenir qu'une seule étape.
Voyons ce qu'indiquent les variances des axes :
Ce critère nous indique de retenir deux composantes.
Bien que la deuxième composante semble ne pas
être significative quant à l'estimation de la variable Y pour les
individus actifs, et qu'il soit dangereux de retenir trop de composantes sur un
aussi faible échantillon, cette composante représente à
elle seule une variance considérable.
Nous retenons donc 2 composantes.
Voyons si les résultats donnés par les estimations
des différents modèles nous ont donné raison :
Apparemment, nous aurions mieux fait de retenir 3 composantes.
Mais les critères ne nous indiquait nullement de procéder de la
sorte, et le risque de surparamétrage était élevé.
Choisir trois 3 composantes aurait donc été, ici, le meilleur
choix à postériori, mais ca n'aurait pas été un bon
choix au regard des critères. Choisir 3 composantes aurait probablement
été irrationnel, ce qui, ici, n'aurait pas empêché
la chance de couronner ce choix de réussite.
Nous avons hésité entre retenir 1 ou 2
composantes, et le choix de 2 composantes était meilleur. Ca aurait pu
ne pas être le cas. Mais, force est de constater que, sur le nombre de
simulations que nous avons fait jusqu'ici, les choix que nous avons fait se
sont dans l'ensemble montré bon, et c'est cela qui importe. Bien
sûr, on ne peut pas contrôler le facteur « chance »,
mais, sur un grand nombre de simulations, ce facteur importe peu. L'important
est donc, dans ces conditions, que le choix se porte le plus souvent possible
sur l'un des meilleurs modèles. C'est le cas ici.
Voyons à présent ce qu'il en était du
meilleur résultat possible :
Le modèle que nous avons choisi était assez loin
de ce résultat. Mais nous n'aurions pas pu faire beaucoup mieux. Il a
l'air de se confirmer, au fil des simulations, que la faible taille de
l'échantillon se traduise par une moins bonne qualité de ce
dernier (en moyenne et toute chose égale par ailleurs), ce qui est tout
à fait logique, et nous amène forcément à avoir des
modèles qui soient moins représentatifs de la «
réalité ».
Le bilan de cette simulation est donc, somme toute, assez
positif.
|