PARTIE 3
Simulations
Au cours de cette section, nous allons tenter de comprendre
comment retenir, en régression PLS, le nombre d'étapes optimal
(sachant qu'on se réserve le droit de choisir autant d'étapes que
de variables et de déboucher ainsi sur une régression
linéaire) permettant d'effectuer la meilleure estimation possible sur un
nombre d'individus « important », en travaillant avec un nombre plus
réduit d'individus actifs.
Nous allons pour cela créer nous-mêmes les
données de la « population mère », et établir un
modèle sur un échantillon réduit de cette population
initiale. Nous tenterons ensuite de voir dans quelle mesure les
différents modèles que nous allons calculer permettront d'estimer
le reste de la population.
Pour mettre en évidence l'utilité de la
régression PLS, nous choisirons un nombre assez faible d'individus
actifs, et des variables considérablement corrélées
entre-elles (sinon, le nombre d'étapes n'influencera pas le
modèle, pour des raisons vues dans la partie précédente).
Nous tenterons également, dans une certaine mesure, de faire varier ces
paramètres, afin d'essayer de mettre en évidence les conditions
pour lesquelles les conséquences engendrées par le choix du
nombre d'étapes sont significatives.
Naturellement, il ne s'agit pas de dresser des conclusions qui
se voudraient exhaustives quant aux propriétés de la
régression PLS, qui délimiteraient clairement des seuils
d'efficacités de la méthode en fonction de chaque
paramètre. Il s'agit uniquement de faire des tests, de traiter quelques
cas différents, avec des données qui ont des
propriétés connues, afin de mettre en évidence certaines
tendances, et de prouver empiriquement que, sous certaines conditions, la
régression PLS est une méthode qui se justifie pleinement.
Afin d'éviter tout manque d'objectivité dans la
création des données, celles-ci seront
générées sous Excel, avec une composante
prédéfinie et une composante aléatoire. Toutes les
données de la population mère seront
générées simultanément, y compris celles des
individus actifs, qui seront choisi « au hasard » dans la population
mère.
Pour générer une composante aléatoire, la
fonction « ALEA() » d'Excel sera utilisée. Cette fonction ne
possède peut-être pas toutes les propriétés d'une
vraie fonction aléatoire au sens pur (l'aléa pur, en
informatique, n'existe pas, puisque tout y est toujours fonction de quelque
chose), mais ses propriétés sont probablement suffisantes que
pour se livrer à un exercice de ce type sans que les conclusions ne
soient excessivement faussées. De plus, pour éviter autant que
possible tout problème, l'exercice sera répété
plusieurs fois avec des données régénérées
à chaque fois.
Cette fonction ALEA() génère aléatoirement
un nombre à 16 décimales compris entre 0 et 1. La distribution
de ce nombre au sein de cet intervalle est supposée
équiprobable pour chaque sous-intervalle de même amplitude
défini au sein de l'intervalle (quelque
soit l'amplitude choisie). En théorie, notons que
l'espérance de la fonction ALEA() est sensée être la
suivante : E[ALEA()]=0.5
Naturellement, on peut obtenir un nombre aléatoire de
l'ordre grandeur que l'on souhaite en multipliant cet aléa par une
constante. On peut aussi créer une relation aléatoire entre deux
variables, ou une relation partiellement aléatoire.
Nous allons ainsi définir un jeu de 5 variables
explicatives xi, x2, x3, x4 et x5, et une variable expliquée Y. Nous
choisissons un nombre 5 variables dans l'optique d'un compromis. D'une part, il
faut un minimum de variables pour pouvoir observer des effets de
multicolinéarité et pouvoir juger de la pertinence d'une
méthode dans le cadre d'un jeu de relations suffisamment complexes.
D'autre part, il ne faut pas non plus choisir un nombre trop
élevé de variable sous peine de compliquer le problème
plus qu'il ne l'est nécessaire et de se détourner de l'objectif
initial qui est de tester la régression PLS.
Les relations entre les variables seront toutes
définies de manière linéaire. On part de xi, fonction
éventuelle d'un aléa et d'une constante. Ensuite, on envisage x2,
qui peut éventuellement être fonction de xi. x3 pourra quant
à elle être fonction de xi et x2, et ainsi de suite, chaque
variable pouvant être fonction de toutes les variables dont l'indice est
inférieur au sien. La variable Y peut logiquement être fonction de
toutes les variables explicatives. Les relations entre les variables sont ainsi
hiérarchisées afin de pouvoir être facilement
encodées avec Excel.
Naturellement, chaque variable peut également
intégrer des constantes ou des fonctions aléatoires de
constantes.
Chaque test effectué fera l'objet de 4 simulations, afin
de voir si les résultats sont significativement modifiés, et de
tenir des conclusions moins hasardeuses.
Notons également que le nombre d'individus étant
important, les tableaux contenant les données brutes se trouvent dans la
partie « Annexes » (ces tableaux s'étalant de la page 127
à la page 138).
I. Test n°1
Prenons les relations suivantes :
xi = 200 + 100*ALEA()
x2 = 100 + 100*ALEA() + 2*ALEA()*xi + 0.5*xi
x3 = 2*ALEA()*xi + 2*ALEA()*x2
x4 = -50 - 3*ALEA()*xi + 2*ALEA()*x3
x5= 100 + 100*ALEA() + 5*ALEA()*xi + x2 + ALEA()*x4
Y = 2*xi +2*ALEA()*xi + ALEA()*x3+ 0.5*x4 + ALEA()*x4+ x5+
0.5*ALEA()*x5 On peut résumer ces
relations via le tableau suivant :
50 individus sont générés selon ces
formules (avec Excel), dont les 10 premiers serviront d'individus actifs pour
la création des modèles, et les 40 autres serviront à
mettre à l'épreuve la capacité à estimer de chaque
modèle.
4 simulations différentes seront effectuées.
Il peut-être intéressant, au préalable, de
s'intéresser aux caractéristiques des séries qui vont
être ainsi générées :
Pour mieux comprendre ce tableau, prenons deux exemples :
- La variable xi est la somme d'un terme constant d'une valeur
de 200, qui ne fait l'objet d'aucun aléa, mais aussi d'un terme
aléatoire, pouvant varier de 0 à 100 et d'espérance 50. On
a donc une espérance totale de 250, qui se décompose
structurellement en 200 unités constantes et de 50 unités
aléatoires.
- La variable x2 est fonction de 4 termes :
o Un terme constant, d'une valeur de 100.
o Un terme aléatoire d'espérance 50.
o Un terme fonction aléatoire de xi, pouvant varier entre
0 et 500, d'espérance 250, espérance qui se décompose en
:
n Un terme constant dans xi qui devient aléatoire dans
x2, comptant pour une espérance de 200.
n Un terme aléatoire dans xi qui devient aléatoire
de 2nd degré dans x2, comptant pour une espérance de
50.
o Un terme fonction directe de xi, pouvant varier entre 100
et 150 (xi pouvant varier entre 200 et 300), d'espérance 125, qui se
décompose de la manière suivante :
n Un terme constant dans xi, qui reste constant dans x2,
comptant pour dans l'espérance de x2 pour 100 unités.
n Un terme aléatoire dans xi, qui reste aléatoire
dans x2, comptant pour 25 unités.
Au final, l'espérance de la variable x2 se
décompose donc en :
o 200 unités constantes (dont 100 issues de xi)
o 275 unités aléatoires (dont 225 issues de xi)
o 50 unités « doublement aléatoires »,
qui proviennent toutes de xi.
Avec le phénomène d'enchevêtrement des
variables les unes dans les autres, on remarque que l'on arrive à
obtenir jusqu'à 6 degrés d'aléa dans une variable. Tout
ceci semble fort complexe, mais une fois chaque degré d'aléa
clairement identifié pour chaque variable, le tableau permet d'avoir une
vue d'ensemble de la structure qui est à la base de la
génération des différentes variables. Notons
néanmoins que ce tableau ne nous renseigne pas sur les relations des
variables entre elles.
On s'aperçoit donc que, dans l'ensemble, le terme
constant n'est pas celui qui domine, et que de très fortes variations
peuvent affecter plus ou moins aléatoirement l'ensemble des variables,
avec des aléas qui peuvent se répercuter sur plusieurs variables
à la fois (ce qui peut perturber ou au contraire renforcer la relation
entre ces variables).
I.1. Simulation n°1
Les statistiques observées (moyenne et écart-type)
sur les individus actifs (les 10 premiers individus) sont les suivantes :
La matrice des coefficients de corrélation sur ces
individus donne :
On observe donc des coefficients assez élevés
(en moyenne), que ce soit entre la variable expliquée et les variables
explicatives, ou entre les variables explicatives entre elles.
Voyons à présent les mêmes tableaux, pour la
population mère (les 50 individus) :
Les statistiques sur échantillon ne sont bien sûr
pas ce qu'elles sont sur la population mère, mais, toute proportion
gardée, on constate des similitudes conséquentes. Notons
au passage que la population mère englobe les individus
actifs et que cela a un léger impact sur la similitude des
données.
Voici ce que nous donnent les différents modèles
PLS que nous pouvons calculer sur le modèle :
On remarque que les coefficients sont peu stables lorsque l'on
ajoute des étapes.
Remarquons également qu'en termes de R2
ajouté, seules les deux premières étapes semblent
significatives.
Regardons à présent les coordonnées des
composantes ainsi que leur variance :
On remarque que les 3 premières composantes sont
significatives en termes de variance.
Au regard des deux critères, il serait donc judicieux
de retenir 2 ou 3 composantes, la première n'étant pas
suffisante, et les deux dernières n'étant pas significatives. La
troisième composante ne se justifie que parce que sa variance est
considérable et apporte probablement une part importante d'explication
des variables x.
On retiendra donc, assez arbitrairement, 3 composantes.
Regardons à présent les résultats de
l'application des différents modèles sur les 40 individus
non-actifs :
On remarque donc que c'est le modèle à 2
composantes qui obtient le meilleur score (89.30%), le modèle à 3
composantes obtenant un score assez proche de ce dernier.
Si nous effectuons une régression linéaire
multiple sur les 40 individus non-actifs, ce qui correspond au meilleur
résultat possible en termes de SCR et donc de R2, nous
obtenons les résultats suivants :
On remarque que le modèle PLS(2), ainsi que le
modèle PLS(3) que nous avons retenu, sont nettement plus proches de ce
« meilleur score possible » que ne l'est la régression PLS(5),
c'est-à-dire la régression linéaire multiple sur les
individus actifs.
La régression PLS, combinée aux
critères utilisés pour la sélection du nombre
d'étapes, est donc, ici, un meilleur estimateur que ne l'est la
régression linéaire.
Mais cette unique simulation ne saurait suffire, nous allons donc
en faire plusieurs autres afin de voir si cette tendance se vérifie.
|