X. Les critères liés à la covariance
composante - variable expliquée
Chaque étape de la régression PLS peut se
résumer comme étant le produit de la maximisation de la
covariance (au carré, car ce qui importe, c'est la covariance en valeur
absolue) entre la variable à expliquer (ou les résidus de la
projection de celle-ci sur le modèle tel qu'il était à
l'étape précédente) et la nouvelle composante, avec pour
contrainte que celle-ci soit formée linéairement à partir
des variables explicatives (ou des résidus de leur projection sur le
modèle tel qu'il était à l'étape
précédente), la somme des coefficients au carré
(associés à chaque variable explicative) étant
égale à 1.
Nous reviendrons sur ce critère lors de la deuxième
partie de ce mémoire, lorsque nous comparerons l'approche PLS et
l'approche des MCO.
Cette covariance au carré, peut s'écrire,
à la première étape « Cov2(Y,ti) » (Y
étant la variable expliquée). Il s'agit en réalité
du produit du coefficient de détermination entre Y et ti
(R2(Y,ti)) et de la variance de ti. Dit autrement :
Cov2(Y,ti) = R2(Y,ti)*Var(ti). Il s'agit donc de
maximiser ce produit, en jouant sur les deux termes, qui sont les deux
critères que nous allons retenir dans le cadre du choix du nombre de
composantes.
Le premier terme, R2(Y,ti), n'est autre que le
critère normal que l'on cherche à maximiser lorsque l'on effectue
une régression linéaire multiple au sens des MCO. Il s'agit en
réalité de la faculté « pure » du modèle
à prédire la variable Y sur les individus actifs5. Il
est donc important que les composantes retenues apportent toutes une part
significative en termes de corrélation par rapport à la variable
Y, sous peine de risquer de n'avoir aucune vertu explicative.
Le second terme, Var(ti), représente, en quelques
sortes, la fraction de la structure interne de l'ensemble formé par les
variables explicatives (ensemble X) expliquée par la composante ti, Il
s'agit donc de la prise en compte de la structure propre à l'ensemble X,
et, en lui-même, ce terme n'a pas vocation à expliquer la variable
Y.
5 On entend, par individus actifs, les individus se
trouvant à la base de la création du modèle.
Chaque composante répond donc au compromis d'expliquer
au mieux la fraction de la variance de Y non prise en compte par les
composantes précédentes, tout en rendant au mieux compte de ce
qui est propre à l'ensemble des variables explicatives et qui n'a pas
encore été pris en compte par les composantes
précédentes.
Ces deux critères doivent être les plus
élevés possibles s'agissant des composantes retenues.
L'idéal est que les deux, pour toute composante retenue, soient
significatifs. Mais, parfois, on peut justifier la conservation d'une
étape supplémentaire sur base d'un seul des deux critères.
Le tout est de comparer ce qu'apporte chaque composante supplémentaire
par rapport à ce qu'il reste à expliquer, sachant que chaque
critère, pris individuellement, peut être plus élevé
pour des étapes pourtant précédées par d'autres
étapes pour lequel le critère est moins élevé.
Il se peut donc même, parfois, qu'il soit
nécessaire de retenir une étape intermédiaire dans le but
d'être en mesure de retenir les étapes qui la suivent, même
si cette étape, en elle-même, au regard des critères pris
isolément, n'est pas suffisamment significative que pour justifier sa
retenue. Par exemple, la 3ème étape peut sembler
non-significative, mais si la 4ème étape l'est
davantage au regard de l'un des deux critères, il est
préférable de se poser la question de retenir les 4
premières étapes, et dans ce cas on ne pourra pas passer outre la
3ème. Mais dans ce cas, il faut être sûr que
l'importance de la 4ème étape est capitale au regard
de ce qu'il reste à expliquer.
Ces précisions étant faites, il est maintenant
temps de passer à la seconde partie, durant laquelle nous allons pouvoir
mettre en oeuvre la méthode et l'appliquer à des cas simples,
atypiques et extrêmes, permettant de mieux comprendre
l'intérêt de la méthode et de mieux cerner les
pièges à éviter.
|