V.1. Régression PLS et MCO : Différence entre
objectivité et opportunisme
La régression linéaire, en cherchant «
à tout prix » à passer au plus près du nuage de
points, peut-être amenée à effectuer une sorte de «
surparamétrage » et à livrer une explication qui finalement
ne rend plus compte des caractéristiques des variables explicatives, et
de leur réel pouvoir d'explication de la variable endogène*.
C'est particulièrement le cas lorsque les variables
explicatives sont fortement corrélées entre-elles, et que le
nombre d'observations (individus) est faible. A ce moment là, il existe
une multitude de modèles possibles permettant de passer assez
près du nuage de points, avec des combinaisons de coefficients
très variables. Les coefficients associés au modèle «
optimal » (celui retenu au sens des MCO) deviennent alors très
instables, car une faible variation aléatoire des séries (on
appelle cela « bruiter » les données) peut engendrer de fortes
variations des coefficients, rendant par la même occasion le
modèle presque impossible à interpréter dès lors
que l'on prend en compte l'importance de l'instabilité des
coefficients.
55
Le fait que le nombre d'individus soit faible aggrave ce
phénomène de surparamétrage7 dans la mesure
où un nombre d'individus qui n'est pas significativement
supérieur au nombre de variables a tendance à engendrer un
ajustement parfait ou quasi-parfait du modèle, qui bien sûr ne
peut rendre compte du potentiel réel de prédiction du
modèle (au-delà des individus actifs). On se retrouve donc, dans
de pareilles circonstances, avec un modèle sur-ajusté, trop
opportuniste car cherchant à tout prix à expliquer la variance de
Y, au détriment des relations objectives liant Y aux autres variables
individuellement, et, par la même occasion, au détriment de la
stabilité des coefficients.
D'ailleurs, ces deux problèmes, à savoir
multicolinéarité des variables et faiblesse du nombre
d'individus, trouvent leur cas limite mathématiquement, puisqu'il est
impossible de pratiquer une régression linéaire lorsqu'une des
variables est combinaison linéaire des autres (c'est-à-dire qu'on
assiste à la présence d'une relation linéaire exacte liant
les variables, ce qui constitue en fait un cas extrême de
corrélation des variables entre elles), et puisqu'il est
également impossible de pratique une régression linéaire
dès lors que le nombre d'individus devient inférieur au nombre de
variables.
D'ailleurs, ces deux problèmes, à savoir
multicolinéarité des variables et faiblesse du nombre
d'individus, trouvent leur cas limite mathématiquement, puisqu'il est
impossible de pratiquer une régression linéaire lorsqu'une des
variables est combinaison linéaire des autres (c'est-à-dire qu'on
assiste à la présence d'une relation linéaire exacte liant
les variables, ce qui constitue en fait un cas extrême de
corrélation des variables entre elles), et puisqu'il est
également impossible de pratique une régression linéaire
dès lors que le nombre d'individus devient inférieur au nombre de
variables (si c'est le cas, il existe alors une infinité de combinaisons
permettant d'atteindre un modèle expliquant 100% de la variance de
Y).
La régression PLS, à l'étape 1 du moins,
elle, ne souffre pas de ces problèmes. Elle isole les variables
explicatives dans leur capacité à expliquer Y. On obtient ainsi
un modèle décrivant une relation « factuelle »,
objective, entre Y et les variables explicatives, isolée de toute prise
en compte des relations liant les variables explicatives entre elles.
La multicolinéarité n'est alors plus un
problème car les coefficients ne sont pas influencés par les
relations entre les variables explicatives. De même, on peut alors se
permettre de travailler sur un échantillon où les individus sont
inférieurs au nombre de variables explicatives, puisque tout ce qui
importe est désormais de dégager les différentes
covariances entre Y et les différentes variables explicatives, ce qui
est toujours possible dès lors qu'il y a au moins 2 individus et que Y
varie un minimum (une variable ne variant pas ne covarie pas non plus, et il
est alors impossible de
~Le terme surparamétrage désignant un
phénomène selon lequel le modèle tente de modéliser
les fractions les moins objectives de l'ensemble formé par les variables
explicatives. On peut simplifier cette assertion en disant qu'il y a
surparamétrage dès lors que le modèle prend en compte les
« erreurs » dans ses estimations.
s'exprimer quant aux relations qui régissent sa variance).
Contrairement à la régression linéaire, cela nous donne un
résultat unique.
Il y a donc deux choses qui, notamment en étant
réunies, peuvent faire coïncider, plus ou moins fortement, les
résultats de la régression linéaire et de la
régression PLS à une seule étape :
- Un nombre considérable d'individus actifs en comparaison
avec le nombre de variables actives.
- Une faible multicolinéarité des variables
explicatives.
Un nombre important d'individus actifs a fortement tendance
à réduire les possibilités de surparamétrage
opportuniste de la régression linéaire. Il faut alors que le
modèle détermine une relation capable d'expliquer l'ensemble du
nuage de points, forcément d'autant plus représentatif d'une
population globale que ne l'est un échantillon plus réduit. Les
probabilités d'erreurs sont alors plus faibles. Les individus atypiques,
au sein de l'échantillon, sont « noyés dans la masse »,
et ont d'ailleurs généralement tendance à se compenser.
Dans ces conditions, il devient inutile, lorsqu'on cherche à minimiser
la somme du carré des résidus, de s'attarder à expliquer
des individus qui présentent des caractéristiques incompatibles
avec « la moyenne », sous peine de voir l'ensemble des
prévisions devenir complètement faussées.
Une faible multicolinéarité des variables
explicatives fait mécaniquement converger les deux méthodes. La
régression linéaire, qui normalement prend en compte les
relations entre les variables explicatives, en devient réduite à
obtenir un résultat similaire à celui d'une régression PLS
à une étape (qui ne prend pas en compte ces relations), ces
relations étant inexistantes.
|