V.2. Régression PLS à étapes multiples
: Compromis entre objectivité et opportunisme
L'opportunisme n'est en général pas une
qualité, sauf lorsqu'il rime avec réalisme. Cette loi vaut aussi
pour le domaine de l'économétrie.
Ainsi, le fait de dépasser la simple notion de «
covariance pure » entre Y et chaque variable explicative, et de montrer
que cette notion ne suffit pas, est le point fort de la régression
linéaire.
A deux reprises dans ce mémoire, nous avons pu observer
que la régression PLS à une seule étape était trop
loin de la réalité :
- Dans l'exemple traité dans le point IV.1. de cette
partie (page 49), nous avions nous même créé la
série Y, et elle était conçue de telle sorte à
être égale à xi -- x2. La régression PLS(1) a
testé la covariance entre Y et xi, puis entre Y et x2,
indépendamment de la considération selon
laquelle il était peut-être envisageable que xi et x2
étaient fortement corrélées entre elles et que Y pouvait
peut-être s'expliquer, non pas par les variations individuelles de xi et
x2, mais par leurs variations conjointes, c'est-à-dire par les
variations formées par l'ensemble (xi,x2). Le modèle PLS(1)
conclu alors à une relation insignifiante. Nous sommes dans le cas type
où il ne fallait justement pas maximiser la variance de ti (la variance
de Y étant pratiquement inexistante), mais se focaliser sur le
coefficient de corrélation (Y,ti). La relation était parfaite, et
on ne peut plus simple à retrouver, mais inexistante au sens de la
régression
PLS(1).
- Dans notre exemple «
Poids/Taille/Activité/Calories » du point II de cette partie (plus
exactement à la page 39 s'agissant de la régression PLS à
une seule étape), les variables « Activité physique »
et « Calories » avaient justement été
créées de sorte à expliquer les résidus de la
régression de la variable Poids sur la variable Taille. Ce fut d'autant
plus le cas de la variable Activité, qui fut créée en
première, uniquement sur base de ce critère (la variable Calories
étant volontairement corrélée au Poids et à la
Taille, sa construction dépassait ce critère).
En d'autres termes, pour expliquer décemment
l'influence de la variable Activité, il fallait raisonner «
à Taille égale », c'est-à-dire qu'il fallait
éliminer l'impact de la valeur Taille sur la valeur Poids,
c'est-à-dire à prendre en considération les résidus
de la régression « Poids sur Taille ». Hors, la
régression PLS(1) ne tient pas compte de ces éléments.
Elle a simplement relevé le fait que la variable Activité
était très peu corrélée à la variable Taille
(positivement), et a donc affecté un coefficient très faible
à cette variable dans le modèle (et s'est par la même
occasion trompée sur le signe de la relation).
La régression linéaire, elle, n'est pas
tombée dans le piège, et a remarqué qu'en affectant un
coefficient plus important à la variable Taille, et en affectant un
coefficient élevé et négatif à la variable
Activité, on arrivait à un meilleur résultat.
C'était le résultat espéré, puisqu'il rend
nettement mieux compte des conditions qui sont à la base de la
création des variables.
Dans ces deux cas, on peut être pratiquement sûr
que si on avait créé d'autres individus satisfaisants aux
mêmes conditions que les individus actifs, ils auraient été
nettement mieux prédits par le modèle de régression
linéaire.
Partie 2 : Utilisation de la régression PLS sur des
cas limites Je vois principalement deux enseignements à tirer de
ces exemples :
- Considérer des relations «
séparées » entre une variable expliquée et des
variables explicatives ne revient pas au même que de considérer la
relation liant la variable expliquée à l'ensemble des
variables explicatives. Les deux analyses se distinguent l'une de l'autre
dès lors qu'il existe des relations liant les variables explicatives
entre elles. La régression PLS(1), en tenant des analyses
séparées, n'est pas toujours capable de rendre compte de la
réalité.
Cette explication est parfaitement illustrée par
l'exemple où Y = x1 -- x2. Y ne peut ni s'expliquer par x1 ni par x2,
mais par l'ensemble des deux, c'est-à-dire par la meilleure combinaison
linéaire possible de x1 et x2 capable d'expliquer Y, en l'occurrence
(dans le cas présent) la différence entre x1 et x2.
- Il existe une différence notable entre «
corrélation simple » et « corrélation partielle ».
La corrélation simple mesure le pourcentage de variation conjointe de
deux variables sans tenir compte de l'influence possibles d'autres facteurs. La
corrélation partielle mesure le pourcentage de variation conjointe de
deux variables « toute chose étant égale par ailleurs
». C'est-à-dire qu'elle cherche à mesurer l'influence de la
variation d'une variable sur la variation d'une autre variable, les autres
variables étant fixées. La régression PLS à une
seule étape ne s'intéresse qu'à la corrélation
simple, alors que la régression linéaire, en cherchant à
passer au plus près du nuage de points, est forcée de prendre en
compte les relations entre variables explicatives, et les coefficients qui en
découlent sont donc conditionnés par les corrélations
partielles entre les variables explicatives et la variable expliquée.
C'est particulièrement le cas dans l'exemple «
Poids/Taille/Activité/Calories », où la variable
Activité présente un coefficient de corrélation non
significatif avec la variable Taille, mais où la corrélation
partielle Poids/Activité, notamment pour Taille fixée, est
très élevée et négative, ce qui se ressent dans le
coefficient affecté par la régression linéaire, mais
absolument pas dans le coefficient affecté par la régression
PLS(1).
Pour ces raisons, on peut dire que la régression PLS(1)
est irréaliste, et a de fortes chances d'être surpassée par
la régression linéaire, que ce soit en termes d'explication des
individus actifs, ou en termes de prévisions d'autres individus.
Dans la majorité des cas, la régression PLS(1)
n'est donc pas suffisante. Faut-il pour autant se rabattre
systématiquement sur la régression linéaire, sachant que
les étapes supplémentaires ne sont que des compromis entre une
régression PLS(1) irréaliste et une régression
linéaire rendant mieux compte des relations entre les variables ?
Ce n'est pas forcément le cas. En fait, en augmentant le
nombre d'étapes de la régression PLS, on vise essentiellement
à mieux rendre compte de la réalité, en prenant
en compte en premier lieu les relations les plus objectives
entre les variables. Dès lors que l'on passe à l'étape 2,
et que l'on se rend compte que des covariances demeurent dans les
résidus ignorés par l'étape 1, on en est indirectement
amené à prendre en compte les relations entre les variables
explicatives (puisque les résidus de la régression de chaque
variable explicative sur ti sont conditionnés par les relations
existantes entre les autres variables et ti, puisqu'elles ont elle aussi
contribué à sa formation).
Mais cette prise en compte se fait progressivement,
étape par étape, en privilégiant les relations les plus
objectives, et non les plus « marginales », qui ne conduisent
qu'à un surparamétrage du modèle en cherchant à
prendre en compte des relations qui n'existent pas vraiment. On arrive donc
ainsi à isoler, avec plus ou moins d'efficacité, la partie
purement « opportuniste » d'une régression linéaire.
Le but est de s'arrêter à la bonne étape,
avant que n'ait lieu le phénomène de surparamétrage. La
régression PLS n'est en fait qu'une sorte de régression
linéaire par des « moindres carrés contraints », la
contrainte étant plus ou moins renforcée selon le nombre
d'étapes.
Cette contrainte génère alors un biais dans le
modèle. On entend par là que l'espérance de l'estimateur
diverge de la moyenne observée sur la population (pour les valeurs de la
variable expliquée). Les moindres carrés ordinaires constituent
les « meilleurs estimateurs linéaire non biaisés » (on
les appelle aussi « B.L.U.E. », qui vient de la traduction
anglaise « Best Linear Unbiased Estimators »). Quand on
cherche à comparer deux estimateurs non-biaisés, on dit que le
meilleur est celui qui présente la variance la plus faible. C'est le cas
des M.C.O. Néanmoins, cela n'exclu pas la possibilité de trouver
un estimateur biaisé qui soit meilleur. C'est précisément
ce qu'on cherche à déterminer en régression PLS.
Cela peut paraître impossible, la méthode des
moindres carrés ordinaires étant celle qui, par
définition, minimise la somme des résidus au carré... Mais
il faut savoir que l'on cherche, non pas à prédire au mieux les
valeurs des individus actifs (ce qui est inutile en soit, puisqu'elles sont
connues), mais à estimer les valeurs que sont sensés prendre
d'autres individus pour la variable expliquée, en fonction des valeurs
(connues) qu'ils présentent au niveau des variables explicatives.
Il s'agit donc d'effectuer de l'estimation, et non d'expliquer
au mieux des relations sur des individus que l'on connaît
déjà. Dans ce contexte, le surparamétrage qui
résulte du critère de la régression linéaire est
à éviter.
L'autre avantage de la régression PLS réside
dans une plus grande lisibilité du modèle. Les coefficients
étant plus stables (pour autant que le bon nombre d'étapes ait
été retenu), l'interprétation du modèle en est
rendu plus aisé. En cas de régression linéaire par les
M.C.O. sur des variables fortement corrélées, et
particulièrement sur un faible nombre d'individus actifs, on doit faire
face à une grande instabilité des coefficients,
plusieurs relations faisant intervenir des combinaisons de
coefficient très variées donnant des résultats très
proches. Dans ce contexte, il devient impossible de tenir une
interprétation correcte du modèle.
Quoi qu'il en soit, la question que l'on doit se poser,
généralement, lorsque l'on tente d'établir une analyse,
est la suivante « Comment un obtenir un modèle, formé
à partir d'un échantillon plus ou moins réduit, qui soit
représentatif de la population mère ? ».
C'est ce que nous allons tenter d'établir dans la
prochaine partie. Nous allons avoir l'occasion de construire des modèles
sur base d'un échantillon, d'en choisir un, avant de le tester sur le
reste de la population mère, et de vérifier le bienfondé
de ce choix, en comparant ses résultats à ceux des autres
modèles.
Passons donc, sans plus attendre, à la partie «
Simulations ».
|