WOW !! MUCH LOVE ! SO WORLD PEACE !
Fond bitcoin pour l'amélioration du site: 1memzGeKS7CB3ECNkzSn2qHwxU6NZoJ8o
  Dogecoin (tips/pourboires): DCLoo9Dd4qECqpMLurdgGnaoqbftj16Nvp


Home | Publier un mémoire | Une page au hasard

 > 

La régression PLS

( Télécharger le fichier original )
par Renaud Decremer
UFR Droit Economie et Administration - Université Paul VERLAINE de METZ - M1 Economie Appliquée 2006
  

précédent sommaire suivant

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy

V.2. Régression PLS à étapes multiples : Compromis entre objectivité et opportunisme

L'opportunisme n'est en général pas une qualité, sauf lorsqu'il rime avec réalisme. Cette loi vaut aussi pour le domaine de l'économétrie.

Ainsi, le fait de dépasser la simple notion de « covariance pure » entre Y et chaque variable explicative, et de montrer que cette notion ne suffit pas, est le point fort de la régression linéaire.

A deux reprises dans ce mémoire, nous avons pu observer que la régression PLS à une seule étape était trop loin de la réalité :

- Dans l'exemple traité dans le point IV.1. de cette partie (page 49), nous avions nous
même créé la série Y, et elle était conçue de telle sorte à être égale à xi -- x2. La
régression PLS(1) a testé la covariance entre Y et xi, puis entre Y et x2,

indépendamment de la considération selon laquelle il était peut-être envisageable que xi et x2 étaient fortement corrélées entre elles et que Y pouvait peut-être s'expliquer, non pas par les variations individuelles de xi et x2, mais par leurs variations conjointes, c'est-à-dire par les variations formées par l'ensemble (xi,x2). Le modèle PLS(1) conclu alors à une relation insignifiante. Nous sommes dans le cas type où il ne fallait justement pas maximiser la variance de ti (la variance de Y étant pratiquement inexistante), mais se focaliser sur le coefficient de corrélation (Y,ti). La relation était parfaite, et on ne peut plus simple à retrouver, mais inexistante au sens de la régression

PLS(1).

- Dans notre exemple « Poids/Taille/Activité/Calories » du point II de cette partie (plus exactement à la page 39 s'agissant de la régression PLS à une seule étape), les variables « Activité physique » et « Calories » avaient justement été créées de sorte à expliquer les résidus de la régression de la variable Poids sur la variable Taille. Ce fut d'autant plus le cas de la variable Activité, qui fut créée en première, uniquement sur base de ce critère (la variable Calories étant volontairement corrélée au Poids et à la Taille, sa construction dépassait ce critère).

En d'autres termes, pour expliquer décemment l'influence de la variable Activité, il fallait raisonner « à Taille égale », c'est-à-dire qu'il fallait éliminer l'impact de la valeur Taille sur la valeur Poids, c'est-à-dire à prendre en considération les résidus de la régression « Poids sur Taille ». Hors, la régression PLS(1) ne tient pas compte de ces éléments. Elle a simplement relevé le fait que la variable Activité était très peu corrélée à la variable Taille (positivement), et a donc affecté un coefficient très faible à cette variable dans le modèle (et s'est par la même occasion trompée sur le signe de la relation).

La régression linéaire, elle, n'est pas tombée dans le piège, et a remarqué qu'en affectant un coefficient plus important à la variable Taille, et en affectant un coefficient élevé et négatif à la variable Activité, on arrivait à un meilleur résultat. C'était le résultat espéré, puisqu'il rend nettement mieux compte des conditions qui sont à la base de la création des variables.

Dans ces deux cas, on peut être pratiquement sûr que si on avait créé d'autres individus satisfaisants aux mêmes conditions que les individus actifs, ils auraient été nettement mieux prédits par le modèle de régression linéaire.

Partie 2 : Utilisation de la régression PLS sur des cas limites Je vois principalement deux enseignements à tirer de ces exemples :

- Considérer des relations « séparées » entre une variable expliquée et des variables explicatives ne revient pas au même que de considérer la relation liant la variable expliquée à l'ensemble des variables explicatives. Les deux analyses se distinguent l'une de l'autre dès lors qu'il existe des relations liant les variables explicatives entre elles. La régression PLS(1), en tenant des analyses séparées, n'est pas toujours capable de rendre compte de la réalité.

Cette explication est parfaitement illustrée par l'exemple où Y = x1 -- x2. Y ne peut ni s'expliquer par x1 ni par x2, mais par l'ensemble des deux, c'est-à-dire par la meilleure combinaison linéaire possible de x1 et x2 capable d'expliquer Y, en l'occurrence (dans le cas présent) la différence entre x1 et x2.

- Il existe une différence notable entre « corrélation simple » et « corrélation partielle ». La corrélation simple mesure le pourcentage de variation conjointe de deux variables sans tenir compte de l'influence possibles d'autres facteurs. La corrélation partielle mesure le pourcentage de variation conjointe de deux variables « toute chose étant égale par ailleurs ». C'est-à-dire qu'elle cherche à mesurer l'influence de la variation d'une variable sur la variation d'une autre variable, les autres variables étant fixées. La régression PLS à une seule étape ne s'intéresse qu'à la corrélation simple, alors que la régression linéaire, en cherchant à passer au plus près du nuage de points, est forcée de prendre en compte les relations entre variables explicatives, et les coefficients qui en découlent sont donc conditionnés par les corrélations partielles entre les variables explicatives et la variable expliquée.

C'est particulièrement le cas dans l'exemple « Poids/Taille/Activité/Calories », où la variable Activité présente un coefficient de corrélation non significatif avec la variable Taille, mais où la corrélation partielle Poids/Activité, notamment pour Taille fixée, est très élevée et négative, ce qui se ressent dans le coefficient affecté par la régression linéaire, mais absolument pas dans le coefficient affecté par la régression PLS(1).

Pour ces raisons, on peut dire que la régression PLS(1) est irréaliste, et a de fortes chances d'être surpassée par la régression linéaire, que ce soit en termes d'explication des individus actifs, ou en termes de prévisions d'autres individus.

Dans la majorité des cas, la régression PLS(1) n'est donc pas suffisante. Faut-il pour autant se rabattre systématiquement sur la régression linéaire, sachant que les étapes supplémentaires ne sont que des compromis entre une régression PLS(1) irréaliste et une régression linéaire rendant mieux compte des relations entre les variables ?

Ce n'est pas forcément le cas. En fait, en augmentant le nombre d'étapes de la
régression PLS, on vise essentiellement à mieux rendre compte de la réalité, en prenant

en compte en premier lieu les relations les plus objectives entre les variables. Dès lors que l'on passe à l'étape 2, et que l'on se rend compte que des covariances demeurent dans les résidus ignorés par l'étape 1, on en est indirectement amené à prendre en compte les relations entre les variables explicatives (puisque les résidus de la régression de chaque variable explicative sur ti sont conditionnés par les relations existantes entre les autres variables et ti, puisqu'elles ont elle aussi contribué à sa formation).

Mais cette prise en compte se fait progressivement, étape par étape, en privilégiant les relations les plus objectives, et non les plus « marginales », qui ne conduisent qu'à un surparamétrage du modèle en cherchant à prendre en compte des relations qui n'existent pas vraiment. On arrive donc ainsi à isoler, avec plus ou moins d'efficacité, la partie purement « opportuniste » d'une régression linéaire.

Le but est de s'arrêter à la bonne étape, avant que n'ait lieu le phénomène de surparamétrage. La régression PLS n'est en fait qu'une sorte de régression linéaire par des « moindres carrés contraints », la contrainte étant plus ou moins renforcée selon le nombre d'étapes.

Cette contrainte génère alors un biais dans le modèle. On entend par là que l'espérance de l'estimateur diverge de la moyenne observée sur la population (pour les valeurs de la variable expliquée). Les moindres carrés ordinaires constituent les « meilleurs estimateurs linéaire non biaisés » (on les appelle aussi « B.L.U.E. », qui vient de la traduction anglaise « Best Linear Unbiased Estimators »). Quand on cherche à comparer deux estimateurs non-biaisés, on dit que le meilleur est celui qui présente la variance la plus faible. C'est le cas des M.C.O. Néanmoins, cela n'exclu pas la possibilité de trouver un estimateur biaisé qui soit meilleur. C'est précisément ce qu'on cherche à déterminer en régression PLS.

Cela peut paraître impossible, la méthode des moindres carrés ordinaires étant celle qui, par définition, minimise la somme des résidus au carré... Mais il faut savoir que l'on cherche, non pas à prédire au mieux les valeurs des individus actifs (ce qui est inutile en soit, puisqu'elles sont connues), mais à estimer les valeurs que sont sensés prendre d'autres individus pour la variable expliquée, en fonction des valeurs (connues) qu'ils présentent au niveau des variables explicatives.

Il s'agit donc d'effectuer de l'estimation, et non d'expliquer au mieux des relations sur des individus que l'on connaît déjà. Dans ce contexte, le surparamétrage qui résulte du critère de la régression linéaire est à éviter.

L'autre avantage de la régression PLS réside dans une plus grande lisibilité du modèle. Les coefficients étant plus stables (pour autant que le bon nombre d'étapes ait été retenu), l'interprétation du modèle en est rendu plus aisé. En cas de régression linéaire par les M.C.O. sur des variables fortement corrélées, et particulièrement sur un faible nombre d'individus actifs, on doit faire face à une grande instabilité des coefficients,

plusieurs relations faisant intervenir des combinaisons de coefficient très variées donnant des résultats très proches. Dans ce contexte, il devient impossible de tenir une interprétation correcte du modèle.

Quoi qu'il en soit, la question que l'on doit se poser, généralement, lorsque l'on tente d'établir une analyse, est la suivante « Comment un obtenir un modèle, formé à partir d'un échantillon plus ou moins réduit, qui soit représentatif de la population mère ? ».

C'est ce que nous allons tenter d'établir dans la prochaine partie. Nous allons avoir l'occasion de construire des modèles sur base d'un échantillon, d'en choisir un, avant de le tester sur le reste de la population mère, et de vérifier le bienfondé de ce choix, en comparant ses résultats à ceux des autres modèles.

Passons donc, sans plus attendre, à la partie « Simulations ».

précédent sommaire suivant






Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy








"Et il n'est rien de plus beau que l'instant qui précède le voyage, l'instant ou l'horizon de demain vient nous rendre visite et nous dire ses promesses"   Milan Kundera