WOW !! MUCH LOVE ! SO WORLD PEACE !
Fond bitcoin pour l'amélioration du site: 1memzGeKS7CB3ECNkzSn2qHwxU6NZoJ8o
  Dogecoin (tips/pourboires): DCLoo9Dd4qECqpMLurdgGnaoqbftj16Nvp


Home | Publier un mémoire | Une page au hasard

 > 

La régression PLS

( Télécharger le fichier original )
par Renaud Decremer
UFR Droit Economie et Administration - Université Paul VERLAINE de METZ - M1 Economie Appliquée 2006
  

précédent sommaire suivant

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy

X. Les critères liés à la covariance composante - variable expliquée

Chaque étape de la régression PLS peut se résumer comme étant le produit de la maximisation de la covariance (au carré, car ce qui importe, c'est la covariance en valeur absolue) entre la variable à expliquer (ou les résidus de la projection de celle-ci sur le modèle tel qu'il était à l'étape précédente) et la nouvelle composante, avec pour contrainte que celle-ci soit formée linéairement à partir des variables explicatives (ou des résidus de leur projection sur le modèle tel qu'il était à l'étape précédente), la somme des coefficients au carré (associés à chaque variable explicative) étant égale à 1.

Nous reviendrons sur ce critère lors de la deuxième partie de ce mémoire, lorsque nous comparerons l'approche PLS et l'approche des MCO.

Cette covariance au carré, peut s'écrire, à la première étape « Cov2(Y,ti) » (Y étant la variable expliquée). Il s'agit en réalité du produit du coefficient de détermination entre Y et ti (R2(Y,ti)) et de la variance de ti. Dit autrement : Cov2(Y,ti) = R2(Y,ti)*Var(ti). Il s'agit donc de maximiser ce produit, en jouant sur les deux termes, qui sont les deux critères que nous allons retenir dans le cadre du choix du nombre de composantes.

Le premier terme, R2(Y,ti), n'est autre que le critère normal que l'on cherche à maximiser lorsque l'on effectue une régression linéaire multiple au sens des MCO. Il s'agit en réalité de la faculté « pure » du modèle à prédire la variable Y sur les individus actifs5. Il est donc important que les composantes retenues apportent toutes une part significative en termes de corrélation par rapport à la variable Y, sous peine de risquer de n'avoir aucune vertu explicative.

Le second terme, Var(ti), représente, en quelques sortes, la fraction de la structure interne de l'ensemble formé par les variables explicatives (ensemble X) expliquée par la composante ti, Il s'agit donc de la prise en compte de la structure propre à l'ensemble X, et, en lui-même, ce terme n'a pas vocation à expliquer la variable Y.

5 On entend, par individus actifs, les individus se trouvant à la base de la création du modèle.

Chaque composante répond donc au compromis d'expliquer au mieux la fraction de la variance de Y non prise en compte par les composantes précédentes, tout en rendant au mieux compte de ce qui est propre à l'ensemble des variables explicatives et qui n'a pas encore été pris en compte par les composantes précédentes.

Ces deux critères doivent être les plus élevés possibles s'agissant des composantes retenues. L'idéal est que les deux, pour toute composante retenue, soient significatifs. Mais, parfois, on peut justifier la conservation d'une étape supplémentaire sur base d'un seul des deux critères. Le tout est de comparer ce qu'apporte chaque composante supplémentaire par rapport à ce qu'il reste à expliquer, sachant que chaque critère, pris individuellement, peut être plus élevé pour des étapes pourtant précédées par d'autres étapes pour lequel le critère est moins élevé.

Il se peut donc même, parfois, qu'il soit nécessaire de retenir une étape intermédiaire dans le but d'être en mesure de retenir les étapes qui la suivent, même si cette étape, en elle-même, au regard des critères pris isolément, n'est pas suffisamment significative que pour justifier sa retenue. Par exemple, la 3ème étape peut sembler non-significative, mais si la 4ème étape l'est davantage au regard de l'un des deux critères, il est préférable de se poser la question de retenir les 4 premières étapes, et dans ce cas on ne pourra pas passer outre la 3ème. Mais dans ce cas, il faut être sûr que l'importance de la 4ème étape est capitale au regard de ce qu'il reste à expliquer.

Ces précisions étant faites, il est maintenant temps de passer à la seconde partie, durant laquelle nous allons pouvoir mettre en oeuvre la méthode et l'appliquer à des cas simples, atypiques et extrêmes, permettant de mieux comprendre l'intérêt de la méthode et de mieux cerner les pièges à éviter.

précédent sommaire suivant






Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy








"Un démenti, si pauvre qu'il soit, rassure les sots et déroute les incrédules"   Talleyrand