WOW !! MUCH LOVE ! SO WORLD PEACE !
Fond bitcoin pour l'amélioration du site: 1memzGeKS7CB3ECNkzSn2qHwxU6NZoJ8o
  Dogecoin (tips/pourboires): DCLoo9Dd4qECqpMLurdgGnaoqbftj16Nvp


Home | Publier un mémoire | Une page au hasard

 > 

La régression PLS

( Télécharger le fichier original )
par Renaud Decremer
UFR Droit Economie et Administration - Université Paul VERLAINE de METZ - M1 Economie Appliquée 2006
  

précédent sommaire suivant

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy

PARTIE 2

Utilisation de la régression

PLS sur des cas limites

Nous allons tout d'abord nous attaquer au cas le plus simple, c'est-à-dire celui de l'application de la régression PLS univariée sur un modèle à une variable explicative.

I. Régression PLS avec une seule variable explicative

Prenons un tableau de données simples et fictives, avec deux variables : le poids et la taille. On essaye d'expliquer le poids en fonction de la taille.

La covariance entre ces deux variables est de 87,36, le coefficient de corrélation (R) est de 89,84%, et le coefficient de détermination (R2) est de 80,71%.

Comme il n'y a qu'une seule variable explicative (la taille), la régression PLS ne comportera pas plus d'une étape.

Si on effectue une régression PLS sur les variables centrées-réduites (pour chaque donnée de la série, on retranche la moyenne de la série, et on divise la différence par l'écart-type de la série), cela nous donne la relation suivante :

Poidscr = 0,898*Taillecr

Où Poidscr et Taillecr sont respectivement les séries des données des séries Poids et Taille centrées-réduites.

Sur les données non-centrées et non-réduites, avec l'intégration d'une constante, la relation est la suivante :

Poids = 1,045*Taille -- 110,831

Dans un cas comme dans l'autre, le coefficient de détermination (R2) de la régression vaut approximativement 0,81.

Voyons donc comment utiliser ce modèle. Prenons une taille au hasard : 180 cm.

Le modèle avec variables non-centrées et non-réduites s'applique directement. Le poids de cet individu de 180cm devrait donc être de 1,045*180 -- 110,831 = 77,27 kg approximativement. Bien entendu, il s'agit de la valeur extrapolée par le modèle, qui est théorique. Il y a une marge d'erreur, mais le fait que le coefficient de corrélation soit assez élevé (81%) laisse présager d'une assez bonne capacité à prédire du modèle.

Concernant le modèle « centré-réduit », il faut d'abord centrer et réduire les la valeur « 180cm » en utilisant la moyenne et l'écart type calculés sur la série « Taille » (même si cette série ne comprend pas cette valeur) : (180-172,2)/9,14 = 0,8534...

Pour cette valeur, la variable « Poidscr » prend donc la valeur 0,898*0,8534, soit 0,7664... Pour obtenir le Poids non centré et non réduit, il faut multiplier cette valeur par l'écart-type de la série Poids et y ajouter la moyenne de la série : 0,7664*10,64 + 69,2 = 77,35 kg. Naturellement, ce « 77,35 kg » calculé à l'aide de ce modèle devrait être égal à la valeur calculée par le modèle précédent. La différence s'explique par des erreurs d'arrondis. Il aurait fallu prendre davantage de décimales en compte pour arriver au même résultat.

Ces deux modèles donnent donc exactement les mêmes résultats. Le premier permet simplement un calcul plus direct, plus rapide et plus simple, de même qu'une interprétation plus rapide.

Si on s'attarde sur le coefficient de détermination de la régression (0,81), on s'aperçoit qu'il est strictement égal au coefficient de détermination entre les deux variables (Poids et Taille). Cela veut dire que la régression prend en compte de manière optimale la corrélation entre les deux variables. Hors, c'est également le cas lorsqu'on effectue une régression linéaire simple, où le R2 de la régression est égal au R2 entre la variable explicative et la variable expliquée (lorsque les variables sont centrées ou qu'une constante a été intégrée). Hors, il ne peut pas exister deux résultats différents (deux séries de coefficients différents), pour une régression de ce type, qui aboutiraient au meilleur coefficient de détermination possible pour cette analyse. Donc, cela veut nécessairement dire que les coefficients trouvés sont les mêmes que les coefficients qui auraient été trouvés dans le cadre d'une régression linéaire simple.

En effet, si on effectue une régression linéaire simple, c'est-à-dire si on cherche à calculer les coefficients « a » et « b » par régression linéaire simple sur un modèle du type Poids = a*Taille + b, on obtient les résultats suivants :

,

36

87

a Cov(Poids, aille ) Var( aille)

1,0455

83,56

37

Y ax b b Y ax 69,2 --1,0455 *172, 2 b 110 , 8351

On a donc finalement le modèle suivant : Poids = 1,0455*Taille -- 110,8351

On constate donc, à quelques décimales près là encore, que les modèles sont identiques.

Si on fait la régression linéaire simple sans constante, mais avec variables centrées - réduites, on obtient les mêmes résultats que pour la régression PLS à une composante sur variables centrées-réduites. Nous ne détaillerons pas les calculs mais le résultat donné par Eviews 5.0 pour une telle régression (régression linéaire simple sur variables centrées-réduites) est le suivant : Poidscr = 0,898394*Taillecr.

Dans les deux cas, les modèles donnent les mêmes résultats.

Il faut néanmoins se garder d'affirmer qu'une régression PLS et une régression linéaire donnent forcément les mêmes résultats. Néanmoins, on constate ici qu'une régression linéaire simple (avec centrage des données ou constante), et qu'une régression PLS à une étape pour une seule variable explicative (avec centrage des données ou constante), donnent les mêmes résultats. Comme il n'y a qu'une seule étape possible lorsqu'il n'y a qu'une seule variable, nous pouvons dire que régression PLS1 pour une seule variable explicative et régression linéaire simple (ou régression linéaire multiple à une seule variable explicative) donnent les mêmes résultats et s'équivalent donc en tout points (si ce n'est pas la différence d'approche pour ce qui en est des calculs).

Nous allons essayer de voir sous quelles conditions une régression PLS (à plus d'une variable explicative) et une régression linéaire multiple peuvent donner les mêmes résultats.

précédent sommaire suivant






Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy








"Il ne faut pas de tout pour faire un monde. Il faut du bonheur et rien d'autre"   Paul Eluard