WOW !! MUCH LOVE ! SO WORLD PEACE !
Fond bitcoin pour l'amélioration du site: 1memzGeKS7CB3ECNkzSn2qHwxU6NZoJ8o
  Dogecoin (tips/pourboires): DCLoo9Dd4qECqpMLurdgGnaoqbftj16Nvp


Home | Publier un mémoire | Une page au hasard

 > 

La régression PLS

( Télécharger le fichier original )
par Renaud Decremer
UFR Droit Economie et Administration - Université Paul VERLAINE de METZ - M1 Economie Appliquée 2006
  

précédent sommaire suivant

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy

INTRODUCTION

GENERALE

L'analyse statistique est un large domaine recouvrant des techniques d'analyse de plus en plus nombreuses. Ces nouvelles techniques se développent continuellement, pour faire face à différents problèmes. Les attentes envers ces analyses sont de plus en plus élevées, et on cherche à les rendre de plus en plus efficaces, et de plus en plus adaptées à des situations concrètes, parfois très spécifiques. Ainsi, lorsque l'on tente d'expliquer une variable par plusieurs autres variables (la première étant la variable expliquée, ou endogène, et les autres étant les variables explicatives, ou exogènes), on ne cherche pas seulement à obtenir un modèle minimisant les erreurs d'estimations des individus actifs (individus à partir desquels le modèle a été construit), on cherche également à obtenir un modèle qui soit facilement interprétable, et qui permette d'effectuer des prévisions sur des individus (ou des entrées) pour lesquels on ne connaît pas la valeur de la variable explicative. Il faut, bien évidemment, que ces prévisions soient les plus proches possibles de la réalité. Il faut également que les modèles soient stables, c'est-à-dire que les chances d'obtenir un modèle trop éloigné de la réalité soient minimales, car on ne peut pas toujours comparer les valeurs estimées aux valeurs réelles, dont on ne dispose pas (à priori), puisqu'on cherche à les estimer. Il faut parfois même que ce modèle remplisse ces conditions alors que l'on dispose de très peu d'individus actifs, alors même que le nombre de variables explicatives est très élevé, ce qui rend pourtant, d'un point de vue théorique, la construction d'un modèle, représentatif de la réalité, très délicate. C'est précisément ce à quoi tente de répondre la régression PLS.

Comme nous allons le constater tout au long de ce mémoire, la régression linéaire simple ou multiple, répondant au simple critère des MCO (moindres carrés ordinaires), est souvent prise à défaut lorsqu'il s'agit d'applications de ce type. Soit, tout simplement, parce que les conditions initiales, à cause des propriétés mêmes de cette méthode, rendent son calcul impossible, ce qui est notamment le cas lorsque le nombre de variables explicatives devient inférieur au nombre d'individus actifs, puisqu'il existe alors une infinité de solutions au problème de la minimisation du critère des MCO, toutes répondant à une égalisation à zéro de ce critère (et donc impossibles à discerner les unes des autres). Soit, sans rentrer dans des cas aussi extrêmes, parce que cette méthode est peu efficace sur des situations tendant à approcher ce cas limite. La multicolinéarité des variables explicatives pose également d'importants problèmes de stabilité de cette méthode. La régression PLS, en contournant ces problèmes, parvient à proposer des modèles parfois étonnants de précision et de stabilité, compte tenu de conditions initiales qui sont parfois, à priori, très peu propices à l'établissement d'un modèle (échantillon de taille réduite, de mauvaise qualité, grand nombre de variables explicatives, ...). C'est ce que nous allons tenter d'expliquer, et d'apprécier, au cours de ce mémoire, en comparant et en opposant les deux approches.

Dans la première partie de ce mémoire, nous présenterons et définirons la méthode. Nous exposerons les formules qui permettent de construire ce modèle. Bien que la régression PLS puisse être multivariée (c'est-à-dire avec des modèles présentant plusieurs variables explicatives) et s'appliquer sur des échantillons présentant des données manquantes, nous ne nous intéresserons qu'au cas de la régression PLS univariée sans données manquantes, notamment afin de ne pas compliquer la compréhension et l'interprétation des formules. Nous verrons également que la régression PLS étant un processus itératif, dont les résultats varient en fonction du nombre d'étapes choisies, il est nécessaire de s'intéresser à des critères, plus ou moins objectifs, permettant de retenir un certain nombre d'étapes. Dans la seconde partie, nous nous intéresserons à quelques cas « extrêmes », mettant en valeur les qualités et défauts inhérents à l'approche PLS, de sorte à permettre au lecteur de mieux cerner l'enjeu de l'utilisation correcte de cette méthode. Nous verrons également que la régression PLS, en réalité, constitue une forme de généralisation de la régression linéaire au sens des MCO, et peut s'appréhender en termes de « moindres carrés partiels » (Partial Least Squares, dont les initiales sont à l'origine de l'appellation de la méthode). Enfin, dans la troisième partie, nous ferons de vrais simulations sur des jeux de données fictives (présentant un certain degré d'aléa) afin de faire une démonstration des qualités d'estimation de la régression PLS, particulièrement dans certaines conditions, tout en expliquant comment retenir le nombre correct d'étapes au regard des critères. Nous pourrons ainsi comparer les différents modèles obtenus et nous prononcer sur l'utilité de la méthode et de l'application des critères qui lui sont indissociables, tout en nous prononçant sur l'influence des propriétés de l'échantillon.

Il est important de noter que plusieurs logiciels ont été utilisés dans le cadre de ce mémoire. Les plus utilisés ont été Microsoft Word (rédaction du mémoire) et Microsoft Excel (réalisation de divers calculs, des tableaux, et de la partie simulations) dans leurs versions 2003 et 2007. Paint a été utilisé afin de convertir les tableaux Excel au format image. Certaines équations ont été générées à l'aide du complément Microsoft Equations 3.0. Les régressions PLS ont toutes été effectuées avec StatBox Pro 6.40. Les régressions linéaires des moindres carrés ordinaires ont été effectuées avec Eviews 5.0.

précédent sommaire suivant






Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy








"Tu supportes des injustices; Consoles-toi, le vrai malheur est d'en faire"   Démocrite