WOW !! MUCH LOVE ! SO WORLD PEACE !
Fond bitcoin pour l'amélioration du site: 1memzGeKS7CB3ECNkzSn2qHwxU6NZoJ8o
  Dogecoin (tips/pourboires): DCLoo9Dd4qECqpMLurdgGnaoqbftj16Nvp


Home | Publier un mémoire | Une page au hasard

 > 

La régression PLS

( Télécharger le fichier original )
par Renaud Decremer
UFR Droit Economie et Administration - Université Paul VERLAINE de METZ - M1 Economie Appliquée 2006
  

précédent sommaire suivant

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy

III. Test n°3

Par rapport au précédent test, les relations génériques entre les variables ne changeront pas. Il suffit donc de retourner au début du second test pour connaître les propriétés exactes des variables.

Pour rappel, voici les espérances théoriques des séries :

La seule modification portera sur le nombre d'individus actifs. Le nombre d'individus actifs passera de 10 à 7. La taille de la population mère choisie sera toujours de 50 individus, ce qui nous laisse 43 individus sur lesquels nous mettrons à l'épreuve les qualités d'estimation des modèles.

Le but est de mettre en évidence les qualités d'estimation de la régression PLS sur faible échantillon.

Nous choisissons une telle approche car l'intérêt de la régression PLS se justifie surtout dans ce genre de cas de figures. Sur un échantillon trop élevé, les individus atypiques se compensent et on obtient souvent des caractéristiques trop représentatives de la population mère, ce qui élimine mécaniquement, en grande partie, le danger de surparamétrage de la régression linéaire au sens des MCO.

Néanmoins, afin de « laisser une chance » à la régression multiple, nous conservons un nombre d'individus actifs légèrement supérieur au nombre de variables, sans quoi ce test serait totalement inutile.

Ainsi, le fait de passer de 10 à 7 individus semble peut-être anodin, mais en réalité, cela change énormément la donne, puisque le nombre d'individus supplémentaires par rapport au nombre de variables explicatives passe de 5 à 2.

III.1 Simulation n°1

Observons les données des individus actifs :

Et les données de la population mère :

On s'aperçoit, cette fois, que les relations entre Y et chaque variable explicative sont assez comparables au sein des individus actifs et de la population mère, mais que les relations entre les variables explicatives sont mal représentées par l'échantillon.

Quant aux moyennes des séries, elles sont, pour certaines, s'agissant des individus actifs, loin de correspondre aux espérances théoriques.

Intéressons nous à présent aux critères de décisions

Tout d'abord, les prévisions des modèles retenus :

On remarque une instabilité assez forte des coefficients.

Ce critère nous incite plutôt à retenir 2, éventuellement 3 composantes. Mais compte tenu du faible nombre d'individus actifs, on peut s'attendre à un surparamétrage rapide. La troisième composante, n'apportant que 4.19% d'explication de la variance de Y, ne semble donc pas intéressante. Le fait de retenir une seule composante pourrait également se justifier.

Voyons à présent ce qu'il en est des variances des axes :

Ce critère nous incite à retenir 2 ou 3 composantes.

Dans les simulations précédentes, nous en aurions probablement retenu 3, mais ici, nous allons nous contenter de 2 composantes, étant donné le faible nombre d'individus actifs et la contribution modérée de la 3ème composante à l'explication de la variance de Y.

Notre choix se portera donc sur la conservation de 2 composantes.

Partie 3: Simulations Confrontons à présent les modèles au reste de la population mère :

Nous sommes en présence d'un cas assez particulier. Il fallait avant tout éviter de retenir 3 ou 5 composantes.

S'il est clair que nous n'aurions pas retenu 5 composantes, nous avons douté quant au choix du 3ème modèle, ce qui, ici, aurait été une erreur. Par contre, si nous avions retenu 4 composantes, cela n'en aurait pas été une au regard des résultats empiriques. Néanmoins, le score réalisé par le modèle PLS(4) tient probablement davantage au hasard. Nous avons donc bien fait de retenir un faible nombre d'étapes. Le nombre d'individus actifs étant faible, il aurait été quelque peu dangereux de retenir une troisième composante. Mais cela aurait pu se justifier.

Dans tous les cas, le résultat obtenu aurait été meilleur qu'en régression linéaire. Voyons à présent quel était le meilleur résultat possible sur les 43 individus non-actifs :

Bien évidemment, avec un échantillon aussi faible, il aurait été très chanceux d'arriver à prédire aussi bien la population active que ce n'était le cas dans les simulations du test précédent.

On constate que la régression linéaire s'éloigne complètement du résultat. La régression PLS, dans ses premières étapes, parvient à compenser, dans une certaine mesure, la mauvaise qualité de l'échantillon. Mais cette compensation est loin d'être intégrale.

Il est important de faire d'autres simulations pour voir dans quelle mesure ces résultats se vérifient.

Partie 3: Simulations

111.2 Simulation n°2

Les statistiques des individus actifs sont les suivantes :

Et voici celles de la population mère :

Les corrélations de la population formée des 7 individus actifs semblent assez peu représentatives de celles de la population mère.

1ntéressons nous à présent aux différents modèles qui s'offrent à nous.

Tout d'abord, les modèles en eux-mêmes :

Le critère du R2 nous invite à retenir une composante, éventuellement 2. Voyons ce que nous dit le critère de la variance des composantes :

Le critère nous suggère de retenir 3 étapes. Selon le même principe que pour la précédente simulation, il semblerait néanmoins bon de sacrifier la 3ème composante.

Les deux critères étant pris en considération, le plus sage semble être de retenir 2 étapes, le premier axe ne présentant pas une variance suffisante.

Nous retenons donc 2 composantes.

Voici les résultats de la confrontation des modèles avec les autres individus :

Notre choix s'est porté sur un des deux meilleurs modèles.

Il est étonnant de constater que le troisième axe, n'apportant presque rien en termes de R2 ajouté (sur les individus actifs), corresponde au meilleur modèle. Néanmoins, sa variance était importante.

Ce qu'il fallait avant tout éviter, ici, était de retenir 1, 4 ou 5 axes. C'est ce que les critères, combinés l'un à l'autre, nous ont conduit, bien que le premier critère, pris isolément, nous aurait peut-être conduit à ne retenir qu'un seul axe.

Voyons à présent quel était le meilleur résultat possible :

Par rapport à la simulation précédente, on peut dire que les modèles sont nettement plus proches du meilleur résultat possible. Ce n'est probablement pas la population mère qui est en cause, mais la capacité de représentation de l'échantillon, qui est probablement meilleure dans ce cas-ci.

Pour en conclure sur cette simulation, nous pouvons dire que la méthode de régression PLS obtient des résultats significatifs. Cette fois encore, le modèle PLS(5), correspondant au critère des MCO, était le moins bon. Le modèle que nous avons retenu lui a été meilleur.

Partie 3: Simulations

précédent sommaire suivant






Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy








"Nous voulons explorer la bonté contrée énorme où tout se tait"   Appolinaire