WOW !! MUCH LOVE ! SO WORLD PEACE !
Fond bitcoin pour l'amélioration du site: 1memzGeKS7CB3ECNkzSn2qHwxU6NZoJ8o
  Dogecoin (tips/pourboires): DCLoo9Dd4qECqpMLurdgGnaoqbftj16Nvp


Home | Publier un mémoire | Une page au hasard

 > 

La régression PLS

( Télécharger le fichier original )
par Renaud Decremer
UFR Droit Economie et Administration - Université Paul VERLAINE de METZ - M1 Economie Appliquée 2006
  

précédent sommaire suivant

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy

1.2. Simulation n°2

La population mère et les individus actifs étant tous régénérés (selon les mêmes formules que pour la première simulation), voici ce que deviennent les nouvelles statistiques.

Pour les individus actifs :

Pour la population mère :

Par rapport à la précédente simulation, il faut noter une forte instabilité des corrélations des individus actifs, et une instabilité significative des corrélations de la population mère.

Intéressons nous à présent aux composantes PLS et aux différents modèles selon le nombre d'étapes :

Au regard de ce tableau, il semble inutile de retenir davantage de 1 étape. On note une grande instabilité des coefficients, à l'exception de la variable x5.

L'interprétation est plus délicate s'agissant de la variance des composantes. Il faut, au regard de ce critère, retenir au moins 2 étapes. Mais les 3 dernières étapes semblent également significatives, notamment la toute dernière, qui nous obligerait à retenir les deux autres si on souhaitait la prendre en compte.

A la vue du premier tableau, et dans l'optique de trouver un compromis, nous allons nous contenter de deux étapes.

Voyons à présent les résultats de l'application des différents modèles sur les individus non-actifs :

Nous sommes ici dans un cas plus délicat. Tous les modèles, sans exception, donnent des résultats satisfaisants, et ce malgré une amplitude conséquente des coefficients.

Néanmoins, dans ce cas-ci, la qualité des résultats semble fonction croissante du nombre d'étapes retenues. C'est ce que pouvait nous laisser imaginer le deuxième critère. Mais ce n'est pas le cas du premier critère, qui nous aurait plutôt poussés à ne retenir qu'une seule étape.

Néanmoins, on peut noter que l'amélioration des résultats n'est pas si importante que cela, et que le choix du second modèle, dans l'optique de compromis, n'était pas un si mauvais choix.

Voyons ce que nous donne la régression linéaire multiple sur les individus non-actifs :

On remarque là aussi, par rapport à la précédente simulation, une forte instabilité des coefficients (ce qui est surprenant lorsqu'il s'agit de comparer deux populations de taille presque aussi importante que leur population mère respective).

On constate que les 5 modèles approchent raisonnablement ce résultat optimal (au sens des moindres carrés), et que le modèle PLS(5) (ou de régression linéaire) est le meilleur.

1.3. Simulation n°3

Données des individus actifs :

Données de la population mère :

On note toujours des instabilités conséquentes par rapport aux deux précédentes simulations.

Passons sans attendre à l'étude des modèles et composantes :

On remarque que le modèle à 5 composantes explique très bien la population active. Néanmoins, le modèle à 2 composantes semble suffire, avec un R2 de 96.21%, les 3 autres étapes n'apportant rien de significatif.

Ici, le choix semble nettement plus délicat. Il semble inconcevable de retenir moins de 3 composantes, et les deux dernières composantes semblent également importantes, mais nettement moins que ne l'est la troisième.

D'après les deux tableaux, le mieux semblerait être de retenir 3 composantes.

Voyons à présent les résultats des modèles sur le reste de la population mère :

Cette fois, la contradiction est de taille. Les critères nous on poussé à choisir le moins bon modèle, et le seul « bon » modèle qui le soit vraiment (quand on connaît les résultats obtenus lors des deux autres simulations) est le modèle PLS(1).

Malheureusement, peu de choses laissaient présager que le modèle 1 était le bon, excepté le fait que la première composante suffisait à expliquer 79.96% de la variance de Y s'agissant des individus actifs. On aurait hélas pu penser que, le second axe apportant 16.25% d'explication de la variance de Y, et le troisième axe présentant une inertie considérable (presque aussi importante que celle du premier axe), il était indispensable de retenir 3 axes.

Ce n'était malheureusement pas le cas. On peut probablement expliquer cela par le fort degré d'aléa, qui soumet la qualité de l'échantillon à un hasard considérable.

Notons néanmoins que la régression linéaire multiple n'aurait pas, elle non plus, atteint des résultats intéressants

Voici les données et les résultats du meilleur modèle possible :

On constate ici que le modèle PLS(1) était d'une bonne qualité. La régression PLS n'était donc pas une mauvaise méthode sur cet exercice (bien au contraire, elle surpasse complètement la régression linéaire), mais le choix du nombre correct d'étapes était impossible au regard des critères, ce qui rend ici l'utilité de la méthode nettement moins intéressante (à quoi bon détenir le bon modèle si on ne sait pas le distinguer des autres lorsqu'on ne peut pas le tester sur la population mère ?).

précédent sommaire suivant






Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy








"Et il n'est rien de plus beau que l'instant qui précède le voyage, l'instant ou l'horizon de demain vient nous rendre visite et nous dire ses promesses"   Milan Kundera