WOW !! MUCH LOVE ! SO WORLD PEACE !
Fond bitcoin pour l'amélioration du site: 1memzGeKS7CB3ECNkzSn2qHwxU6NZoJ8o
  Dogecoin (tips/pourboires): DCLoo9Dd4qECqpMLurdgGnaoqbftj16Nvp


Home | Publier un mémoire | Une page au hasard

 > 

La régression PLS

( Télécharger le fichier original )
par Renaud Decremer
UFR Droit Economie et Administration - Université Paul VERLAINE de METZ - M1 Economie Appliquée 2006
  

précédent sommaire suivant

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy

II.5. Conclusions sur le test n°2

Il est maintenant temps de conclure sur ce second test, dont l'originalité, par rapport au premier test, était de travailler sur des relations moins aléatoires.

Voici le tableau retraçant les résultats des différents modèles pour chaque simulation :

On s'aperçoit que notre choix s'est invariablement porté sur la conservation des 3 premières étapes.

On remarque aussi que la régression PLS(1) était dans tous les cas celle qui donnait les moins bons résultats, alors que, le plus souvent, il suffisait d'ajouter la seconde composante que pour obtenir le meilleur résultat possible.

Néanmoins, le choix systématique de 3 étapes n'était pas si mauvais en soi. Il constitue, dans 1 des 4 cas, le meilleur choix possible, et dans les autres cas, montre des résultats presque aussi bons que ceux du meilleur choix possible.

Sur l'ensemble des 4 simulations, l'apport de la méthode PLS est considérable, car il donne, en moyenne des résultats plus proches du « résultat optimal » que ne le fait la régression linéaire (PLS(5)).

On note, sur l'ensemble des simulations, que la population formée par les individus non-actifs était légèrement mieux modélisable que ce n'était le cas dans le test précédent (le meilleur résultat possible donne à présent un R2 en moyenne de 93.96%, contre 91.85% lors du premier test).

On peut également constater que, dans l'ensemble, les modèles établis sur les individus actifs prédisent nettement mieux le reste de la population.

En revanche, ce que l'on constate moins, c'est un éventuel rapprochement entre le résultat du meilleur des 5 modèles et le « résultat optimal ». Cet écart reste, en moyenne, d'environ 5%.

On constate d'ailleurs une sorte de convergence des résultats, comme si chaque modèle (excepté le modèle PLS(1)) était aussi bien capable d'estimer le reste de la population mère que les autres ne le sont.

Les prédictions s'améliorent donc nettement, mais l'écart du meilleur modèle (et également du modèle choisi) par rapport au meilleur résultat possible ne diminue pas en moyenne. De plus, les résultats semblent être moins sensibles par rapport au choix du modèle.

On remarque néanmoins que cette différence par rapport au premier test s'explique principalement par la simulation n°3 de ce dernier, qui avait complètement bouleversé les résultats. Sans elle, les conclusions du premier test ressembleraient davantage à celle du second. Mais la probabilité d'obtenir une simulation aussi atypique était bien entendu plus élevée dans le premier test, étant donné l'instabilité des séries.

Regardons à présent les écarts-types enregistrés sur les coefficients :

On observe cette fois que les modèles PLS(2) et PLS(3) sont les plus stables. Le modèle PLS(1) est aussi relativement stable constante exceptée.

De manière générale, la stabilité des modèles est légèrement meilleure que celle constatée lors du modèle précédent. On note également que le meilleur modèle possible sur individus ne faisant pas partie de l'échantillon est de loin le plus stable.

Etudions à présent les moyennes enregistrées sur les séries :

Par rapport au précédent test, on note que les séries sont devenues nettement plus stables, que ce soit au niveau de l'échantillon qu'au niveau de la population mère. Les écarts par rapport à l'espérance sont devenus acceptables, excepté s'agissant de la variable x4, qui reste hautement instable.

La question que l'on peut légitimement se poser est la suivante : Est-ce que la réduction du facteur aléatoire avantage l'approche PLS ou l'approche des MCO ?

En fait, la réponse théorique à cette question est assez délicate, car plusieurs effets entrent en jeu :

- S'il n'y avait aucun facteur aléatoire, les individus actifs seraient à 100% représentatifs de la population mère, et la régression linéaire serait avantagée, car en passant au plus près du nuage de points formé par les individus actifs, elle passerait forcément au plus près de celui formé par le reste de la population. Une réduction du facteur aléatoire avantage donc, de ce point de vue, l'approche des MCO.

- Une réduction du facteur aléatoire, compensée par une hausse des relations directes entre les variables explicatives, peut renforcer la nécessité d'utiliser la méthode PLS, qui, comme nous l'avons vu, permet en partie de faire face au phénomène de multicolinéarité. Toutefois, cet effet semble nettement moins évident que le premier.

Si l'on observe les résultats moyens des modèles au cours des deux tests, on s'aperçoit que, visiblement, c'est la régression linéaire qui est avantagée par la réduction du facteur aléatoire, puisque ses résultats s'améliorent en moyenne.

Ce tableau permet de comparer les résultats moyens enregistrés au cours des 2 tests :

On s'aperçoit que tous les résultats sont en nette progression, excepté pour le modèle à une composante.

L'approche PLS pure semble donc affaiblie et l'approche des MCO semble renforcée. Mais la nécessite d'utiliser la méthode PLS, combinée aux critères utilisés, quant à elle, reste bien réelle, car bien que l'écart enregistré entre le modèle choisi et le modèle PLS(5) est faible, il est assez stable d'une simulation à l'autre.

En réalité, la diminution du facteur aléatoire n'avait pas pour but d'avantager l'une ou l'autre méthode (même si l'approche PLS semble s'en trouver désavantagée), mais d'avoir des résultats qui nous permettent des conclusions plus stables, étant donné le nombre de simulations limitées que nous avons le loisir de pratiquer.

Si nous avions pu faire plusieurs dizaines de simulations, nous aurions probablement pu nous contenter des relations utilisées dans le premier test. Ce n'est malheureusement pas le cas car j'ai personnellement choisi de détailler un maximum le déroulement de chaque simulation, dans le but de rester le plus transparent possible (le manque de transparence pouvant, en statistiques, couvrir une éventuelle manipulation des résultats dont je ne souhaite pas être soupçonné, sous peine d'enlever toute crédibilité aux résultats trouvés lors des simulations).

Le fait de travailler avec des séries plus stables permet de compenser, dans une certaine proportion, le faible nombre de simulations. Cet objectif semble être atteint, dans une certaine mesure, car les résultats ont assez peu varié d'une simulation à l'autre :

- Le nombre d'étapes choisi au regard des critères fut toujours le même.

- Le meilleur modèle était dans 3 cas le modèle PLS(2), et dans l'autre cas le modèle PLS(3), sachant que même dans ce cas, le modèle PLS(2) donnait des résultats très satisfaisants.

- Les résultats des différents modèles sont plus stables.

- La prévisibilité de la population mère était plus stable.

L'autre but était tout de même de savoir si une réduction du facteur aléa affectait plus particulièrement un modèle qu'un autre. Apparemment, c'est le cas. Il faut retenir, en moyenne, plus d'étapes que dans le premier test, pour obtenir un bon modèle. Mais cette conclusion, basée sur seulement 4 simulations par test, est à relativiser à cause de l'instabilité des résultats du premier test.

Pour en finir sur les conclusions de ce deuxième test, nous dirons que la régression PLS fut efficace dans presque 100% des cas, car les résultats du modèle retenu étaient toujours meilleurs que ceux du modèle PLS(5) équivalent à la régression linéaire selon le critère des MCO, excepté lors de la dernière simulation où les deux modèles se valent (avec un léger avantage pour le modèle des MCO).

Par rapport au précédent test, on note des conditions plus stables. Le modèle choisi creuse, en moyenne, un écart moins important par rapport au modèle PLS(5), mais un écart qui est plus constant que dans le test précédent.

On peut penser que le modèle PLS retenu est, pour les deux tests, globalement meilleur que le modèle PLS(5), et que cet écart est plus conséquent lorsque l'aléa prédomine, mais qu'il est plus constant lorsque l'aléa est plus faible.

Il est maintenant temps de procéder à un troisième et dernier test. Le but va être de mettre en valeur la capacité de la régression PLS à fonctionner sur un nombre d'individus actifs à peine supérieur au nombre de variables.

précédent sommaire suivant






Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy








"En amour, en art, en politique, il faut nous arranger pour que notre légèreté pèse lourd dans la balance."   Sacha Guitry