WOW !! MUCH LOVE ! SO WORLD PEACE !
Fond bitcoin pour l'amélioration du site: 1memzGeKS7CB3ECNkzSn2qHwxU6NZoJ8o
  Dogecoin (tips/pourboires): DCLoo9Dd4qECqpMLurdgGnaoqbftj16Nvp


Home | Publier un mémoire | Une page au hasard

 > 

La régression PLS

( Télécharger le fichier original )
par Renaud Decremer
UFR Droit Economie et Administration - Université Paul VERLAINE de METZ - M1 Economie Appliquée 2006
  

précédent sommaire suivant

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy

I.4. Simulation n°4

Données des individus actifs :

Données de la population mère :

Il n'y a rien à ajouter sur ces données, quand on a déjà vu (dans les précédentes simulations) à quel point les séries étaient instables.

Partie 3: Simulations
Passons aux caractéristiques des modèles et composantes afin de discuter des critères :

Au regard de ce critère, il semble intéressant de retenir deux composantes, les 3 dernières n'apportant rien d'intéressant en terme d'explication de la variance de Y.

Voyons à présent l'inertie des composantes :

Ici, il semblerait qu'il soit préférable de retenir 4 composantes.

Dans une optique de compromis, nous retenons arbitrairement 3 composantes (2 ou 4 composantes auraient également pu se justifier).

Voyons donc les résultats des différents modèles :

Dans l'ensemble, les modèles ont des résultats plutôt moyens. Néanmoins, cette fois, les critères nous ont conduits au choix du meilleur modèle.

La régression linéaire est celle qui obtient le plus mauvais résultat. Les meilleurs résultats possibles étaient les suivants :

Le modèle choisi est bien entendu celui qui s'en approche le plus.

De toutes les simulations effectuées, celle-ci est celle qui présente la population mère la moins bien modélisable. Il est donc normal que les résultats des différents modèles testés soient moins bons dans l'ensemble que ceux des simulations précédentes.

I.5. Conclusions sur le test n°1

Il est à présent temps de conclure sur l'ensemble des simulations effectuées dans le cadre de ce premier test.

Le tableau suivant nous donne pas mal d'indications :

La colonne RLM(T) représente le R2 obtenu par régression linéaire multiple sur les individus non actifs pour chaque simulation. Il s'agit du meilleur score possible à obtenir, en termes de R2, par une régression de type linéaire.

En vert est systématiquement indiqué, pour chaque simulation, le meilleur modèle (parmi les 5 modèles proposés par la régression PLS) obtenu àpartir de l'échantillon.

En gras est systématiquement indiqué le modèle PLS correspondant au nombre d'étapes retenues au regard des critères.

On remarque plusieurs choses :

- Le meilleur modèle n'est jamais le même sur deux simulations différentes.

- Le meilleur modèle n'a été choisi qu'à une seule reprise à l'aide des critères.

- En général, le meilleur modèle se situe environ à 5% du meilleur résultat possible. - Le modèle de régression linéaire n'est le meilleur qu'à une seule reprise.

- En moyenne, les résultats obtenus à l'aide du modèle choisi (sur base des critères utilisés) est meilleur que ne le sont les résultats de la régression linéaire. C'est notamment le cas pour la simulation n°4, sans laquelle cette remarque ne tiendrait plus. - En moyenne, c'est le modèle PLS(1) qui obtient les meilleurs résultats.

- En moyenne, c'est le modèle PLS(5) qui obtient les plus mauvais résultats.

- Les résultats varient peu, aussi bien au cas par cas qu'en moyenne, s'agissant des modèles à 2, 3 et 4 composantes. On pourrait facilement inclure la 5ème composante à ce raisonnement si on ne tenait pas compte de la 4ème simulation.

Les résultats sont donc très nuancés pour cet exercice. L'utilité de la méthode semble pourtant réelle, puisqu'en moyenne, la régression linéaire est celle qui présente les moins bons résultats, et qu'en moyenne, le modèle choisi est meilleur que le modèle de régression linéaire. Mais ces résultats tiennent trop à la présence de la 4ème simulation que pour être jugés fiables.

On note néanmoins une certaine robustesse de l'approche PLS vu les résultats obtenus à la première étape.

Notons aussi que si on observe les coefficients trouvés par les modèles, quels qu'ils soient, on se trouve devant un souci évident d'interprétation, et il semble difficile de savoir si un modèle est plus fiable ou non qu'un autre.

Voici un tableau retranscrivant les écarts-types observés par les coefficients sur l'ensemble des simulations :

On note qu'excepté s'agissant de la constante, les écarts-types sont nettement plus faibles pour la régression PLS(1). Plusieurs d'entre eux sont même inférieurs aux écarts - types observés pour les régressions faites sur les individus non-actifs, ce qui est réellement impressionnant vu que la taille de l'échantillon est 4 fois inférieure à la taille de la population formée par les individus non-actifs.

Il est important de noter que la régression linéaire (ou PLS(5)) est celle qui présente les coefficients les plus instables, constante exceptée. Il s'agit là d'une relative illustration de l' « opportunisme » de la méthode.

Pour en conclure sur ce test, nous retiendrons surtout que les composantes aléatoires qui sont à l'origine de la création des séries sont probablement nettement trop élevées que pour obtenir des résultats suffisamment représentatifs de l'efficacité des méthodes.

Ce tableau, confrontant les moyennes observées sur les séries et les espérances de ces mêmes séries, le confirme :

La colonne «Ecart moy 96 » calcule l'écart relatif moyen (en valeur absolue) des moyennes considérées par rapport à l'espérance de la série.

On note une forte instabilité générale des séries. Les séries x1 et x2 sont les seules à présenter une instabilité relativement faible. La série x5 présente quant à elle une instabilité acceptable. En revanche, les séries x3, x4 et y sont considérablement instable, particulièrement la série x4, ce qui est normal si l'on se réfère à sa répartition en terme de degrés d'aléa (le terme constant y est résiduel).

S'il est normal de constater des écarts significatifs sur un échantillon de 10 individus, il l'est moins s'agissant d'une population mère de 50 individus.

Le deuxième test que nous allons effectuer se fera en conséquences avec des composantes aléatoires amoindries.

précédent sommaire suivant






Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy








"Tu supportes des injustices; Consoles-toi, le vrai malheur est d'en faire"   Démocrite