WOW !! MUCH LOVE ! SO WORLD PEACE !
Fond bitcoin pour l'amélioration du site: 1memzGeKS7CB3ECNkzSn2qHwxU6NZoJ8o
  Dogecoin (tips/pourboires): DCLoo9Dd4qECqpMLurdgGnaoqbftj16Nvp


Home | Publier un mémoire | Une page au hasard

 > 

La régression PLS

( Télécharger le fichier original )
par Renaud Decremer
UFR Droit Economie et Administration - Université Paul VERLAINE de METZ - M1 Economie Appliquée 2006
  

précédent sommaire suivant

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy

PARTIE 3

Simulations

Au cours de cette section, nous allons tenter de comprendre comment retenir, en régression PLS, le nombre d'étapes optimal (sachant qu'on se réserve le droit de choisir autant d'étapes que de variables et de déboucher ainsi sur une régression linéaire) permettant d'effectuer la meilleure estimation possible sur un nombre d'individus « important », en travaillant avec un nombre plus réduit d'individus actifs.

Nous allons pour cela créer nous-mêmes les données de la « population mère », et établir un modèle sur un échantillon réduit de cette population initiale. Nous tenterons ensuite de voir dans quelle mesure les différents modèles que nous allons calculer permettront d'estimer le reste de la population.

Pour mettre en évidence l'utilité de la régression PLS, nous choisirons un nombre assez faible d'individus actifs, et des variables considérablement corrélées entre-elles (sinon, le nombre d'étapes n'influencera pas le modèle, pour des raisons vues dans la partie précédente). Nous tenterons également, dans une certaine mesure, de faire varier ces paramètres, afin d'essayer de mettre en évidence les conditions pour lesquelles les conséquences engendrées par le choix du nombre d'étapes sont significatives.

Naturellement, il ne s'agit pas de dresser des conclusions qui se voudraient exhaustives quant aux propriétés de la régression PLS, qui délimiteraient clairement des seuils d'efficacités de la méthode en fonction de chaque paramètre. Il s'agit uniquement de faire des tests, de traiter quelques cas différents, avec des données qui ont des propriétés connues, afin de mettre en évidence certaines tendances, et de prouver empiriquement que, sous certaines conditions, la régression PLS est une méthode qui se justifie pleinement.

Afin d'éviter tout manque d'objectivité dans la création des données, celles-ci seront générées sous Excel, avec une composante prédéfinie et une composante aléatoire. Toutes les données de la population mère seront générées simultanément, y compris celles des individus actifs, qui seront choisi « au hasard » dans la population mère.

Pour générer une composante aléatoire, la fonction « ALEA() » d'Excel sera utilisée. Cette fonction ne possède peut-être pas toutes les propriétés d'une vraie fonction aléatoire au sens pur (l'aléa pur, en informatique, n'existe pas, puisque tout y est toujours fonction de quelque chose), mais ses propriétés sont probablement suffisantes que pour se livrer à un exercice de ce type sans que les conclusions ne soient excessivement faussées. De plus, pour éviter autant que possible tout problème, l'exercice sera répété plusieurs fois avec des données régénérées à chaque fois.

Cette fonction ALEA() génère aléatoirement un nombre à 16 décimales compris entre 0
et 1. La distribution de ce nombre au sein de cet intervalle est supposée équiprobable
pour chaque sous-intervalle de même amplitude défini au sein de l'intervalle (quelque

soit l'amplitude choisie). En théorie, notons que l'espérance de la fonction ALEA() est sensée être la suivante : E[ALEA()]=0.5

Naturellement, on peut obtenir un nombre aléatoire de l'ordre grandeur que l'on souhaite en multipliant cet aléa par une constante. On peut aussi créer une relation aléatoire entre deux variables, ou une relation partiellement aléatoire.

Nous allons ainsi définir un jeu de 5 variables explicatives xi, x2, x3, x4 et x5, et une variable expliquée Y. Nous choisissons un nombre 5 variables dans l'optique d'un compromis. D'une part, il faut un minimum de variables pour pouvoir observer des effets de multicolinéarité et pouvoir juger de la pertinence d'une méthode dans le cadre d'un jeu de relations suffisamment complexes. D'autre part, il ne faut pas non plus choisir un nombre trop élevé de variable sous peine de compliquer le problème plus qu'il ne l'est nécessaire et de se détourner de l'objectif initial qui est de tester la régression PLS.

Les relations entre les variables seront toutes définies de manière linéaire. On part de xi, fonction éventuelle d'un aléa et d'une constante. Ensuite, on envisage x2, qui peut éventuellement être fonction de xi. x3 pourra quant à elle être fonction de xi et x2, et ainsi de suite, chaque variable pouvant être fonction de toutes les variables dont l'indice est inférieur au sien. La variable Y peut logiquement être fonction de toutes les variables explicatives. Les relations entre les variables sont ainsi hiérarchisées afin de pouvoir être facilement encodées avec Excel.

Naturellement, chaque variable peut également intégrer des constantes ou des fonctions aléatoires de constantes.

Chaque test effectué fera l'objet de 4 simulations, afin de voir si les résultats sont significativement modifiés, et de tenir des conclusions moins hasardeuses.

Notons également que le nombre d'individus étant important, les tableaux contenant les données brutes se trouvent dans la partie « Annexes » (ces tableaux s'étalant de la page 127 à la page 138).

I. Test n°1

Prenons les relations suivantes :

xi = 200 + 100*ALEA()

x2 = 100 + 100*ALEA() + 2*ALEA()*xi + 0.5*xi

x3 = 2*ALEA()*xi + 2*ALEA()*x2

x4 = -50 - 3*ALEA()*xi + 2*ALEA()*x3

x5= 100 + 100*ALEA() + 5*ALEA()*xi + x2 + ALEA()*x4

Y = 2*xi +2*ALEA()*xi + ALEA()*x3+ 0.5*x4 + ALEA()*x4+ x5+ 0.5*ALEA()*x5 On peut résumer ces relations via le tableau suivant :

50 individus sont générés selon ces formules (avec Excel), dont les 10 premiers serviront d'individus actifs pour la création des modèles, et les 40 autres serviront à mettre à l'épreuve la capacité à estimer de chaque modèle.

4 simulations différentes seront effectuées.

Il peut-être intéressant, au préalable, de s'intéresser aux caractéristiques des séries qui vont être ainsi générées :

Pour mieux comprendre ce tableau, prenons deux exemples :

- La variable xi est la somme d'un terme constant d'une valeur de 200, qui ne fait l'objet d'aucun aléa, mais aussi d'un terme aléatoire, pouvant varier de 0 à 100 et d'espérance 50. On a donc une espérance totale de 250, qui se décompose structurellement en 200 unités constantes et de 50 unités aléatoires.

- La variable x2 est fonction de 4 termes :

o Un terme constant, d'une valeur de 100.

o Un terme aléatoire d'espérance 50.

o Un terme fonction aléatoire de xi, pouvant varier entre 0 et 500, d'espérance 250, espérance qui se décompose en :

n Un terme constant dans xi qui devient aléatoire dans x2, comptant pour une espérance de 200.

n Un terme aléatoire dans xi qui devient aléatoire de 2nd degré dans x2, comptant pour une espérance de 50.

o Un terme fonction directe de xi, pouvant varier entre 100 et 150 (xi pouvant varier entre 200 et 300), d'espérance 125, qui se décompose de la manière suivante :

n Un terme constant dans xi, qui reste constant dans x2, comptant pour dans l'espérance de x2 pour 100 unités.

n Un terme aléatoire dans xi, qui reste aléatoire dans x2, comptant pour 25 unités.

Au final, l'espérance de la variable x2 se décompose donc en :

o 200 unités constantes (dont 100 issues de xi)

o 275 unités aléatoires (dont 225 issues de xi)

o 50 unités « doublement aléatoires », qui proviennent toutes de xi.

Avec le phénomène d'enchevêtrement des variables les unes dans les autres, on remarque que l'on arrive à obtenir jusqu'à 6 degrés d'aléa dans une variable. Tout ceci semble fort complexe, mais une fois chaque degré d'aléa clairement identifié pour chaque variable, le tableau permet d'avoir une vue d'ensemble de la structure qui est à la base de la génération des différentes variables. Notons néanmoins que ce tableau ne nous renseigne pas sur les relations des variables entre elles.

On s'aperçoit donc que, dans l'ensemble, le terme constant n'est pas celui qui domine, et que de très fortes variations peuvent affecter plus ou moins aléatoirement l'ensemble des variables, avec des aléas qui peuvent se répercuter sur plusieurs variables à la fois (ce qui peut perturber ou au contraire renforcer la relation entre ces variables).

I.1. Simulation n°1

Les statistiques observées (moyenne et écart-type) sur les individus actifs (les 10 premiers individus) sont les suivantes :

La matrice des coefficients de corrélation sur ces individus donne :

On observe donc des coefficients assez élevés (en moyenne), que ce soit entre la variable expliquée et les variables explicatives, ou entre les variables explicatives entre elles.

Voyons à présent les mêmes tableaux, pour la population mère (les 50 individus) :

Les statistiques sur échantillon ne sont bien sûr pas ce qu'elles sont sur la population
mère, mais, toute proportion gardée, on constate des similitudes conséquentes. Notons

au passage que la population mère englobe les individus actifs et que cela a un léger impact sur la similitude des données.

Voici ce que nous donnent les différents modèles PLS que nous pouvons calculer sur le modèle :

On remarque que les coefficients sont peu stables lorsque l'on ajoute des étapes.

Remarquons également qu'en termes de R2 ajouté, seules les deux premières étapes semblent significatives.

Regardons à présent les coordonnées des composantes ainsi que leur variance :

On remarque que les 3 premières composantes sont significatives en termes de variance.

Au regard des deux critères, il serait donc judicieux de retenir 2 ou 3 composantes, la première n'étant pas suffisante, et les deux dernières n'étant pas significatives. La troisième composante ne se justifie que parce que sa variance est considérable et apporte probablement une part importante d'explication des variables x.

On retiendra donc, assez arbitrairement, 3 composantes.

Regardons à présent les résultats de l'application des différents modèles sur les 40 individus non-actifs :

On remarque donc que c'est le modèle à 2 composantes qui obtient le meilleur score (89.30%), le modèle à 3 composantes obtenant un score assez proche de ce dernier.

Si nous effectuons une régression linéaire multiple sur les 40 individus non-actifs, ce qui correspond au meilleur résultat possible en termes de SCR et donc de R2, nous obtenons les résultats suivants :

On remarque que le modèle PLS(2), ainsi que le modèle PLS(3) que nous avons retenu, sont nettement plus proches de ce « meilleur score possible » que ne l'est la régression PLS(5), c'est-à-dire la régression linéaire multiple sur les individus actifs.

La régression PLS, combinée aux critères utilisés pour la sélection du nombre d'étapes, est donc, ici, un meilleur estimateur que ne l'est la régression linéaire.

Mais cette unique simulation ne saurait suffire, nous allons donc en faire plusieurs autres afin de voir si cette tendance se vérifie.

précédent sommaire suivant






Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy








"Il ne faut pas de tout pour faire un monde. Il faut du bonheur et rien d'autre"   Paul Eluard