WOW !! MUCH LOVE ! SO WORLD PEACE !
Fond bitcoin pour l'amélioration du site: 1memzGeKS7CB3ECNkzSn2qHwxU6NZoJ8o
  Dogecoin (tips/pourboires): DCLoo9Dd4qECqpMLurdgGnaoqbftj16Nvp


Home | Publier un mémoire | Une page au hasard

 > 

La régression PLS

( Télécharger le fichier original )
par Renaud Decremer
UFR Droit Economie et Administration - Université Paul VERLAINE de METZ - M1 Economie Appliquée 2006
  

Disponible en mode multipage

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy

DECREMER Renaud

Université Paul Verlaine de Metz

UFR Droit, Economie, Administration

Mémoire de M1 en Sciences Economiques

Sous la direction de Monsieur Philippe CASIN

« L'université Paul Verlaine de METZ

n'entend donner ni approbation, ni

improbation aux opinions émises dans ce

mémoire. Celles-ci doivent être considérées

comme personnelles à son auteur. »

PREFACE ET REMERCIEMENTS

Cette partie a vocation à retranscrire brièvement la manière dont le mémoire a vu le jour ainsi que mes impressions personnelles avant, pendant, et après la réalisation de ce dernier. Si seul le sujet en lui-même vous intéresse, vous pouvez sans problème passer outre cette partie et vous rendre directement au sommaire.

Le mémoire, pour un étudiant de master, constitue probablement, dans la majorité des cas, le travail le plus abouti, le plus long, le plus complexe, le plus intéressant et le plus personnel auquel il n'a jamais eu l'occasion de prendre part. C'est bien entendu mon cas, et c'est pour cela que je tiens à m'exprimer sur le déroulement de celui-ci.

Il est important de rappeler que le mémoire constitue un choix pour un étudiant, dans la mesure où celui-ci est libre de choisir le sujet qui lui convient le mieux parmi ceux qui lui sont proposés. Mon choix s'est porté sur ce sujet (la régression PLS), pour plusieurs raisons. La première est que j'ai toujours été attiré par l'analyse de données, les statistiques, et les chiffres en général. Mais bien que ce domaine me fascine, il m'a, à plusieurs reprises, posé des problèmes (difficultés de compréhension notamment) tout au long de mon cursus. J'ai donc tenu, en choisissant ce sujet, à essayer de renverser certaines de ses difficultés, d'autant plus que je pense être amené à me spécialiser en Expertise Statistique dans le cadre de la dernière année de ma filière. Il était donc très important, à ce titre, pour moi, de réaliser par moi-même un travail où je puisse développer ma propre approche, à partir des éléments avec lesquels j'étais à l'aise, d'un sujet qui m'était jusqu'alors inconnu, et qu'il allait falloir comprendre par moi-même, avec pour seule aide les diverses recherches que j'allais devoir mener, et quelques explications venant de la part du responsable du sujet que j'ai choisi. C'est dans ce contexte que le choix d'un tel sujet m'est apparu comme étant la meilleure solution. Bien entendu, il est évident que le choix de ce sujet ne s'est pas fait sans tenir compte d'autres facteurs, notamment l'imposante demande, de la part des autres étudiants, pour certains sujets faisant une plus grande unanimité, n'ayant pas trait au domaine de l'analyse de données. Il était alors évident que mon choix allait se porter sur ce sujet.

Le sujet étant choisi, j'ai eu toute liberté pour mener ce travail dans la direction qui me convenait le mieux. J'ai alors décidé d'adopter la démarche qui est généralement la mienne lorsque je suis amené à traiter un sujet auquel je ne suis pas encore familiarisé, à savoir celle qui consiste à « comprendre pour expliquer ». Je pense que certains étudiants auraient abordé ce mémoire en lançant un maximum de recherches sur le sujet, en faisant un immense effort de synthèse et de réorganisation des idées, et en retranscrivant, dans une formulation qui leur est plus ou moins propre, le compte- rendu de leurs recherches. Cela n'a pas été ma démarche, car un tel effort ne m'aurait pas permis d'approfondir à ma guise ma connaissance du sujet. J'ai donc effectué un certain nombre, limité, de recherches, sans chercher à me documenter de manière exhaustive. Le but n'était pas de réunir tous les ouvrages accessibles traitant du sujet,

mais simplement de trouver une base de réflexion me permettant de situer le sujet, et de me renseigner sur ses principaux enjeux. Par la suite, le travail de recherche a pris une proportion très marginale par rapport au travail de réflexion personnelle, car c'est avant tout ce travail qui m'a permis d'avancer dans ce mémoire. C'est ce travail qui m'a donné la possibilité de vérifier que l'enjeu de la méthode était bien réel, et ne se justifiait pas qu'à travers les dires des auteurs qui ont eu le loisir de s'y intéresser.

Le lecteur que vous êtes notera assez rapidement et aisément que mon approche fut assez littéraire. En effet, selon moi, les diverses formules et propriétés mathématiques ne trouvent leur sens qu'en tant qu'outil permettant de raisonner et de tirer des conclusions, qui doivent rester compréhensibles par la majorité, et donc littéraires. De plus, de très nombreux travaux ayant déjà été menés sur ce sujet, il était inutile de se focaliser sur les formules et les démonstrations mathématiques, auxquelles je ne pouvais, personnellement, rien apporter. J'ai donc simplement retranscrit les formules à la base de la méthode, principalement en utilisant les notations de l'ouvrage de Michel Tenenhaus (« La Régression PLS -- Théorie et Pratique »), qui d'ailleurs fut l'ouvrage central autour duquel s'est construit mon mémoire, sans pour autant lui avoir emprunté une part très importante de contenu (exception de la brève présentation historique du sujet faite en tout début de première partie, et de la faite démonstration sur l'indépendance des composantes PLS). J'ai donc tâché de rester le plus littéraire et le plus compréhensible possible, afin ceux qui n'ont que des connaissances limitées en statistiques (dont je fais partie) puissent décemment comprendre ce la majorité de ce qu'ils pourront lire dans ce mémoire, et se familiariser avec les notions les plus importante de celui-ci. Si mon approche avait été trop mathématisée, ou trop complexe, je n'aurais pas pu prétendre avoir apporté quoi que ce soit au lecteur, car je n'aurais fait que rendre compte des travaux de personnes nettement plus connues, expérimentées et très probablement plus compétentes que moi, et j'aurais été incapable de me retrouver dans ce mémoire, pas plus que je n'aurais été capable de comprendre et de m'imprégner de la plupart des notions que j'aurais été amené à utiliser.

Bien entendu, cela ne m'a pas empêché d'évoquer les formules dont sont issues les composantes de la régression PLS, ni d'évoquer certaines propriétés mathématiques de l'analyse, parfois sous forme de formules, car il aurait été déplacé de parler d'un sujet dont les fondements (les formules mathématiques) ne sont pas abordés. Aussi, je n'ai pas la prétention d'affirmer qu'un lecteur n'ayant aucune notion statistique sera capable de suivre l'intégralité des raisonnements qui sont développés tout au long de ce mémoire (que ce soit dans les parties mathématiques ou dans les parties littéraires). Néanmoins, je garde l'espoir qu'elles puissent trouver, dans ce mémoire, une présentation plus abordable de la méthode et de son utilité, que ce qu'il est généralement coutume de rencontrer dans la plupart des travaux traitants du sujet (que ce soit dans les livres ou sur internet).

Etant donné l'approche utilisée pour réaliser ce travail, il m'a été très difficile d'établir un plan dès le départ. Plusieurs idées me sont venues à l'esprit, mais il m'était pratiquement impossible de retenir un plan qui soit trop précis avant d'avoir abordé les différents aspects que je tenais à traiter. C'est pour cela que le plan a beaucoup évolué (sans jamais avoir existé dans une version qui soit un tant soit peu détaillée) jusqu'à ce que le mémoire ne soit terminé, car sa structure dépendait de l'évolution de ma perception du sujet, elle-même conditionnée par l'avancée de ce mémoire. C'est notamment pourquoi, pendant longtemps, j'ai pensé intégrer à ce mémoire une partie « Application à la réalité », faisant la démonstration d'une utilisation de la régression PLS sur un jeu de données réelles, avant d'avoir l'idée, qui m'a semblée plus intéressante, de créer une partie « Simulations », faisant elle aussi la démonstration d'une utilisation de la méthode, mais sur données fictives, créées de toutes pièces à l'aide de Microsoft Excel 2003 et de sa fonction permettant de générer une composante aléatoire. Au départ, je ne souhaitais pas que la partie « Simulations » écarte totalement la partie « Application à la réalité », mais la différence d'intérêt entre les deux méthodes, combinée au fait que le mémoire devait toucher à sa fin (pour des raisons de temps), a fait que j'ai préféré totalement délaisser cette idée initiale, pour ne pas risquer de compromettre l'intérêt de celle que j'ai finalement décidé de retenir. Naturellement, j'aurais souhaité que cette partie soit tout de même intégrée à ce mémoire, mais elle ne m'aurait que très difficilement permis de me prononcer sur l'efficacité de la méthode, sauf à disposer de suffisamment de données que pour être en mesure de former une population mère, sur laquelle j'aurais pu testé les qualités de prédictions des modèles établis sur base d'un échantillon réduit de cette population. Mais même si tel avait été le cas, je n'aurais que très difficilement pu disposer de données desquelles j'étais suffisamment informé des propriétés que pour pouvoir tirer des conclusions générales sur l'efficacité de la méthode, et sur les meilleures conditions d'efficacité de celle-ci. Dans une certaine mesure, les différentes simulations que j'ai pu mener lors des différents tests m'ont permis d'isoler l'influence de certains facteurs, et de tenter des conclusions sur l'impact de ces derniers sur l'efficacité de la méthode. Voila pourquoi j'ai privilégié cette partie.

Le fait de ne pas avoir pu intégrer cette partie « Application à la réalité » constitue mon plus grand regret, car le but de toute méthode statistique reste probablement de pouvoir servir dans un cadre réel, le contraire leur enlevant tout intérêt. De ce point de vue, une application sur des séries réelles, dans le but de modéliser des relations liant des variables réelles, est nettement moins abstraite que ne le seront jamais des données fictives, ce qui aurait pu être plus parlant aux yeux de certains lecteurs.

Ce n'est pas mon seul regret. J'aurais également aimé pouvoir approfondir les tests, en faire davantage, et faire davantage de simulations pour chaque test, afin qu'en ressortent des conclusions plus précises, plus ciblées, plus exhaustives. Toutefois, je n'aurais pas souhaité que ce soit au prix d'une transparence amoindries des simulations réalisées, qui ont été volontairement très détaillées.

Je regrette également de ne pas avoir évoqué le cas de la régression PLS multivariée (c'est-à-dire : avec de multiples variables expliquées), ou encore de ne pas avoir traité le cas de la régression PLS avec présence de données manquantes. Ces deux cas existent pourtant et représentent deux avantages considérables de cette méthode.

Toutefois, il faut garder à l'esprit que ces divers approfondissements auraient probablement rendu le mémoire nettement moins compréhensible, et nettement plus fastidieux à aborder dans son intégralité.

Finalement, je m'estime satisfait de ce mémoire, à plusieurs titres. Il m'a tout d'abord permis d'améliorer ma compréhension générale du domaine statistique, et plus particulièrement ma compréhension du sujet. Ensuite, le travail qu'il a nécessité m'a permis d'améliorer ma méthode de travail, ma capacité à m'organiser, à gérer le facteur temps, à mieux cerner les qualités et les défauts inhérents à ma manière de travailler, et à mener à bien un travail de plus grande ampleur que ceux que j'ai pu connaître jusqu'à présent. Il m'a également permis de m'épanouir à travers une démarche personnelle, et donc adaptée à moi-même, me permettant par la même occasion d'aborder les aspects du sujet auxquels je suis le plus sensible.

J'en viens donc à la fin de ce préambule et j'en profite pour remercier ceux qui ont, directement ou indirectement, contribué à ce mémoire. La première personne qui me vient à l'esprit est Monsieur Philippe Casin, maître de conférence dans ma faculté (UFR Droit, Economie et Administration de l'université Paul Verlaine de Metz), et responsable de la direction de ce mémoire (et à l'origine de la présence du sujet parmi les sujets disponibles). Son aide, ses conseils et indications m'ont notamment permis de mieux cerner le sujet et d'en déduire l'orientation que je souhaitais lui donner. Je remercie également Christine Stachowiak, également enseignante de ma faculté et responsable méthodologique des mémoires de ma promotion. Je remercie ces deux professeurs à la fois pour leur apport au mémoire, mais également pour leurs enseignements auxquels j'ai pu assister. D'autres professeurs me viennent également à l'esprit, dans la mesure où ils m'ont permis d'acquérir certaines connaissances mathématiques (ou autres ayant servi à ce mémoire) et m'ont permis de maitriser certaines notions. Je remercie donc, de manière générale, tous les professeurs dont j'ai pu assister aux cours, plus particulièrement Monsieur François Marque (enseignant en mathématiques, statistiques, et informatique), Monsieur Marius Marchal (enseignant en mathématiques et statistiques) et Monsieur Pierre Morin (enseignant en Macroéconomie appliquée, et ayant eu la délicatesse d'expliquer efficacement la signification de certaines statistiques utilisées dans le cadre des différents modèles économétriques vu en cours).

Bien entendu, je ne pourrais conclure cette section sans citer Michel Tenenhaus, omniprésent et incontournable s'agissant de la régression PLS, et dont l'ouvrage (évoqué plus haut) m'aura permis de disposer d'une base solide de réflexion. J'en remercie donc l'auteur, en saluant l'exhaustivité dont il a su faire preuve.

INTRODUCTION

GENERALE

L'analyse statistique est un large domaine recouvrant des techniques d'analyse de plus en plus nombreuses. Ces nouvelles techniques se développent continuellement, pour faire face à différents problèmes. Les attentes envers ces analyses sont de plus en plus élevées, et on cherche à les rendre de plus en plus efficaces, et de plus en plus adaptées à des situations concrètes, parfois très spécifiques. Ainsi, lorsque l'on tente d'expliquer une variable par plusieurs autres variables (la première étant la variable expliquée, ou endogène, et les autres étant les variables explicatives, ou exogènes), on ne cherche pas seulement à obtenir un modèle minimisant les erreurs d'estimations des individus actifs (individus à partir desquels le modèle a été construit), on cherche également à obtenir un modèle qui soit facilement interprétable, et qui permette d'effectuer des prévisions sur des individus (ou des entrées) pour lesquels on ne connaît pas la valeur de la variable explicative. Il faut, bien évidemment, que ces prévisions soient les plus proches possibles de la réalité. Il faut également que les modèles soient stables, c'est-à-dire que les chances d'obtenir un modèle trop éloigné de la réalité soient minimales, car on ne peut pas toujours comparer les valeurs estimées aux valeurs réelles, dont on ne dispose pas (à priori), puisqu'on cherche à les estimer. Il faut parfois même que ce modèle remplisse ces conditions alors que l'on dispose de très peu d'individus actifs, alors même que le nombre de variables explicatives est très élevé, ce qui rend pourtant, d'un point de vue théorique, la construction d'un modèle, représentatif de la réalité, très délicate. C'est précisément ce à quoi tente de répondre la régression PLS.

Comme nous allons le constater tout au long de ce mémoire, la régression linéaire simple ou multiple, répondant au simple critère des MCO (moindres carrés ordinaires), est souvent prise à défaut lorsqu'il s'agit d'applications de ce type. Soit, tout simplement, parce que les conditions initiales, à cause des propriétés mêmes de cette méthode, rendent son calcul impossible, ce qui est notamment le cas lorsque le nombre de variables explicatives devient inférieur au nombre d'individus actifs, puisqu'il existe alors une infinité de solutions au problème de la minimisation du critère des MCO, toutes répondant à une égalisation à zéro de ce critère (et donc impossibles à discerner les unes des autres). Soit, sans rentrer dans des cas aussi extrêmes, parce que cette méthode est peu efficace sur des situations tendant à approcher ce cas limite. La multicolinéarité des variables explicatives pose également d'importants problèmes de stabilité de cette méthode. La régression PLS, en contournant ces problèmes, parvient à proposer des modèles parfois étonnants de précision et de stabilité, compte tenu de conditions initiales qui sont parfois, à priori, très peu propices à l'établissement d'un modèle (échantillon de taille réduite, de mauvaise qualité, grand nombre de variables explicatives, ...). C'est ce que nous allons tenter d'expliquer, et d'apprécier, au cours de ce mémoire, en comparant et en opposant les deux approches.

Dans la première partie de ce mémoire, nous présenterons et définirons la méthode. Nous exposerons les formules qui permettent de construire ce modèle. Bien que la régression PLS puisse être multivariée (c'est-à-dire avec des modèles présentant plusieurs variables explicatives) et s'appliquer sur des échantillons présentant des données manquantes, nous ne nous intéresserons qu'au cas de la régression PLS univariée sans données manquantes, notamment afin de ne pas compliquer la compréhension et l'interprétation des formules. Nous verrons également que la régression PLS étant un processus itératif, dont les résultats varient en fonction du nombre d'étapes choisies, il est nécessaire de s'intéresser à des critères, plus ou moins objectifs, permettant de retenir un certain nombre d'étapes. Dans la seconde partie, nous nous intéresserons à quelques cas « extrêmes », mettant en valeur les qualités et défauts inhérents à l'approche PLS, de sorte à permettre au lecteur de mieux cerner l'enjeu de l'utilisation correcte de cette méthode. Nous verrons également que la régression PLS, en réalité, constitue une forme de généralisation de la régression linéaire au sens des MCO, et peut s'appréhender en termes de « moindres carrés partiels » (Partial Least Squares, dont les initiales sont à l'origine de l'appellation de la méthode). Enfin, dans la troisième partie, nous ferons de vrais simulations sur des jeux de données fictives (présentant un certain degré d'aléa) afin de faire une démonstration des qualités d'estimation de la régression PLS, particulièrement dans certaines conditions, tout en expliquant comment retenir le nombre correct d'étapes au regard des critères. Nous pourrons ainsi comparer les différents modèles obtenus et nous prononcer sur l'utilité de la méthode et de l'application des critères qui lui sont indissociables, tout en nous prononçant sur l'influence des propriétés de l'échantillon.

Il est important de noter que plusieurs logiciels ont été utilisés dans le cadre de ce mémoire. Les plus utilisés ont été Microsoft Word (rédaction du mémoire) et Microsoft Excel (réalisation de divers calculs, des tableaux, et de la partie simulations) dans leurs versions 2003 et 2007. Paint a été utilisé afin de convertir les tableaux Excel au format image. Certaines équations ont été générées à l'aide du complément Microsoft Equations 3.0. Les régressions PLS ont toutes été effectuées avec StatBox Pro 6.40. Les régressions linéaires des moindres carrés ordinaires ont été effectuées avec Eviews 5.0.

SOMMAIRE

Introduction GénéraleFFFFFFFFFFFFFFFFFFFFFFFFFF.. 8

Partie 1 : Présentation de la régression PLS

I. Contexte historiqueFFFFFFFFFFFFF.FFFFFFFFFF... 13

II. Qu'est-ce que la régression PLS 7 FFFFFFFFFFFFFFFFFF. 13

III. Principes d'une régression linéaireFFFFF...FFFFFFFFFFFF 14

IV. Les avantages de la régression PLS 15

V. Le principe de la régression PLS univariéeFFFFFFFFFFFF.FF 16

VI. Les étapes de calcul de la régression PLS1 19

VII. Indépendance des composantesFFFFFFFFFFFFFFFFFFF. 24

VIII. Centrage et réduction des donnéesFFFFFFFFFFFFFF.FFF 26

IX. Le critère de validation croisée FFFFFFFFFFFFFFFFFF 28

X. Les critères liés à la covariance composante - variable expliquéeFFFFF 32

Partie 2 : Utilisation de la régression PLS sur des cas limites

I. Régression PLS avec une seule variable explicativeFFFFFFFFFFF. 35

II. Un exemple à trois variables explicativesFFFFFFFFFFFFFF.F 38

III. La régression linéaire et le critère des moindres carrésFFFFFFF...FF 48

IV. La régression PLS comme généralisation des MCOFFFFFFFFFFF 48

V. Le critère de la régression PLSFFFFFFFFFFFFFFFFFFF 53

Partie 3 : Simulations

I. Test n°1FFFFFFFFFFFFFFFFFFFFFFFFFF...FF 64

II. Test n°2FFFFFFFFFFFFFFFFFFFFFFFFFF...FF 82

III. Test n°3FFFFFFFFFFFFFFFFFFFFFFFF.FFFF 102

IV. Conclusions sur les simulations réalisées 119

Conclusion généraleFFFFFFFFFFFFFFFFFFFFFFFFFF. 121

Bibliographie 124

Table des matières 125

AnnexesFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFF. 127

PARTIE 1

Présentation de la régression

PLS

I. Contexte historique1

La régression PLS (Partial Least Squares regression) est une technique d'analyse et de prédiction relativement récente. Elle a été conçue pour faire face aux problèmes résultants de l'insuffisance de l'utilisation de la régression linéaire classique, qui trouve ses limites dès lors que l'on cherche à modéliser des relations entre des variables pour lesquelles il y a peu d'individus, ou beaucoup de variables explicatives en comparaison au nombre d'individus (le nombre de variables explicatives pouvant excéder très largement le nombre d'individus), ou encore lorsque les variables explicatives sont fortement corrélées entre elles.

La méthode PLS répond précisément à ses problèmes. Cette méthode fut proposée par Wold S., Albano C., Dunn III W.J., Esbensen K., Hellberg S., Johansson E. et Sjôstrôm M. en 1983, et connu de grands succès dans le domaine de la chimie, où, souvent, les données répondent à ce type de propriétés. La méthode PLS fut principalement développée autour de Svante Wold, qui a dirigé de nombreuses thèses portant sur le sujet. De plus, ce dernier, associé à Nouna Kettaneh-Wold et à plusieurs collaborateurs, ont développé le logiciel d'analyse des données SIMCA-P, logiciel centré sur la régression PLS.

En France, Michel Tenenhaus s'est beaucoup intéressé à cette méthode et a réalisé de nombreux travaux à ce sujet. Son ouvrage « La régression PLS -- Théorie et Pratique » (2002, éditions TECHNIP) a énormément contribué à la réalisation de ce mémoire, notamment dans la partie théorique de ce dernier.

Par ailleurs, Tenenhaus M. pense que la régression PLS pourrait connaître les mêmes succès qu'en chimie si elle était utilisée dans d'autres domaines.

Voyons à présent en quoi consiste cette méthode.

II. Qu'est-ce que la régression PLS ?

La régression PLS est une méthode statistique permettant d'identifier des relations entre plusieurs variables. Il y a toujours, d'une part, les variables explicatives (notées généralement x1, ..., xp), et les variables expliquées (notées généralement y1, ..., yq). Ces variables sont, dans une régression PLS, toutes étudiées sur les mêmes « individus ». On distingue la régression PLS univariée, ou « régression PLS1 », de la régression PLS multivariée, appelée également « régression PLS2 ». Dans le premier cas, la régression ne porte que sur une seule variable expliquée. Dans le second, il peut y avoir plusieurs variables expliquées (et, même si l'algorithme de la régression PLS multivariée est présenté différemment de celui de la version simple, il constitue une généralisation de

1 D'après Tenenhaus M. (2002). La Régression PLS-- Théorie et Pratique, Editions TECHNIP

ce dernier dans la mesure où les résultats sont équivalents lorsque la régression PLS multivariée ne porte que sur une seule variable expliquée).

La régression PLS s'inscrit dans la catégorie des régressions linéaires. Il convient donc, avant de rentrer dans le coeur du sujet, de comprendre ce qu'est une régression linéaire.

III. Principes d'une régression linéaire

Le but de la régression est donc d'expliquer les valeurs et les variations d'une ou plusieurs variables expliquées (les « y ») par les valeurs et les variations d'une ou plusieurs variables explicatives (les « x »). Par exemple, on peut chercher à expliquer le poids d'un individu (variable expliquée) par sa taille (variable explicative). Dans ce cas, on a une régression PLS univariée avec une seule variable explicative. Naturellement, il paraît difficile d'admettre, dans la pratique, que le poids d'un individu puisse être seulement expliqué par sa taille. En effet, plusieurs individus de même taille peuvent avoir un poids différent, et, plus généralement, on peut dire que le poids des individus n'est pas strictement fonction de leur taille. Cela ne veut pourtant pas dire que la taille d'un individu ne peut pas constituer un facteur explicatif de son poids. Il s'agit donc d'une « variable explicative » potentielle parmi d'autres. On peut affiner l'analyse en ajoutant, dans la liste des variables explicatives, le montant du budget de cet individu consacré à l'alimentation. Cela devrait donc nous permettre, en partie, de comprendre pourquoi deux individus de même taille peuvent avoir un poids différent (la seconde variable explicative, c'est-à-dire la part de budget consacrée à l'alimentation, pouvant d'expliquer certaines divergences). Evidemment, cela ne suffira pas à expliquer entièrement les écarts que l'on peut observer d'un individu à l'autre. Il est bien entendu possible de trouver des variables supplémentaires susceptibles d'expliquer mieux encore les variations de la variable « poids » d'un individu à l'autre. Mais le fait d'intégrer de plus en plus de variables rend l'analyse plus compliquée et les résultats plus difficiles à interpréter. En fait, on attend de l'analyse qu'elle nous renseigne à la fois sur l'importance des différentes variables « explicatives », et sur le bienfondé de l'intégration de chaque variable dans l'analyse.

Il est important de signaler que l'analyse ne doit jamais porter sur un seul individu. En effet, ce qu'on attend de la régression, c'est qu'elle nous fournisse les coefficients (associés à chaque variable explicative) les plus pertinents possibles. On cherche (lorsque la régression se limite à une seule variable expliquée) une fonction linéaire permettant d'estimer une valeur de « y » en fonction de chaque valeurs prises par les x1, ...,xp. Cela passe donc par la recherche de coefficients, de sorte à trouver une fonction du type y = a*x1 + b*x2 +... Si la régression porte sur un seul individu, les coefficients seront infiniment instables dès lors qu'il y a plus d'une variable explicative. En effet, si on prend le cas d'un individu de 80 kg, mesurant 180 cm et consacrant 1.000 € chaque année à l'alimentation, il existe une infinité de combinaisons permettant de retranscrire cette relation. Par exemple, on pourrait dire que le poids en kg de cet individu est égal à

0,444 fois sa taille en centimètres, ou bien à 0,08 fois son budget alimentation en euros, ou encore à 0,222 fois sa taille en centimètres auxquels on additionne 0,04 fois son budget alimentation en euros. Cela nous donnerait une infinité de modèles impossibles à départager. Et, plus important encore, ce modèle ne serait probablement pas pertinent s'agissant d'un autre individu. Il faut donc, de préférence, un nombre d'individus assez conséquent, de sorte à avoir une régression plus pertinente, susceptible de correspondre à n'importe quel individu, avec une marge d'erreur dont on peut se faire une idée raisonnable. Naturellement, le fait d'intégrer toujours plus d'individus à l'analyse ne supprimera pas la marge d'erreur. Mais cela permettra d'avoir les coefficients les plus précis possibles, et d'avoir une idée précise de la marge d'erreur (qu'on peut estimer, par exemple, à l'aide du coefficient de corrélation).

En fait, le but premier de la régression n'est pas de s'intéresser à un individu particulier, mais à un individu « abstrait », pour lequel les relations entre les variables sont des relations valables « en moyenne », peu importe les valeurs prises par les variables explicatives. Lorsqu'on a estimé les coefficients de la régression, on attend que celle-ci nous donne un modèle qui, pour chaque valeurs que peuvent prendre les différentes variables explicatives, renvoi une valeur de la variable expliquée qui, en moyenne, doit correspondre à la réalité, avec la marge d'erreur la plus faible possible.

Ceci est donc l'objet de la régression PLS. Mais c'est aussi celui de la régression linéaire simple ou multiple (avec, dans ce cas, toujours une seule variable expliquée « y »). Cette régression linéaire à un objectif simple : trouver les coefficients, pour chaque variable explicative, qui minimisent les écarts, pour la variable expliquée, entre les valeurs estimées par le modèle, et les valeurs observées dans la pratique, pour l'échantillon donné sur lequel est effectué la régression. Il s'agit de minimiser la somme des résidus (mis au carré, dans le simple but d'éviter la compensation systématique des erreurs positives et négatives), ou, dit autrement, de maximiser le coefficient de corrélation (ce qui est un objectif propre à la régression linéaire, qui ne s'applique pas forcément à la régression PLS, du moins pas dans toutes ses étapes).

Voyons à présent quel est l'intérêt de la régression PLS par rapport aux autres modèles linéaires.

IV. Les avantages de la régression PLS

Etant donné que la régression linéaire permet de traiter le type de problème que nous avons précédemment abordé, pourquoi donc chercher à utiliser la régression PLS ? Qu'est-ce qu'elle apporte de plus que la régression linéaire ?

Partie 1: Présentation de la régression PLS En fait, les avantages de la régression PLS sont nombreux :

- Tout d'abord, dans le cas régression PLS multivariée (régression PLS2), il peut y avoir plusieurs variables expliquées. Nous n'évoquerons malheureusement pas ce cas.

- Dans le cas où une des variables explicatives serait une stricte combinaison linéaire des autres, la régression linéaire ne peut avoir lieu sans enlever au moins une variable explicative de l'analyse. La régression PLS ne présente pas cet inconvénient.

- La régression PLS peut traiter des cas où les individus seraient moins nombreux que les variables explicatives. La régression linéaire ne peut le faire.

- La régression PLS, étant basée sur l'algorithme NIPALS, permet de travailler sur des échantillons même si certaines données manquent pour certains individus pour certaines variables, et ce sans même à avoir à estimer au préalable les données en question. Néanmoins, nous nous limiterons dans ce mémoire aux formules de la régression sans données manquantes, car elles sont plus faciles à interpréter.

- Lorsque les variables explicatives sont fortement corrélées entre-elles, la régression linéaire devient très peu pertinente, au sens où les coefficients qui en ressortent deviennent très instable lorsque l'on « bruite » les données (on fait varier, de manière aléatoire et très légère, les données de l'échantillon). La régression PLS, basée sur des critères de covariance, est considérée comme étant plus robuste. Les coefficients demeurent stables et gardent une certaine significativité, même en présence de corrélations fortes entres les variables.

Voyons donc comment fonctionne cette méthode qui semble si avantageuse.

V. Le principe de la régression PLS univariée

Le principe de la régression PLS est assez simple, bien que se déroulant en un nombre d'étapes à priori non défini (se construisant toutes de la même manière, à partir des résidus des précédentes étapes).

On a d'une part une variable qu'on cherche à expliquer « y », et d'autre part des variables explicatives « x1, x2, ..., xp ». Les valeurs de ces variables (les yi, x1i, x2i, ..., xpi) sont observées sur « n » individus.

Remarque : Les données associées aux variables y, x1, x2, ..., xp seront centrées et réduites, ce qui est obligatoire et indispensable dans le cadre de la régression PLS. Les coefficients de corrélation entre ces variables seront donc égaux à leur covariance. Pour centrer les données, on soustrait à chaque donnée de la série la moyenne de la série. Pour les réduites, on divise chaque donnée de la série par l'écart type de cette dernière. Au final, on a donc une moyenne nulle pour chaque série, et un écart-type égal à 1 (et donc une variance elle aussi égale à 1). Nous reviendrons plus tard sur le centrage et la réduction des données, qui sont des étapes assez simples, n'altérant pas la structure de variance des différentes données.

La régression va consister à chercher des composantes ti, t2, ..., s'exprimant en fonction des variables explicatives xi, x2, ..., xp, en trouvant une série de coefficients (pour chaque composante : un coefficient associé directement ou indirectement à chaque variable) pour chaque composante, à la manière d'une régression linéaire, à la différence près que les coefficients sont calculés sur base d'un critère de covariance.

On procède par étape. D'abord, on défini ti en cherchant des coefficients w11, wi2, ..., wip pour chaque variable explicative. On obtient donc une équation du type : t1 = wMM*xM +w12*x2 + ... + w1p*xp.

Ensuite, on effectue une régression linéaire de ti sur y. Ainsi, on peut exprimer y en fonction de ti, à l'aide d'un coefficient ci (9- = ci*ti)2. En fait, cela permet tout d'abord d'obtenir de manière rapide un coefficient de corrélation, afin d'estimer la qualité de la régression à l'étape 1. Ensuite, cela permet d'exprimer directement y en fonction de xi, x2, ..., xp, en « transformant » les coefficients wMM, wM2, ..., wip, en les multipliant par une constante, afin de réorienter la régression sur l'échelle de la variable y.

A l'étape 1, l'équation sera donc la suivante : 9-= cM*wMM*xM + ci*wi2*x2 + ... + cl*w1p*xp. (1)

On a donc une régression s'exprimant de manière similaire à une régression simple, mais avec un critère de covariance. On connaît la qualité de la régression grâce au coefficient de corrélation de ti avec y.

Néanmoins, si la qualité de la régression n'est pas satisfaisante, on peut l'améliorer en ajoutant des composantes supplémentaires.

Dans la deuxième étape, on va s'intéresser à la fraction de variance des variables qui échappe à la première étape de la régression, c'est-à-dire les résidus. On va donc effectuer les régressions des variables y, xi, x2, ..., xp sur ti et obtenir des séries statistiques correspondant aux résidus de ces séries de base, séries que nous nommerons respectivement yi, xii, xM2, ..., xlp.

Ensuite, la même méthode qu'à l'étape 1 sera appliquée pour déterminer une composante t2, mais cette fois à partir des séries y1, x11, x12, ..., xlp. On obtient alors des coefficients w2i, w22, ..., w2p qui permettent d'exprimer t2 en fonction de xMM, xM2, ..., xip. Nous verrons qu'il est possible, à partir de là, et des régressions des variables explicatives sur ti, d'exprimer directement t2 en fonction des variables initiales

2 Pour chaque modèle, 9- est la notation employée pour désigner l'estimation de la variable y par le modèle en question. Pour obtenir la valeur de y correspondante (dans le cas d'un individu connu), il suffit d'ajouter à 9- les résidus de la régression du modèle en question.

centrées-réduites (plutôt qu'en fonction de leurs résidus, ce qui facilite le calcul et l'interprétation), avec des coefficients recalculés.

Ensuite, on effectue une régression linéaire multiple de y sur ti et t2. Comme c'est une régression linéaire, la qualité de la régression ne peut qu'en être améliorée (du moins au niveau du coefficient de corrélation).

On obtient alors l'équation suivante : y = ci*ti + c2*t2. Nous verrons par la suite pourquoi le coefficient ci n'est pas modifié par rapport à la régression de la première étape.

Si on détaille cette équation, obtient :

y = ci*Wii*xi + ... + cl*W1p*xp + c2*W21*x11 + ... + c2*W2p*xlp (2)

Nous verrons qu'il est possible de simplifier cette équation de sorte à exprimer directement y en fonction des variables explicatives initiales, c'est-à-dire en éliminant les séries correspondant aux résidus des régressions des variables initiales sur ti. Une telle simplification sera possible à chaque étape, de sorte à conserver, à chaque étape, un modèle linéaire s'exprimant directement en fonction des variables initiales.

Cette équation, à l'étape 2, paraît déjà fort complexe sous forme de formule. Néanmoins, dans le cas d'un exemple concret, elle est écrite de manière tout à fait similaire à une régression linéaire multiple (lorsque les coefficients sont connus numériquement). Seuls les coefficients affectés à chaque variable varient.

Naturellement, on peut encore ajouter des étapes supplémentaires pour affiner la qualité de la régression, selon le même principe. Cela ne compliquera pas vraiment l'étude du modèle définitif car il sera toujours aussi facile à analyser (un seul coefficient définitif pour chaque variable explicative, même si ce coefficient s'obtient par un calcul de plus en plus long au fur et à mesure que l'on ajoute des étapes).

Notons qu'il est possible de retenir un certain nombre d'étapes en fonction de critères objectifs quant à la significative de chaque étape. Nous nous intéresserons par la suite à quelques critères permettant de déterminer, plus ou moins objectivement, le nombre d'étapes à retenir.

Il est maintenant temps de passer aux étapes de calcul à proprement parler.

VI. Les étapes de calcul de la régression PLS1

Comme expliqué précédemment, nous nous contenterons des formules de la régression PLS sans données manquantes, afin d'éviter de compliquer l'interprétation de ces dernières. Néanmoins, il est bon de savoir que, en cas de régression PLS avec données manquantes, les formules changent, même si elles sont équivalentes à celle de la régression PLS sans donnée manquantes lorsqu'il ne manque aucune donnée.

Dans un premier temps, il s'agit de trouver une composante qu'on nommera t1, qui, à l'instar de la variable expliquée dans la régression linéaire, sera exprimée en fonction des variables explicatives à l'aide de coefficients qui seront calculés au cours de cette étape. « y » sera par la suite exprimé directement en fonction de cette composante « t1 ».

Ces coefficients, notés w1j (dans le cas de celui associé à la « jème variable explicative », le « 1 » étant associé à la première composante « t1 ») vont être déterminés selon un critère de covariance, et leur méthode de calcul est très simple et facilement interprétable, surtout en l'absence de données manquantes.

La formule, pour le jème coefficient, est la suivante :

Y

~

Cov(x ~

~ ~

~

(3)

~

Y

~

 

p ~

~

Cov2(x ~ ~

19

(Naturellement, il ne faut pas confondre le « j » de la somme des « covariances-carré » de tous les « xj » avec y, avec le « j » présent dans le terme « w1j » et au dénominateur de l'expression du membre de droite, qui signifie que l'on s'intéresse uniquement au cas de lajème variable)

Ce sont donc les covariances, pondérées par la racine de la somme de leurs carrés, qui vont déterminer les coefficients de la composante « t1 », et donc indirectement la relation entre les variables explicatives et « y ». Le fait que la pondération s'effectue par rapport à des covariances dont les valeurs sont mises au carré indique qu'on souhaite éviter la neutralisation des covariances positives et négatives, et qu'on veut pondérer chaque covariance par l'importance totale de toutes les covariances entre les variables explicatives et « y ».

Le fait que la covariance d'une variable explicative avec la variable « y » détermine directement le coefficient qui sera affecté à cette variable dans le modèle explicatif de la variable « y », signifie que quoi qu'il arrive, plus cette covariance sera élevée, et plus le coefficient sera important, et ce quelque soient les corrélations relatives des différentes variables explicatives. On a donc ici une première idée de la « robustesse » de la régression PLS.

20

Une fois les coefficients wMj obtenus, il devient très facile d'obtenir la composante ti :

p

t1 1 ixi ~(4)

i 1

Dit autrement :

tl = wMM*xM + w12*x2 + ... + wip*xp (5)

Ensuite, on effectue une régression simple de y sur ti, et on obtient donc :

."= cM*tM (6)

." correspondant à la série des estimations des valeurs dey selon cette régression.

Et donc y = ci*ti + yi (7)

yi correspondant naturellement à la série des résidus de cette régression simple.

On peut donc exprimer y directement en fonction des variables explicatives xi, ..., xp. ."= cl*w11*x1 + cl*w12*x2 + ... + cl*w1p*xp (8)

Il s'agit là d'une manière de réajuster les coefficients wMj à l'échelle de y, en les multipliant par la constante ci.

Les « p » coefficients wij*ci nous donnent des indications claires sur l'importance de la prise en compte de chaque variable sur la régression. En outre, ces coefficients seront du même signe que les coefficients de corrélation et que les covariances des variables auxquelles ils sont associés avec y. Ils seront d'ailleurs directement proportionnels aux covariances. Il n'en va pas de même dans une régression linéaire multiple. Il en résulte une interprétation des coefficients beaucoup plus simple.

Cette régression simple, de y sur ti, nous permet d'obtenir un coefficient de corrélation, qui nous permet d'apprécier la qualité de la régression à l'étape 1, ainsi qu'une série de résidus yl, qui s'obtient en calculant la différence suivante :

y1 = y -- cM*ti (9)

Si on estime la qualité de la régression insuffisante, on peut passer à l'étape 2, qui se déroule de manière comparable à l'étape 1, mais qui porte non plus sur les variables initiales (centrées-réduites) y, xi, ..., xp mais sur les résidus de leur régression simple sur ti, qu'on appellera donc yi, xMM, ..., xip. Ces nouvelles séries, créées en effectuant autant de régression simples que de variables, sont donc indépendantes de la première composante ti. Le pouvoir explicatif de la composante t2, qui sera créée sur base de ces

variables, sera donc complètement nouveau et pourra donc venir s'additionner à celui de la composante ti.

A l'étape 2, nous allons obtenir une série de coefficients W2; (W2i, W2p), qui nous

permettront d'exprimer t2 en fonction des variables xMM, F, xip, résidus des régressions des variables y, xi, F, xp sur ti.

La formule de ces coefficients est strictement identique à celle de leurs équivalents de l'étape 1. Seules les variables sur lesquelles ils sont calculés changent (on passe des variables de départ aux séries de résidus) :

)

w2

~

)

Cov(x1i ,

~ 1

(10)

i 1

i

Cov2(x1i ,

~ 1

21

Et, de manière équivalente à l'étape 1 :

~

t2 w2

ix1(11)

i 1

On effectue une régression de y sur ti et t2 et on obtient la relation suivante : y = ci*ti + c2*t2 + y2 (12)

Le coefficient ci restera identique à celui de l'étape 1 car, les variables ti et t2 étant indépendantes, la prise en compte de la variable t2 dans la régression ne modifie pas la relation initiale définie dans la régression entre y et ti.

Néanmoins, cette formulation pose problème, puisque cette fois, y est fonction des variables initiales, mais aussi des variables résiduelles (obtenue par régression sur ti) :

[= cl*W11*x1 + F+ cl*W1p*xp + c2*W21*x11 + F+ c2*W2p*xlp (13)

Les équations deviennent plus chargées, et l'interprétation plus compliquée. Les estimations deviennent également nettement plus laborieuses, si on donne des valeurs arbitraire aux variables xi et si on cherche à connaître la valeur correspondante pour y estimée par le modèle.

Mais il y a moyen de ré-exprimer l'équation de t2 directement en fonction des variables initiales xi. Pour se faire, il suffit de se rappeler comment celles-ci ont été construites : à partir des variables xi et de ti, lors des régressions des variables xi sur ti.

22

Ainsi, on a effectué, pour chaque valeur de j allant de 1 à p, la régression linéaire simple suivante :

x; = cii*ti + xM+ (14) Le coefficient « ci; » étant le coefficient de régression de la variable x; sur tM.

Les xi; peuvent donc s'exprimer de la manière suivante :

xi; = xi -- ci+*ti (15)

Donc, il est possible d'exprimer t2 en fonction des coefficients cii, et des variables xi et de la composante ti.

P

t2 = E W2J . * (X J . -- c 1J . * t ) .(=> (16)

J . 1

Sachant que la composante ti peut elle aussi s'exprimer en fonction des variables xj. L'équation devient donc :

P P

t2 W2 J .* (X -c1J . EW1J . X ) (17 )

J .1 J .1

Si on détaille l'équation, cela nous donne :

t2 = w21*[xl -- ciM*(wiM*xi+ +wip*xp)] + + w2p*[xp -- cip*(wiM*xi + + wip*xp)]

Equation que l'on peut réécrire :

t2 = W21 *X1 -- (EP c1J . W2J . W11)* #177;
·
·
·+ W2P P X (P c1J . * W2J . * P )* X P

J .1J .1

Ou encore :

P P

(18)

t2 (w21

2 W *

11 c1J .

W )*X (W *E )*X

2J . 1 "' 2P -W C W 1P 1J . 2J . P

J .1 J .1

On peut donc définir des coefficients que nous appelleront « w2i' » permettant d'exprimer t2en fonction des variables xi :

W2

P

J .I=W2J .-W Ec *W

2j

1J . 1J . 2j

(19)

J . 1

23

Partie 1: Présentation de la régression PLS Ainsi, on peut résumer t2 à l'équation suivante :

p

t2

w / .'*X

/ .

2

(20)

/ . 1

C'est-à-dire :

t2 = w21'*x1 + ... + w2p'*xp (20) L'équation de y devient alors :

p p

Y*

J

* *w

1

c1

. X/ . #177;c2 *Ew2/ . X q (21)

/ . 1 / . 1

Où y* est une autre notation pour .3

Ou:

[= c1*w11*x1 + ... + c1*w1p*xp + c2*w21'*x1 + ... + c2*w2p'*xp Equation qui peut se réécrire :

[= (c1*w11+c2*w21')*x1 + ... + (c1*w1p+c2*w2p')*xp (22) ou encore

y = (c1*w11+c2*w21')*x1 + ... + (c1*w1p+c2*w2p')*xp + y2 (23) y2 étant la série des résidus de la régression de y sur (t1,t2).

y peut donc s'écrire directement en fonction des variables xj.

La régression de y sur t1 et t2 nous donne le coefficient de corrélation de la régression à l'étape 2. Il nous permet également, par déduction, de connaître l'amélioration du coefficient de corrélation du fait de l'ajout de la 2ème étape.

On peut bien évidemment envisager une 3ème étape, en travaillant à partir des résidus de l'étape 2. Pour se faire, on peut soit effectuer une régression multiple de y, x1, ..., xp sur (t1,t2) et calculer les résidus, soit effectuer une régression simple de y1, x11, ..., x1p sur t2, et calculer les résidus. La seconde méthode semble être la plus simple étant donné qu'à

3 Les différences de notations sont dues à l'utilisation de Microsoft Equations 3.0, logiciel permettant d'insérer des équations notamment dans des documents Word mais ne présentant pas les mêmes possibilités en matière d'insertion de caractères spéciaux.

ce stade des calculs, on connaît normalement déjà les variables yi, xii, ..., xMp puisqu'on a été obligé de les calculer lors de la seconde étape.

Nous allons maintenant nous intéresser à une propriété très intéressante des composantes, il s'agit de l'orthogonalité (indépendance) des composantes entre elles.

VII. Indépendance des composantes

L'une des propriétés primordiales d'une régression PLS est l'indépendance des composantes ti, t;, ..., tH formées à partir des variables explicatives.

En effet, la première composante ti est formée à partir des variables explicatives, en leur donnant certains coefficients sur base de leur covariance avec la variable expliquée « y » (ou de leur coefficient de corrélation avec la variable y si les variables sont centrées réduites). Pour se faire, la variable ti sera représentative d'une partie de la variance des variables explicatives. Bien entendu, si y n'est pas une combinaison linéaire des variables explicatives, et qu'il y a plus d'une variable explicative dans l'analyse (et qu'aucune de ces variables n'est combinaison linéaire des autres), la variable ti sera insuffisante pour expliquer toute la variance de y, de même qu'elle sera insuffisante pour expliquer toute la variance des variables explicatives, et toute la covariance des variables explicatives avec y.

Il en demeurera un résidu. La variance de y ne sera pas totalement expliquée par la variance de ti. Il y a moyen d'améliorer le pouvoir explicatif du modèle. Pour cela, on s'intéresse aux résidus, qui ont été « oubliés » par la première composante. Cette première composante est indépendante des résidus. Or, on se sert de ces résidus pour construire la seconde composante t;, qui sera par la même occasion indépendante de ti. La composante t; s'intéressera donc à la variance de y qui n'est pas expliquée par ti. Les résidus qui en résulteront, qui sont donc indépendants de t;, et indépendants de ti (ils sont le résultat d'une régression sur des résidus qui sont déjà indépendants de ti), serviront à la création de t3. t3 sera donc indépendante de ti et t;. Il en ira de même pour toutes les composantes, qui seront toutes indépendantes entre elles.

Cette indépendance peut se démontrer assez facilement d'un point de vue mathématique. Voici la démonstration telle qu'elle est présentée dans l'ouvrage « La Régression PLS Théorie et Pratique » de Michel TENENHAUS, avec quelques précisions supplémentaires :

L'argument avancé est le suivant : th'tl = 0 pour l_h.

th est le vecteur formé des « n » valeurs que prend la hième composante pour les « n » individus. th' est la transposée du vecteur th.

tl est le vecteur formé des « n » valeurs que prend la lième composante pour les « n » individus.

Le fait que le produit th'tl soit égal à 0 traduit covariance nulle entre les deux composantes, et donc une indépendance de celles-ci, pour autant que les variables de départ soient centrées (ce qui donne également des composantes centrées). Si les composantes sont centrées, leur moyenne est nulle. Les écarts à la moyenne deviennent donc égaux aux valeurs prises. La covariance, qui est la moyenne des produits des écarts à la moyenne, devient donc égale à la moyenne des produits des valeurs des composantes. Si th'tl = 0, cela veut dire que la somme des produits des valeurs des composantes h et l est nulle. Donc, la moyenne de ces produits est également nulle. La covariance est donc nulle, et les variables sont donc indépendantes.

On a ti't2 = ti'Xiw2 = 0 puisque ti'Xi = 0.

Xi étant la matrice des résidus des régressions des variables xi sur ti. w2 est le vecteur de coefficients associés aux résidus xi; pour former la composante t2.

Le fait que ti'Xi = 0 vient du fait que la matrice Xi est la matrice des résidus des régressions des variables xi sur ti.

Supposons ti, ..., th orthogonaux, alors les vecteurs ti, ..., th#177;i sont orthogonaux. Montrons que th#177;i est orthogonal aux vecteurs ti, ..., th :

t'hth#177;i = t'hXhwh#177;i = 0 puisque t'hXh = 0

t'h-fth#177;1 = t'h-1Xhwh#177;1

= t'h-1[Xh-1- thp'h]wh#177;i

= [t'h-iXh-i -- t'h-ithp'h]wh#177;i

= 0 puisque t'h-iXh-i = 0 et t'h-lth = 0 par l'hypothèse de récurrence.

Sachant que ph=X'h-ith/t'hth, c'est à dire que ph est le vecteur des coefficients de régression entre la composante th et les xh-1j.

t'h-2th#177;1 = t'h-2Xhwh#177;1

= t'h-2[Xh-2 -- th-ip'h-i -- thp'h]wh#177;i = 0

Puisque t'h-2Xh-2 = 0, t'h-2th-i = t'h-2th = 0, et ainsi de suite, d'où le résultat.

Cette indépendance entre les composantes entraîne mécaniquement l'impossibilité de construire un nombre de composantes supérieur au nombre de variables explicatives comprises dans la régression, puisqu'elles sont formées à partir de ces variables. De plus, si certaines variables explicatives sont strictement combinaisons linéaires les unes des autres, cela entraînera d'autant une réduction du nombre maximal possible d'étapes.

On peut, par un raisonnement similaire, penser que la présence de variables fortement autocorrélées (sans être forcément combinaisons linéaires les unes des autres) réduit d'autant l'intérêt d'intégrer un trop grand nombre de composantes dans l'analyse.

Nous allons, à présent, nous intéresser brièvement au centrage et à la réduction des données, deux notions capitales en analyse statistique, et incontournable en régression PLS (du moins s'agissant du centrage des données).

VIII. Centrage et réduction des données

Il est important, avant d'interpréter une régression, de savoir si elle porte sur des données centrées ou non, réduites ou non. L'interprétation du modèle obtenu en est complètement modifiée.

Le fait de centrer les données permet notamment de ne retenir que les variations des variables autour de la moyenne. Cela facilite en outre les calculs de covariance et des coefficients de corrélation. Le centrage des données ne modifie en aucun cas la variance (et l'écart-type) mais ramène la moyenne de la série à O. Pour centrer une série, on retranche à chacune de ses données la moyenne de la série.

La réduction des données permet d'éliminer les effets d'échelle. Une série de grands nombres, telle que le PIB d'un pays, aura tendance à varier très fortement (en valeur absolue), alors qu'une série de nombre faibles, comme par exemple des taux d'intérêts, aura tendance à varier très peu (toujours en valeurs absolue). La réduction des données permet de prendre équitablement en compte les variations relatives autour de la moyenne, et non les variations absolues. Le fait de réduire une série de données ramène la valeur de l'écart-type (et donc de la variance) de la série à 1. Lors d'une régression, la réduction des données va peser sur l'ordre de grandeur des coefficients.

La réduction des données n'affecte pas la qualité d'une régression. En revanche, le centrage l'affecte généralement. En effet, centrer les données revient à considérer les données non centrées auxquelles on ajoute une constante.

En régression PLS, les données doivent être impérativement centrées, sans quoi les propriétés mathématiques de la régression seraient modifiées. Il serait en outre impossible de régresser sur des données non centrées avec constante (car les coefficients, basés sur des critères de covariance, seraient systématiquement nuls pour une constante). Cela affecterait la qualité de la régression.

La réduction des données n'est par contre pas nécessaire. Elle influence seulement l'ordre de grandeur des coefficients. Le fait de ne pas réduire les données permet une interprétation plus directe des coefficients. Le fait de travailler sur un modèle réduit permet en revanche d'obtenir des coefficients qui représentent mieux la part « d'explication » de la variance de y par chaque variable explicative.

Note : Normalement, lorsqu'on centre et on réduit les données, on commence d'abord
par les centrer, puis on les réduit dans un second temps. L'inverse est possible, mais

27

après la réduction, il faut retrancher des données la « moyenne réduite » (la moyenne des données réduites) et non la moyenne de la série initiale. Ceci vient du fait que la réduction des données affecte à la fois la variance et la moyenne, alors que le centrage n'affecte que la moyenne (donc, réduire en second lieu n'impose pas de recalculer la variance des données centrées). Quoi qu'il en soit, centrage des données et réduction des données sont deux concepts indépendants.

Bien qu'il ne soit pas possible d'effectuer une régression PLS sur des variables non - centrées, et qu'il soit impossible de calculer une constante, il est possible de passer, après obtention des résultats, d'un modèle centré à un modèle non-centré avec constante.

Notons qu'il est également possible (et facile) de passer d'un modèle centré, réduit, à un modèle centré, non réduit.

Prenons par exemple trois variables. A comme variable expliquée, B et C comme variables explicatives. Notons Acr, Bcr et Ccr les variables A, B et C centrées et réduites, et Ac, Bc et Cc les variables centrées non-réduites.

Si on travaille sur modèle centré-réduit, on aura une relation du type :

Acr = b*Bcr+c*Ccr, où b et c sont les coefficients obtenus par régression (quelle qu'elle soit) associés respectivement aux variables B et C.

Pour passer aux variables centrées, non réduites, il suffit de remplacer Acr, Bcr et Ccr par leur expression en fonction de Ac, Bc et Cc.

Acr = Ac/a(A), Bcr = Bc/a(B) et Ccr = Cc/a(C).

Le modèle devient donc :

Ac/a(A) = b*Bc/a(B) + c*Cc/a(C)

« Ac = [b*Bc/a(B) + c*Cc/a(C)^*a(A)

Ce qui nous donne :

Ac

*(a)1 *Bc [c * (a)

o-

(b)

o- (c) *Cc(24)

Les coefficients de la régression centrée (non-réduite) peuvent être obtenus en multipliant ceux de la régression centrée-réduite par le rapport de l'écart type de la variable expliquée sur l'écart type de la variable explicative (a(Y)/a(X) si Y est la variable expliquée et X la variable explicative considérée).

Le passage d'un modèle simplement réduit (non-centrée) à un modèle non-centré et non-réduit se fait bien entendu de la même manière.

28

On annule donc la réduction en multipliant les coefficients par le rapport des écarts types de la variable expliquée et de la variable explicative.

Pour décentrer des données, il suffit d'établir un raisonnement similaire. Si nous sommes en présence d'un modèle centré du type Ac = b*Bc + c*Cc (où Ac, Bc et Cc représentent les variables A, B, C une fois centrées), on peut le réécrire de la manière suivante :

)

A

(A--A)=b*(B--B)+c*(C--C
A=b
*(B--B)+c*(C--C)

A b*B+c*C--b*B--c*C+ A (25)

Sachant que A , B et C sont les moyennes calculées initialement sur les séries A, B et C.

La manipulation est la même si l'on souhaite passer d'un modèle centré-réduit à un modèle non centré et réduit, à la différence près qu'il faut retrancher les moyennes réduites en lieu et place des moyennes initiales.

IX. Le critère de validation croisée

La validation croisée se base sur la qualité d'approximation du modèle des valeurs de la variable expliquée pour les individus sur lequel il se fonde.

On cherche à prendre en compte deux éléments, qu'on va ensuite comparer. Il s'agit des critères RSS (Residual Sum of Squares) et PRESS (PRediction Error Sum of Squares). Les deux prennent normalement des valeurs différentes pour chaque étape de la regression (ils diminuent à chaque étape).

Le premier, le critère RSS, n'est autre que la somme du carré des résidus (SCR), calculé en comparant les prédictions de la valeur expliquée (y) par le modèle pour chaque individu, aux valeurs initiales de la valeur y pour ces mêmes individus.

A l'étape h, la formule de RSS est :

n

RSSh =E(yi- (y *) hi )2 (26)

i ~

Où yi est la valeur initiale (centrée-réduite) pour l'individu i. (y*)hi = Shhi= ci*tii + + ch*thi (27)

On peut résumer ce critère en disant qu'il s'agit de la somme des erreurs
d'approximation du modèle mises au carré. De la connaissance de ce critère, et de la
connaissance de la variance de la variable y, on peut aisément retrouver le coefficient

de détermination de la régression. Plus le coefficient de détermination de la régression est faible, et plus la somme des carrés des résidus est élevée. En effet, le modèle est d'autant plus efficace qu'il commet peu d'erreurs. Un modèle « parfait », dans cette optique, est un modèle pour lequel où les écarts des prédictions sont nuls, donc où SCR (RSS) est nul, et donc le coefficient de détermination (R2) égal à 1.

Le critère RSS nous donne donc une idée de la qualité du modèle. Mais le problème est qu'il n'est pas suffisant car il délivre une information « absolue » sur les résidus et non « relative » (relative à la variance de la variable à expliquer). C'est pourquoi le R2 lui est préférable.

Quoi qu'il en soit, plus la régression PLS comporte d'étapes, et plus la qualité d'approximation du modèle est bonne (ou, au moins, aussi bonne qu'aux étapes précédentes). Le critère RSS diminue donc d'étape en étape.

Ainsi, RSS1 RSS2 RSS3 ...

L'autre critère, le PRESS, lui est assez similaire. La différence est qu'il s'attache à mesurer la qualité de prédiction du modèle sur les individus lorsqu'ils sont exclus de ce modèle. Pour cela, on effectue, pour chaque individu, une régression PLS (à « h » étapes, car on cherche à mesurer la pertinence de la hème étape) en excluant cette individu des calculs du modèle. Ensuite, on estime la valeur de la variable expliquée pour cet individu, à l'aide des valeurs de ses variables explicatives et des coefficients obtenus dans la régression qui ne prenait pas en compte la présence de cet individu. On compare cette valeur à la valeur effective de « y » pour cet individu, et on obtient un résidu. On renouvelle l'étape avec tous les autres individus, et puis on fait la somme du carré de ces résidus.

Par exemple, on commence en prenant le premier individu d'une régression qui comporte « n » individu. On effectue la régression PLS sur les (n-1) derniers individus, et on estime, à l'aide des coefficients de cette régression, et des valeurs des variables explicative pour ce 1er individu, la valeur de la variable expliquée, donnée par le modèle. On la compare avec la valeur effective de y et on garde le résidu. On répète ainsi l'opération avec le 2ème individu, en effectuant la régression sur le 1er et les (n-2) derniers individus. L'opération, au final, a été répétée autant de fois que la régression ne comporte d'individu, chacune de ces régressions visant à prédire la valeur de y de l'individu qui a été exclu de leur calcul4.

4 On peut également exclure des individus « bloc par bloc », par exemple deux par deux, et les prédire simultanément. La taille des blocs dépend avant tout de la quantité totale d'individus, car exclure systématiquement les individus un par un demande un nombre considérable de calculs.

PRESSh 0.95 * RSSh_i a (33)

30

Partie 1: Présentation de la régression PLS Voici la formule du PRESS de la régression PLS à l'étape h :

n

PRESS h = E (Yi - (Y*) h( i) )2 (28)

i i

Où y*h(-i) est mis pour ÿh(-i), c'est-à-dire l'estimation de « yi » par la régression PLS à h étapes qui ne prend pas en compte le ième individu.

On a donc deux estimateurs de la qualité de la régression. Le premier, le RSS, en prenant en compte 100% de l'information de la régression que l'on cherche à estimer, sera forcément plus faible (car l'estimation de meilleure qualité) que le PRESS, qui se prive, pour l'estimation de chaque individu, de la présence de l'individu en question dans les calculs.

Pour l'étape h, le PRESS sera donc supérieur au RSS. On sait également que le PRESS, à l'étape h, est inférieur au PRESS à l'étape h-1. Il en va de même pour le RSS.

On peut donc écrire les relations suivantes :

PRESSh z RSSh (29)

RSSh s RSSh-1 (30)

PRESSh s PRESSh-1 (31)

L'inconnue est la relation qui lie le critère PRESS à l'étape h au critère RSS de l'étape (h-1). Le PRESS de l'étape h sera forcément inférieur ou égal à ce qu'il était à l'étape h1. Il sera également forcément supérieur ou égal au RSS de l'étape h. En revanche, s'il parvenait à être inférieur au RSS de l'étape (h-1), cela voudrait dire que la qualité d'estimation du modèle s'est considérément améliorée, puisqu'il peut désormais estimer, avec plus de précision, les valeurs « yi » des individus, sans les connaître au préalable, que le modèle de l'étape précédente ne le peut, en les connaissant.

Donc, par exemple, le fait que la composante « h » ait une importance significative dans la régression pourrait se traduire par le fait que PRESSh soit inférieur à RSSh-1. On peut aussi être plus ou moins exigeant en donnant un coefficient différent de 1 à RSSh-1 :

PRESSh s x*RSSh-1 (32)

Si x est inférieur à un, on accentue la contrainte, on aura moins tendance à retenir des étapes supplémentaires.

Dans le logiciel SIMCA-P, par exemple, la composante th est retenue si :

31

Le fait que l'équation soit mise sous forme de racine est simplement la conséquence du fait qu'on cherche à se replacer à l'échelle des résidus, et non à l'échelle des résidus au carré. Cela rend le critère de choix mieux interprétable. Cela veut dire, à peu de choses près, que les résidus tels qu'ils sont calculés dans le PRESSh, pris en valeur absolue, ne doivent pas, en moyenne, excéder 95% des résidus tels qu'ils sont calculés dans le critère RSSh-1.

On peut se passer des racines et revenir à une équation de la même forme que la précédente (30), mais le coefficient doit être mis au carré.

PRESSh s 0.9025*RSSh-1 (34) Ou encore :

PRESSh < 0.9025 (35) RSS

h 1

Ceci est également retranscris de la manière suivante dans l'ouvrage « La Régression PLS : Théorie et pratique » de Michel Tenenhaus :

PRESS

Q2(h) --1--

h 0.0975 (36)

RSS h1

On peut passer de la forme précédente (35) à celle-ci (36) de la manière suivante :

PRESS

(35) <=> h 1 0.0975

RSS h1

PRESS

<=> h 0.0975 --1

RSS h 1

RSS

h 1

1 (36)

PRESSh

<=> h 0.0975

Tout ceci est donc strictement équivalent, mais certaines formes se prêtent mieux au calcul et d'autres mieux à l'interprétation.

Le principal problème du critère de validation croisée est qu'il fait appel à un nombre considérable de calculs. Il faut en effet effectuer, pour chaque étape, autant de régression PLS que d'individus présents dans la régression initiale, afin d'être en mesure de calculer le PRESS de l'étape en question.

32

De plus, la valeur du coefficient que nous avons appelé « x » est complètement arbitraire, et s'en tenir strictement à ce critère pourrait se révéler dangereux, dans la mesure où cela pourrait donner des résultats assez aléatoires (il arrive parfois que certaines composantes apportent plus, en terme de prédiction, que celles qui les précèdent), et on n'a pas vraiment le loisir de se prononcer sur la structure des composantes.

C'est pourquoi nous allons nous intéresser à l'utilisation conjointe de deux autres critères.

X. Les critères liés à la covariance composante - variable expliquée

Chaque étape de la régression PLS peut se résumer comme étant le produit de la maximisation de la covariance (au carré, car ce qui importe, c'est la covariance en valeur absolue) entre la variable à expliquer (ou les résidus de la projection de celle-ci sur le modèle tel qu'il était à l'étape précédente) et la nouvelle composante, avec pour contrainte que celle-ci soit formée linéairement à partir des variables explicatives (ou des résidus de leur projection sur le modèle tel qu'il était à l'étape précédente), la somme des coefficients au carré (associés à chaque variable explicative) étant égale à 1.

Nous reviendrons sur ce critère lors de la deuxième partie de ce mémoire, lorsque nous comparerons l'approche PLS et l'approche des MCO.

Cette covariance au carré, peut s'écrire, à la première étape « Cov2(Y,ti) » (Y étant la variable expliquée). Il s'agit en réalité du produit du coefficient de détermination entre Y et ti (R2(Y,ti)) et de la variance de ti. Dit autrement : Cov2(Y,ti) = R2(Y,ti)*Var(ti). Il s'agit donc de maximiser ce produit, en jouant sur les deux termes, qui sont les deux critères que nous allons retenir dans le cadre du choix du nombre de composantes.

Le premier terme, R2(Y,ti), n'est autre que le critère normal que l'on cherche à maximiser lorsque l'on effectue une régression linéaire multiple au sens des MCO. Il s'agit en réalité de la faculté « pure » du modèle à prédire la variable Y sur les individus actifs5. Il est donc important que les composantes retenues apportent toutes une part significative en termes de corrélation par rapport à la variable Y, sous peine de risquer de n'avoir aucune vertu explicative.

Le second terme, Var(ti), représente, en quelques sortes, la fraction de la structure interne de l'ensemble formé par les variables explicatives (ensemble X) expliquée par la composante ti, Il s'agit donc de la prise en compte de la structure propre à l'ensemble X, et, en lui-même, ce terme n'a pas vocation à expliquer la variable Y.

5 On entend, par individus actifs, les individus se trouvant à la base de la création du modèle.

Chaque composante répond donc au compromis d'expliquer au mieux la fraction de la variance de Y non prise en compte par les composantes précédentes, tout en rendant au mieux compte de ce qui est propre à l'ensemble des variables explicatives et qui n'a pas encore été pris en compte par les composantes précédentes.

Ces deux critères doivent être les plus élevés possibles s'agissant des composantes retenues. L'idéal est que les deux, pour toute composante retenue, soient significatifs. Mais, parfois, on peut justifier la conservation d'une étape supplémentaire sur base d'un seul des deux critères. Le tout est de comparer ce qu'apporte chaque composante supplémentaire par rapport à ce qu'il reste à expliquer, sachant que chaque critère, pris individuellement, peut être plus élevé pour des étapes pourtant précédées par d'autres étapes pour lequel le critère est moins élevé.

Il se peut donc même, parfois, qu'il soit nécessaire de retenir une étape intermédiaire dans le but d'être en mesure de retenir les étapes qui la suivent, même si cette étape, en elle-même, au regard des critères pris isolément, n'est pas suffisamment significative que pour justifier sa retenue. Par exemple, la 3ème étape peut sembler non-significative, mais si la 4ème étape l'est davantage au regard de l'un des deux critères, il est préférable de se poser la question de retenir les 4 premières étapes, et dans ce cas on ne pourra pas passer outre la 3ème. Mais dans ce cas, il faut être sûr que l'importance de la 4ème étape est capitale au regard de ce qu'il reste à expliquer.

Ces précisions étant faites, il est maintenant temps de passer à la seconde partie, durant laquelle nous allons pouvoir mettre en oeuvre la méthode et l'appliquer à des cas simples, atypiques et extrêmes, permettant de mieux comprendre l'intérêt de la méthode et de mieux cerner les pièges à éviter.

PARTIE 2

Utilisation de la régression

PLS sur des cas limites

Nous allons tout d'abord nous attaquer au cas le plus simple, c'est-à-dire celui de l'application de la régression PLS univariée sur un modèle à une variable explicative.

I. Régression PLS avec une seule variable explicative

Prenons un tableau de données simples et fictives, avec deux variables : le poids et la taille. On essaye d'expliquer le poids en fonction de la taille.

La covariance entre ces deux variables est de 87,36, le coefficient de corrélation (R) est de 89,84%, et le coefficient de détermination (R2) est de 80,71%.

Comme il n'y a qu'une seule variable explicative (la taille), la régression PLS ne comportera pas plus d'une étape.

Si on effectue une régression PLS sur les variables centrées-réduites (pour chaque donnée de la série, on retranche la moyenne de la série, et on divise la différence par l'écart-type de la série), cela nous donne la relation suivante :

Poidscr = 0,898*Taillecr

Où Poidscr et Taillecr sont respectivement les séries des données des séries Poids et Taille centrées-réduites.

Sur les données non-centrées et non-réduites, avec l'intégration d'une constante, la relation est la suivante :

Poids = 1,045*Taille -- 110,831

Dans un cas comme dans l'autre, le coefficient de détermination (R2) de la régression vaut approximativement 0,81.

Voyons donc comment utiliser ce modèle. Prenons une taille au hasard : 180 cm.

Le modèle avec variables non-centrées et non-réduites s'applique directement. Le poids de cet individu de 180cm devrait donc être de 1,045*180 -- 110,831 = 77,27 kg approximativement. Bien entendu, il s'agit de la valeur extrapolée par le modèle, qui est théorique. Il y a une marge d'erreur, mais le fait que le coefficient de corrélation soit assez élevé (81%) laisse présager d'une assez bonne capacité à prédire du modèle.

Concernant le modèle « centré-réduit », il faut d'abord centrer et réduire les la valeur « 180cm » en utilisant la moyenne et l'écart type calculés sur la série « Taille » (même si cette série ne comprend pas cette valeur) : (180-172,2)/9,14 = 0,8534...

Pour cette valeur, la variable « Poidscr » prend donc la valeur 0,898*0,8534, soit 0,7664... Pour obtenir le Poids non centré et non réduit, il faut multiplier cette valeur par l'écart-type de la série Poids et y ajouter la moyenne de la série : 0,7664*10,64 + 69,2 = 77,35 kg. Naturellement, ce « 77,35 kg » calculé à l'aide de ce modèle devrait être égal à la valeur calculée par le modèle précédent. La différence s'explique par des erreurs d'arrondis. Il aurait fallu prendre davantage de décimales en compte pour arriver au même résultat.

Ces deux modèles donnent donc exactement les mêmes résultats. Le premier permet simplement un calcul plus direct, plus rapide et plus simple, de même qu'une interprétation plus rapide.

Si on s'attarde sur le coefficient de détermination de la régression (0,81), on s'aperçoit qu'il est strictement égal au coefficient de détermination entre les deux variables (Poids et Taille). Cela veut dire que la régression prend en compte de manière optimale la corrélation entre les deux variables. Hors, c'est également le cas lorsqu'on effectue une régression linéaire simple, où le R2 de la régression est égal au R2 entre la variable explicative et la variable expliquée (lorsque les variables sont centrées ou qu'une constante a été intégrée). Hors, il ne peut pas exister deux résultats différents (deux séries de coefficients différents), pour une régression de ce type, qui aboutiraient au meilleur coefficient de détermination possible pour cette analyse. Donc, cela veut nécessairement dire que les coefficients trouvés sont les mêmes que les coefficients qui auraient été trouvés dans le cadre d'une régression linéaire simple.

En effet, si on effectue une régression linéaire simple, c'est-à-dire si on cherche à calculer les coefficients « a » et « b » par régression linéaire simple sur un modèle du type Poids = a*Taille + b, on obtient les résultats suivants :

,

36

87

a Cov(Poids, aille ) Var( aille)

1,0455

83,56

37

Y ax b b Y ax 69,2 --1,0455 *172, 2 b 110 , 8351

On a donc finalement le modèle suivant : Poids = 1,0455*Taille -- 110,8351

On constate donc, à quelques décimales près là encore, que les modèles sont identiques.

Si on fait la régression linéaire simple sans constante, mais avec variables centrées - réduites, on obtient les mêmes résultats que pour la régression PLS à une composante sur variables centrées-réduites. Nous ne détaillerons pas les calculs mais le résultat donné par Eviews 5.0 pour une telle régression (régression linéaire simple sur variables centrées-réduites) est le suivant : Poidscr = 0,898394*Taillecr.

Dans les deux cas, les modèles donnent les mêmes résultats.

Il faut néanmoins se garder d'affirmer qu'une régression PLS et une régression linéaire donnent forcément les mêmes résultats. Néanmoins, on constate ici qu'une régression linéaire simple (avec centrage des données ou constante), et qu'une régression PLS à une étape pour une seule variable explicative (avec centrage des données ou constante), donnent les mêmes résultats. Comme il n'y a qu'une seule étape possible lorsqu'il n'y a qu'une seule variable, nous pouvons dire que régression PLS1 pour une seule variable explicative et régression linéaire simple (ou régression linéaire multiple à une seule variable explicative) donnent les mêmes résultats et s'équivalent donc en tout points (si ce n'est pas la différence d'approche pour ce qui en est des calculs).

Nous allons essayer de voir sous quelles conditions une régression PLS (à plus d'une variable explicative) et une régression linéaire multiple peuvent donner les mêmes résultats.

II. Un exemple à trois variables explicatives

Reprenons le même exemple mais en ajoutant deux séries fictives supplémentaires (qui seront utilisées comme variables explicatives supplémentaires) :

La matrice des corrélations correspondantes est la suivante :

Et la matrice des variances-covariances :

Ces séries supplémentaires ont volontairement été créées de manière à diminuer les résidus, c'est-à-dire à améliorer le pouvoir explicatif du modèle, même si une part aléatoire a été volontairement conservée. Les 5 séries étant purement fictives, il sera inutile d'appliquer quelque modèle que ce soit, qui soit fondé sur ces séries, à la réalité.

Effectuons tout d'abord une régression linéaire simple sur ce modèle. Avec Eviews 5.0, on obtient :

- En travaillant sur les données non-centrées et non-réduites et avec intégration

d'une constante :

Poids = 1.039*Taille

-- 2.5*Activité + 0.012*Calories -- 133.426. Les 4 coefficients sont jugés significatifs au seuil de 1%, ce qui est plutôt étrange quand on regarde la corrélation Poids/Activité (corrélation apparemment très faible). Le signe du coefficient « Activité » est également surprenant, à priori, étant donné qu'il est opposé à celui du coefficient de corrélation Poids/Activité.

On obtient un coefficient de détermination de la régression de 98,08%.

- En travaillant sur les données centrées-réduites :

Poidscr = 0.893*Taillecr -- 0.296*Activitécr + 0.255*Caloriescr

Le coefficient de détermination est toujours de 98,08%. Les 3 coefficients sont jugés significatifs au seuil de 1%.

- Si on travaille sur les données initiales sans constante, on obtient la relation :

Poids = 0.221*Taille - 0.603*Activité + 0.013*Calories. Cette fois, le coefficient de corrélation n'est plus que de 58,81%, et aucun coefficient n'est significatif au seuil de 1% (le coefficient associé à la variable Activité n'est pas non plus significatif au seuil de 5%, ce qui n'est toutefois pas le cas des autres). On comprend donc ici tout l'intérêt d'intégrer une constante dans la régression ou de centrer les données (la réduction n'importe pas).

Effectuons à présent une régression PLS univariée sur le modèle en question : II.1. Régression PLS à 1 étape

- Modèle normal :

Poids = 0.694*Taille + 0.249*Activité + 0.021*Calories -- 102.603 - Modèle centré-réduit :

Poidscr = 0.597*Taillecr + 0.031*Activitécr + 0.477*Caloriescr

Le coefficient de détermination (R2) de la régression de Y sur t1 est de 87,97%. On ne peut donc pas dire qu'il soit identique à celui de la régression multiple, puisqu'il lui est inférieur.

A la vue de ce premier modèle, on peut dors et déjà tirer quelques conclusions, et on peut se poser plusieurs questions :

- Le coefficient de régression est inférieur à celui de la régression linéaire simple. La régression PLS serait-elle une méthode moins efficace que la régression linéaire simple ?

- Les coefficients affectés aux différentes variables ne sont pas du tout les mêmes d'un modèle à l'autre. Parfois même, on observe un changement de signe : c'est le cas pour la variable Activité. La régression PLS serait-elle plus « objective » que ne l'est la régression linéaire simple ?

- On constate cette fois que la variable Activité observe un coefficient de signe similaire à son coefficient de corrélation avec la variable poids.

- Les deux derniers points découlent directement du fait que les variables étant centrées, et n'ayant retenu qu'une seule étape, les coefficients sont directement proportionnels aux coefficients de corrélation des différentes variables explicatives par rapport à la variable Poids.

Comparons les deux modèles (non-centrés, non-réduits, avec constante) en utilisant leurs prévisions des valeurs de la variable expliquée (Poids) :

Y correspond à la variable Poids (variable expliquée)pour les 10 individus.

Y_rlm correspond à la prédiction de la variable Poids pour les mêmes individus par le modèle de régression linéaire simple, Res_rlm correspond aux résidus de cette régression.

Y_pls(1) correspond à la prédiction de la variable Poids pour les mêmes individus par le modèle de régression PLS1 à une étape, la colonne Res_pls(1) correspondant aux résidus.

SCT (somme des carré totale, c'est la somme des carrés des écarts à la moyenne de Y) = 1131.6 SCR_rlm (somme des carrés résidus pour la régression linéaire multiple) = 21.715 SCR_pls(1) (somme des carrés résidus pour la régression PLS à une étape) = 114.402

Partie 2 : Utilisation de la régression PLS sur des cas limites Plusieurs remarques :

- La somme des résidus (sans les élever au carré) de la régression multiple est égale à 0, car les résidus s'annulent, et c'est également le cas de la régression PLS à une étape.

- La somme du carré des résidus de la régression PLS(1)6 est très nettement supérieure à celle de la régression linéaire simple. Cela ne nous apprend rien, puisque le coefficient de la régression PLS(1) était nettement inférieur à celui de la régression multiple.

- La prévision de la régression PLS(1) n'est meilleure que dans le cas du 8ème individu. - Généralement, les erreurs de prévisions vont dans le même sens, exception faite des individus 1, 2 et 5.

- Les écarts de prévisions (entre les deux méthodes) les plus marqués (en valeur absolue) concernant les individus 1, 2, 4 et 5, plus particulièrement l'individu n°1 et l'individu n°2. L'individu n°1 est très mal prédit par le modèle PLS(1).

Ceci étant dit, passons à la régression PLS à 2 étapes. II.2. Régression PLS à 2 étapes

- Modèle normal :

Poids = 0.844*Taille + -2.225*Activité + 0.019*Calories -- 119.039 - Modèle centré-réduit :

Poidscr= 0.725*Taillecr + -0.277*Activitécr + 0.442*Caloriescr

Le coefficient de la régression passe de 87,97% à 95,52%. La part de la variance expliquée par t1 est de 87,97% (normal, puisque t1 n'a pas changé) et celle expliquée par t2 est de 7,55% (on l'obtient directement par différence, les composantes étant indépendantes).

Plusieurs conclusions s'imposent :

- Les coefficients sont tous modifiés, tous de manière assez importante, exception faite du coefficient lié à la variable Calories.

- Les coefficients se rapprochent tous de leur valeur en régression linéaire multiple. Exemple : dans le modèle normal, le coefficient lié à la variable Taille passe de 0.694 à 0.844 et se rapproche ainsi fortement du coefficient de la régression linéaire (1.039). La différence la plus flagrante concerne le coefficient lié à la variable Activité. Il était de 0.249 dans le modèle normal PLS(1), il est maintenant de -2.225 dans le modèle normal

6 Les notations PLS(1), PLS(2), ... PLS(p) seront couramment utilisées pour désigner respectivement les modèles PLS à 1, 2, ..., p étape(s). Il est important de ne pas les confondre avec les notations PLS1 et PLS2, désignant respectivement des modèles de régression PLS univariée et multivariée.

PLS(2). Il s'est considérablement rapproché de la valeur du modèle de régression linéaire (-2.5).

- Ce dernier coefficient, justement, a changé de signe, et n'est donc plus du même signe que le coefficient de corrélation Poids/Activité. Son ordre de grandeur est également significativement modifié. Il était très faible, notamment s'agissant du modèle centré-réduit. Il possède à présent un ordre de grandeur qui se chiffre en dixième, à l'instar des coefficients des autres variables. Pourtant, si on regarde les coefficients de corrélation, le coefficient de la variable Activité devrait rester insignifiant en comparaison aux autres. Comment ceci peut-il s'interpréter ?

- La qualité de la régression s'est nettement améliorée, tendant subitement vers celle de la régression linéaire simple, bien qu'elle lui reste inférieure.

Afin de mieux se rendre compte de l'amélioration de la qualité de la régression,
reprenons le précédent tableau et ajoutons-y les prédictions et les résidus du modèle

PLS (2)

Ce que l'on peut remarquer :

- La somme des carrés des résidus s'élève à 50.669 pour le modèle PLS(2), ce qui est nettement inférieur à ce qu'il en était à l'étape 1 (114.402), et qui se rapproche de ce que l'on observe s'agissant de la régression linéaire (21.715).

- Les erreurs d'estimation les plus fortes concernent les individus 4, et 6, plus particulièrement l'individu 4. Ces erreurs tendent même à s'aggraver, alors que dans tous les autres cas, elles diminuent (exception faite de l'individu 7 pour lequel la prévision reste stable). On pourrait penser que le modèle PLS(2) ignore « volontairement » l'individu n°4, car si on l'enlève de l'analyse, la somme des résidus tendrait vers une valeur plus faible.

- De plus, si on enlevait l'individu 4 de l'analyse, la somme des résidus au carré (SCR)
plongerait de 50.669 à 17.367. La somme des résidus au carré du modèle de régression
linéaire passerait quant à elle de 21.715 à 18.929, soit une sensibilité nettement plus

faible (ce qui est normal, l'individu 4 est nettement mieux prédit par le modèle de régression linéaire). Le modèle PLS(2) serait alors meilleur prédicateur des valeurs actives que le modèle de régression linéaire. La régression PLS pourrait-elle donc être une analyse plus pertinente que la régression linéaire simple, exception faite de certains individus ?

- Seul l'individu 1 fait l'objet d'une opposition du signe des résidus. En revanche, les individus 2 et 5, qui faisaient l'objet d'un désaccord de signe à l'étape 1, ne le font plus à l'étape 2 (le désaccord restant néanmoins assez prononcé en valeur absolue).

Il est très intéressant de noter que si on pratique une régression linéaire simple en enlevant le 4ème individu de l'analyse, on obtient les résultats suivants :

- Modèle normal avec constante :

Poids = 0.878*Taille -- 2.265*Activité + 0.017*Calories -- 120.171 - Modèle centré-réduit :

Poidscr = 0.708*Taillecr -- 0.288*Activitécr + 0.381*Caloriescr

Le coefficient de détermination passe à 98.78%.

La somme du carré des résidus passerait de 21.715 à 12.74, pour seulement un individu (sur 10) ôté.

On remarque que les coefficients se rapprochent très nettement de leur valeur calculée par le modèle PLS(2).

Ceci nous amène à une double conclusion :

- Le retrait de l'individu 4 des individus actifs améliore sensiblement la qualité de l'analyse. Bien que l'individu 4 était assez bien prédit par la régression linéaire, son retrait a permit de « relâcher » la régression, au sens où la prise en compte forcée de cet individu atypique empêchait le modèle de prédire correctement certains des autres individus.

Partie 2 : Utilisation de la régression PLS sur des cas limites Le tableau suivant illustre ce phénomène :

Res2 rlm représente la série des résidus au carré de la régression linéaire pour chaque individu.

Res2 rlm(-4) représente cette même série pour la régression linéaire avec le 4ème individu ôté de l'analyse. La colonne «gain » représente le gain apporté par le retrait du 4ème individu dans l'analyse en termes de résidu au carré Il se calcule par soustraction suivante : Res2 rlm - Res2 rlm(-4).

Globalement, on observe un gain sur le critère des MCO de 8.975 (21.715 -- 12.74). Ce gain est expliqué à 31% par la disparition du résidu lié au 4ème individu, et à 69% par l'amélioration des prédictions des autres individus.

On note néanmoins que c'est l'individu 2 qui profite au mieux de ce retrait, et que les individus 3, 5, 6 et 7 sont à présent moins bien estimés. On peut donc penser que l'individu 2 et l'individu 4 sont dans une certaine mesure opposés car ils ne s'analysent pas de la même manière, étant donné que la prise en compte de l'individu 4 fausse énormément la prédiction de l'individu 2.

- L'analyse se rapproche de celle établie par la régression PLS à l'étape 2. Les coefficients se rapprochent de ceux du modèle PLS(2). Cela nous confirme, dans une certaine mesure, que le modèle PLS(2) a négligé l'individu n°4, et que d'une certaine manière, c'est un point positif, puisque ce dernier faussait les prévisions des autres individus.

Néanmoins, il est important de signaler que si le retrait de l'individu 4 fait passer le R2 de la régression linéaire de 98.08% à 98.78%, le retrait de l'individu 2 (en laissant l'individu 4) fait passer le R2 de la régression de 98.08% à 99,2%, ce qui serait encore plus significatif.

Le tableau suivant résume les différents coefficients de corrélation (en régression linéaire) résultant du retrait de chaque individu :

On remarque que 4 individus (les individus 3, 6, 7 et 10) n'ont pas intérêt à être retirés en termes de R2. Leur retrait détériorerait la qualité de la régression. Ces 4 individus présentent très probablement des caractéristiques « dans la moyenne » des autres. Les retirer ne ferait que mettre encore plus en évidence le caractère inconciliable de l'analyse des autres individus. Cela ne modifierait pas outre mesure les coefficients, mais rendrait la qualité de la régression plus mauvaise.

Note : Il n'est pas inconcevable que le retrait d'un individu altère le coefficient de régression. Normalement, cela devrait l'améliorer, car moins il y a d'individu, plus il est possible d'ajuster les coefficients des variables afin d'expliquer les autres. C'est particulièrement le cas lorsqu'il y a presque autant de variables explicatives que d'individus. Néanmoins, si l'individu est bien prédit par le modèle, son retrait risque de réduire très peu la somme des carrés résiduels, et de réduire fortement la somme des carrés totale. Si le terme SCR diminue moins, en proportions, que le terme SCT, la qualité de la régression se détériorera.

En revanche, les individus dont le retrait améliorerait significativement la qualité de l'analyse sont les individus 2, 4 et 8. On peut penser qu'ils sont quelques peu atypiques, et, de ce fait, « tirent » vers eux l'analyse, influençant ainsi fortement les coefficients.

Il serait difficile d'aller plus loin dans l'analyse, dans la mesure où l'on ne dispose pas d'une population sur laquelle on puisse tester les différents modèles, et ainsi s'apercevoir de la qualité des différents individus actifs.

Passons donc à la régression PLS à 3 étapes.

Partie 2 : Utilisation de la régression PLS sur des cas limites II.3. Régression PLS à 3 étapes

Les deux modèles sont les mêmes qu'en régression linéaire simple :

- Poids = 1.039*Taille -- 2.5*Activité + 0.012*Calories -- 133.426 pour le modèle non centré, non-réduit.

- Poidscr = 0.893*Taillecr -- 0.296*Activitécr + 0.255*Caloriescr pour le modèle centré réduit.

Toutes les statistiques associées sont donc similaires. La troisième composante apporte un gain de 2.56% et porte donc le coefficient de corrélation à 98.08%, comme dans la régression linéaire simple.

Il est inutile de calculer les valeurs de Y ainsi que les résidus, puisqu'ils sont nécessairement les mêmes qu'en régression linéaire.

La seule chose que nous pouvons conclure est la convergence de la régression linéaire simple et de la régression PLS à 3 étapes, soit quand on retient autant d'étapes que de variables explicatives (le maximum d'étapes possibles). Il est inutile de tenter d'exploiter les résidus de l'étape 3 pour une 4ème étape, cela n'apporterait aucun gain, ces résidus n'étant plus du tout corrélés, la 4ème composante serait nulle, ainsi que toutes celles qui suivraient.

Dans ces conditions, si on considère la dernière étape possible comme étant la version la plus aboutie de la régression PLS, quel peut-être l'apport de la régression PLS par rapport à la régression linéaire simple, si les résultats sont les mêmes ?

Conclusions sur cette régression à 3 variables explicatives :

Nous allons essayer de synthétiser tout ce que nous avons observé au cours des 3 étapes, et nous tâcherons ensuite d'expliquer point par point ce qui a aboutit à ces résultats.

Au cours de cette régression, nous avons observé plusieurs choses :

- La régression linéaire simple est celle qui obtient les meilleurs résultats en termes de coefficient de régression et donc de SCR sur l'ensemble des individus actifs.

- En régression linéaire simple, comme en régression PLS (à quelque étape que ce soit), résidus positifs et négatifs se compensent parfaitement.

- La qualité, en termes de R2 et de SCR, de la régression PLS, s'améliore d'étape en étape.

- L'ordre de grandeur des différents coefficients peut fortement varier d'une étape à
une autre, ainsi que leur signe. Dans un premier temps, lors du modèle PLS(1), ces
coefficients sont strictement proportionnels aux corrélations entre la variable expliquée

et les différentes variables explicatives. Ensuite, les résultats se rapprochent progressivement de ceux trouvés à l'aide de la régression linéaire.

- De manière générale, on observe une convergence de la régression PLS vers la régression linéaire simple lorsque le nombre d'étapes augmente, pour obtenir des résultats égaux lorsqu'il y a autant d'étapes que de variables.

- Selon le modèle PLS(1), la relation Poids/Activité est positive, ce qui n'est pas le cas dans les autres modèles.

- De manière générale, les résidus ont tendance à aller dans le même sens s'agissant des trois modèles calculés, exception faite de quelques individus.

- Le modèle PLS(2) voit ses coefficients se rapprocher de ceux de la régression linéaire simple (par opposition au modèle PLS(1)), pratiquement dans tous les domaines (coefficients, coefficient de corrélation, résidus, ...). Le modèle PLS(2) semble donc être une sorte de compromis entre le modèle PLS(1) et le modèle de régression linéaire (ou modèle PLS(3)).

- Dans un premier temps, les résidus de la régression PLS(1) sont nettement plus élevés que ceux de la régression linéaire. A la première étape, la régression PLS est un beaucoup plus mauvais prédicateur (en terme de résidus) que ne l'est la régression linéaire, concernant tous les individus, exception faite du 2ème individu.

- Si on enlève l'individu n°4, les résultats de la régression PLS(2) sont nettement meilleurs et on observe qu'ils surpassent ceux de la régression linéaire (calculée sur les 10 individus actifs, ce n'est bien entendu plus le cas si on enlève l'individu 4 de l'analyse, puisque la régression linéaire est celle qui, par définition, minimise la somme des carrés des résidus). L'individu 4 est donc probablement vu comme un individu atypique, que la régression PLS(2) a jugé bon de négliger.

- Nous avons vu que l'individu 4 s'oppose à l'individu 2. Si la régression PLS(2) a choisi de le négliger, ce n'est pas le cas de la régression linéaire, qui, au contraire, laisse un peu plus de coté l'individu 2. On a donc constaté que l'exclusion de l'individu 2 de la régression permettait une nette amélioration des résultats selon le critère des MCO.

Plusieurs phénomènes permettent en réalité d'expliquer ou de résumer ces conclusions :

- Le modèle de régression linéaire est par définition celui qui obtient le meilleur résultat par rapport à son propre critère.

- La régression PLS est une forme de généralisation de la régression linéaire simple ou multiple.

- La régression PLS, dans sa première étape, et, dans une moindre mesure, dans les quelques étapes qui suivent (en cas de grand nombre d'étapes), prend avant tout en compte les corrélations simples entre les variables, alors que la régression linéaire va au-delà de ce simple critère.

Nous allons donc nous attarder sur ces trois points.

III. La régression linéaire et critèredesmoindrescarrésle

Bien sûr, la régression linéaire au sens des MCO n'est pas le sujet du mémoire. Néanmoins, il est bon de savoir qu'il est impossible d'obtenir, via un modèle linéaire, un meilleur résultat en termes de SCR que celui obtenu par la régression linéaire, puisque c'est le critère sur lequel se fonde cette méthode.

On peut éventuellement trouver un meilleur modèle, mais seulement sous une forme qui ne soit pas linéaire. Ce n'est pas le cas de la régression PLS, qui est elle aussi un modèle linéaire.

La régression PLS ne peut donc, en aucun cas, toute chose égale par ailleurs, fournir un modèle qui soit un meilleur prédicateur de l'ensemble des variables actives en termes de SCR, que celui fourni par la régression linéaire simple ou multiple.

Le résultat peut au mieux égaler celui obtenu par la régression linéaire simple, notamment en utilisant le nombre maximal d'étapes, ce qui n'est pas l'intérêt initial de la méthode.

IV La régression PLS comme généralisation des MCO

La régression PLS, comme nous l'avons constaté à l'étape 3, et comme nous l'avons constaté dans l'analyse à une seule variable explicative, converge parfaitement vers la régression linéaire.

A la première étape, les coefficients sont strictement proportionnels aux coefficients de corrélation de la variable explicative concernée par rapport à la variable expliquée.

Mais dès la seconde étape, on s'éloigne de ce schéma en tentant d'expliquer les relations entre les résidus.

Souvent, les relations entre la variable expliquée et les variables explicatives dépassent les simples coefficients de corrélation. Il est possible d'avoir, par exemple, une relation très faible entre la variable expliquée et les différentes variables explicatives prises indépendamment, et au final, d'obtenir une relation très forte entre la variable expliquée et les différentes variables explicatives. C'est le cas lorsque les relations entre les variables explicatives sont fortes.

Si les variables explicatives étaient orthogonales entre elles, la variable expliquée pourrait s'expliquer, dans le cadre d'une régression linéaire, directement en fonction des coefficients de corrélation variable expliquée/variable explicative concernée. Nous verrons ainsi que, pour une régression portant sur des variables explicatives

orthogonales (c'est-à-dire que les coefficients de corrélation des variables explicatives prises deux à deux sont nuls), il n'y a aucune différence entre une régression PLS à une ou plusieurs étapes et une régression linéaire simple ou multiple au sens des moindres carrés.

Ce qui peut provoquer une différence entre les deux méthodes, c'est la multicolinéarité des variables explicatives (en d'autres termes, lorsque les variables explicatives sont corrélées entre elles).

Lorsque les variables explicatives présentent des relations entre elles, la régression PLS, à l'étape 1, les néglige. A l'étape 2, ce n'est déjà plus le cas. Pourquoi ? Parce que la régression PLS(1) ne suffit pas à expliquer toute la relation entre la variable expliquée et l'ensemble des variables explicatives. Elle prend en compte la relation entre la variable expliquée et chacune des variables explicatives prise indépendamment, mais néglige le fait que plusieurs variables explicatives peuvent expliquer une même partie de la variance de la variable expliquée, et qu'une combinaison linéaire de ces variables explicatives peut aussi expliquer davantage que le pourront jamais le faire les variables explicatives additionnées.

Prenons un cas extrême pour nous en convaincre.

IV.1. Un exemple d'inefficacité de la régression PLS à une étape

Nous choisissons une variable à expliquer Y étant fonction linéaire de deux variables explicatives x1 et x2. Y est créée selon une relation linéaire exacte Y = x1 - x2. Volontairement, nous avons créé les séries de sorte à ce que la variable Y n'ait une très faible variance. Nous avons toutefois évité le cas extrême, pour des raisons mathématiques, où Y aurait une variance nulle.

Voici donc les trois séries générées :

Naturellement, la série Y ne variant pratiquement pas, elle ne peut pas non plus « covarier » avec l'une ou l'autre des autres séries. Nous sommes donc en présence d'un cas où les coefficients de corrélation R(Y,xi) et R(Y,x2) sont pratiquement nuls et surtout non significatifs.

Par conséquent, la régression PLS à une étape affectera des valeurs pratiquement aléatoires aux coefficients des variables xi et x2, et ne sera pas du tout pertinente, puisqu'elle tentera d'expliquer les quasi-inexistantes variations de Y par ses quasi - inexistantes « covariations » avec xi et x2.

La régression PLS(1) nous donne donc un modèle Y = 0.045*xi + 0.04*x2, ce qui n'a rien à voire avec la relation que nous avons créée. Le coefficient de détermination en témoigne : 0.72% !

Si on passe à l'étape 2, ou si on pratique une régression linéaire, on obtient bien entendu la relation que l'on attend : Y = 1 *xi -- M*x2. Le coefficient de régression est bien entendu de 100%.

Nous voici donc en présence de variables où aucune des variables explicatives n'est significativement corrélée à Y, et où il existe pourtant une relation linéaire exacte entre Y et l'ensemble des variables explicatives.

Prenons maintenant un tout autre exemple avec une variable expliquée Y et trois variables explicatives xi, x2 et x3.

IV.2. Un exemple de régression PLS sur variables explicatives orthogonales

La relation entre Y et les trois variables explicatives importe peu. Mais en revanche, nous avons choisi trois variables explicatives complètement orthogonales les unes par rapport aux autres.

Partie 2 : Utilisation de la régression PLS sur des cas limites Voici les statistiques des différentes séries :

Et la matrice des corrélations :

On observe donc que la variable Y est corrélée à 50% à chacune des trois variables explicatives, qui elles ne sont pas du tout corrélées entre elles.

Si on effectue une régression PLS à une étape, on obtient le modèle suivant : y = 0.5*x1 + 0.5*x2 + 0.5*x3 -- 0.75

Le coefficient de détermination de la régression est de 75%.

On constate que le modèle reste inchangé et que le résultat ne s'améliore pas selon que l'on passe à une régression PLS(2), PLS(3), ou qu'on pratique une régression linéaire multiple.

On constate également que le coefficient de la régression (75%) est égale à la somme des coefficients de corrélation des différentes variables explicatives avec la variable expliquée, élevés au carré : (0.5)2 + (0.5)2 + (0.5)2 = 0.75. Cela ne peut être le cas que lorsque les variables explicatives sont orthogonales, ou du moins quand chaque variable explicative explique sa propre part de la variance de Y, sans empiéter sur l'explication livrée par les autres. Chaque variable explique donc 25% distincts de la variance de Y.

IV.3. Conclusions

Si les variables explicatives étaient liées les une aux autres, il y a de fortes chances que plusieurs de ces variables expliqueraient des fractions identiques de la variance de Y.

Prenons un cas extrême qu'il n'est pas besoin d'illustrer pour comprendre : Soit Y une variable expliquée, corrélée à 100% à ses deux variables explicatives, elles-mêmes alors forcément corrélées entre elles à 100%. Le coefficient de régression ne saurait dépasser 100% et être égal à 200%. Les deux variables expliquent parfaitement Y individuellement. L'ajout de l'autre variable n'apporte donc rien en qualité de la

régression, puisqu'elle explique exactement la même fraction (ici, 100%) de la variance de Y.

Si on reprend notre analyse « Poids/Taille/Activité/Calories », on s'aperçoit que si on fait la somme des corrélations au carré variable expliquée/variable explicatives, on obtient : 89.84%2 + 4.68%2 + 71.77%2 = 132.44%. Il est donc évident que les variables explicatives sont corrélées entre elles, et qu'il y a des « recoupements » au niveau de leur pouvoir explicatif respectif de la variance de la variable Poids, puisque, dans le meilleur des cas (régression linéaire multiple), on obtient un coefficient de détermination de la régression de 98.08%.

On voit donc que le coefficient de la régression peut être supérieur ou inférieur à la somme des coefficients de détermination variable expliquée/variables explicatives :

- Supérieure lorsqu'il y a une compensation d'effets de plusieurs variables explicatives.

- Inférieure quand les variables explicatives expliquent des fractions identiques de la variance de la variable expliquée.

Bien entendu, les deux phénomènes peuvent se produire conjointement et il est alors très difficile de s'y retrouver.

Toujours est-il que la régression PLS, à l'étape 1, passe complètement outre la multicolinéarité des variables. A l'étape 2, c'est plus délicat, car on commence à s'intéresser aux relations entre les résidus, délaissés par la « régression brutale » de la première étape. On n'explique pas encore toute la relation (sauf s'il n'y a que deux étapes possibles), puisqu'on ne s'intéresse qu'aux covariances des résidus des variables explicatives par rapport à la variable expliquée (on ne s'intéresse pas aux relations des résidus des différentes variables explicatives entre eux). On procède étape par étape. Lorsqu'il y autant d'étapes que de variables explicatives, il n'est pas possible de trouver des relations supplémentaires entre les résidus.

Pourquoi cette convergence entre régression PLS(p) et régression linéaire multiple ? Parce qu'il est impossible de former plus de « p » composantes indépendantes à partir d'un sous-espace comprenant « p » variables. Lorsqu'on en arrive à « p » composantes, on a forcément pris en compte toute l'inertie des variables explicatives. Comme, à la « pième » étape, toute l'inertie a été prise en compte, et qu'aucun pouvoir explicatif supplémentaire n'a été créé (chaque composante étant formée à partir des « p » variables, elle ne peut apporter aucun pouvoir explicatif n'existant pas dans ces « p » variables), on ne peut obtenir résultat qui soit meilleur ou moins bon que celui obtenu par la méthode des MCO, puisque finalement, on utilise la méthode des MCO pour régresser Y par rapport aux composantes t1, F, tp.

53

Le résultat sera forcément égal. La régression PLS(p) est l'équivalent strict d'une régression linéaire multiple au sens des MCO. Les étapes précédentes peuvent donc être vues comme des régressions linéaires multiples partielles, puisqu'on prend progressivement en compte l'inertie des variables explicatives. En fait, on la prend « partiellement » en compte, avant de faire une régression par la méthode des moindres carrés ordinaires. D'où la signification des initiales de la régression PLS : Partial Least Squares, c'est-à-dire les « moindres carrés partiels ».

La régression PLS est donc une forme de généralisation de la méthode des MCO.

V. Le critère de la régression PLS

Le critère de la régression PLS se distingue du critère de la régression linéaire classique.

En régression linéaire classique, on se contente de minimiser les erreurs d'estimations sur variables actives, entendues aux sens des carrés des résidus. On minimise la somme du carré des résidus. On a ainsi un modèle qui colle « au plus près » du « nuage de points ».

La régression PLS n'a pas le même objectif, et l'approche n'est pas la même non plus. On crée pour chaque étape, une composante qui est fonction des variables explicatives étudiées*, en lui imposant la contrainte selon laquelle la somme des carrés des coefficients de la composante (par rapport aux variables explicatives) doit être égale à 1. Cette contrainte étant prise en compte, on maximise la covariance élevée au carré (ce qui revient au même que de maximiser la covariance en valeur absolue) de la variable Y par rapport à ti.

*(qui changent à chaque étape, sachant qu'à la première étape il s'agit des variables initiales centrées-réduites, qu'à la seconde il s'agit des résidus des régressions des variables explicatives sur ti, et ainsi de suite, comme expliqué en première partie)

Ce programme d'optimisation, à l'étape 1, peut donc s'écrire de la manière suivante : Max Cov2(Y,ti)

~

2

s.c. W i ~

i ~

~

t, Xi Wi

i

~

Sachant que Cov2(Y,ti) = R2(Y,ti)*Var(ti), Var(Y) étant égal à 1 puisque Y est une variable centrée-réduite.

Notons qu'aux étapes suivantes, on peut remplacer ti par tj et Y par les résidus de la régression de Y sur tj-1.

Il s'agit donc de maximiser à la fois la variance de ti (plus la variance de ti est importante, et plus l'inertie de l'ensemble formé par les variables explicatives est expliquée, la variable ti ne pouvant pas comporter de fraction de variance expliquant autre chose que l'inertie des variables explicatives) et le coefficient de détermination de Y avec ti, c'est-à-dire l'explication de Y par tM.

En d'autres termes, on cherche à trouver une variable qui représente au mieux « l'ensemble X », tout en étant capable d'expliquer au mieux les variations de Y.

Il ne s'agit donc pas simplement de trouver des coefficients qui expliquent au mieux la variance de Y (il ne s'agit là que d'un seul des deux critères), il faut également que les variables explicatives soient « bien représentées ».

C'est là toute la différence avec la régression linéaire simple ou multiple, qui ne considère que le critère d'explication de la variance de Y, et néglige à priori complètement la représentation des variables explicatives.

La régression PLS n'est, bien entendu, pas insensible à l'explication de la variance de Y, mais est obligée de trouver un compromis puisqu'elle doit aussi prendre en compte la représentation de l'ensemble X. Si la variance de ti est trop faible, la covariance de Y et ti le sera également, et le critère ne sera pas maximisé.

V.1. Régression PLS et MCO : Différence entre objectivité et opportunisme

La régression linéaire, en cherchant « à tout prix » à passer au plus près du nuage de points, peut-être amenée à effectuer une sorte de « surparamétrage » et à livrer une explication qui finalement ne rend plus compte des caractéristiques des variables explicatives, et de leur réel pouvoir d'explication de la variable endogène*.

C'est particulièrement le cas lorsque les variables explicatives sont fortement corrélées entre-elles, et que le nombre d'observations (individus) est faible. A ce moment là, il existe une multitude de modèles possibles permettant de passer assez près du nuage de points, avec des combinaisons de coefficients très variables. Les coefficients associés au modèle « optimal » (celui retenu au sens des MCO) deviennent alors très instables, car une faible variation aléatoire des séries (on appelle cela « bruiter » les données) peut engendrer de fortes variations des coefficients, rendant par la même occasion le modèle presque impossible à interpréter dès lors que l'on prend en compte l'importance de l'instabilité des coefficients.

55

Le fait que le nombre d'individus soit faible aggrave ce phénomène de surparamétrage7 dans la mesure où un nombre d'individus qui n'est pas significativement supérieur au nombre de variables a tendance à engendrer un ajustement parfait ou quasi-parfait du modèle, qui bien sûr ne peut rendre compte du potentiel réel de prédiction du modèle (au-delà des individus actifs). On se retrouve donc, dans de pareilles circonstances, avec un modèle sur-ajusté, trop opportuniste car cherchant à tout prix à expliquer la variance de Y, au détriment des relations objectives liant Y aux autres variables individuellement, et, par la même occasion, au détriment de la stabilité des coefficients.

D'ailleurs, ces deux problèmes, à savoir multicolinéarité des variables et faiblesse du nombre d'individus, trouvent leur cas limite mathématiquement, puisqu'il est impossible de pratiquer une régression linéaire lorsqu'une des variables est combinaison linéaire des autres (c'est-à-dire qu'on assiste à la présence d'une relation linéaire exacte liant les variables, ce qui constitue en fait un cas extrême de corrélation des variables entre elles), et puisqu'il est également impossible de pratique une régression linéaire dès lors que le nombre d'individus devient inférieur au nombre de variables.

D'ailleurs, ces deux problèmes, à savoir multicolinéarité des variables et faiblesse du nombre d'individus, trouvent leur cas limite mathématiquement, puisqu'il est impossible de pratiquer une régression linéaire lorsqu'une des variables est combinaison linéaire des autres (c'est-à-dire qu'on assiste à la présence d'une relation linéaire exacte liant les variables, ce qui constitue en fait un cas extrême de corrélation des variables entre elles), et puisqu'il est également impossible de pratique une régression linéaire dès lors que le nombre d'individus devient inférieur au nombre de variables (si c'est le cas, il existe alors une infinité de combinaisons permettant d'atteindre un modèle expliquant 100% de la variance de Y).

La régression PLS, à l'étape 1 du moins, elle, ne souffre pas de ces problèmes. Elle isole les variables explicatives dans leur capacité à expliquer Y. On obtient ainsi un modèle décrivant une relation « factuelle », objective, entre Y et les variables explicatives, isolée de toute prise en compte des relations liant les variables explicatives entre elles.

La multicolinéarité n'est alors plus un problème car les coefficients ne sont pas influencés par les relations entre les variables explicatives. De même, on peut alors se permettre de travailler sur un échantillon où les individus sont inférieurs au nombre de variables explicatives, puisque tout ce qui importe est désormais de dégager les différentes covariances entre Y et les différentes variables explicatives, ce qui est toujours possible dès lors qu'il y a au moins 2 individus et que Y varie un minimum (une variable ne variant pas ne covarie pas non plus, et il est alors impossible de

~Le terme surparamétrage désignant un phénomène selon lequel le modèle tente de modéliser les fractions les moins objectives de l'ensemble formé par les variables explicatives. On peut simplifier cette assertion en disant qu'il y a surparamétrage dès lors que le modèle prend en compte les « erreurs » dans ses estimations.

s'exprimer quant aux relations qui régissent sa variance). Contrairement à la régression linéaire, cela nous donne un résultat unique.

Il y a donc deux choses qui, notamment en étant réunies, peuvent faire coïncider, plus ou moins fortement, les résultats de la régression linéaire et de la régression PLS à une seule étape :

- Un nombre considérable d'individus actifs en comparaison avec le nombre de variables actives.

- Une faible multicolinéarité des variables explicatives.

Un nombre important d'individus actifs a fortement tendance à réduire les possibilités de surparamétrage opportuniste de la régression linéaire. Il faut alors que le modèle détermine une relation capable d'expliquer l'ensemble du nuage de points, forcément d'autant plus représentatif d'une population globale que ne l'est un échantillon plus réduit. Les probabilités d'erreurs sont alors plus faibles. Les individus atypiques, au sein de l'échantillon, sont « noyés dans la masse », et ont d'ailleurs généralement tendance à se compenser. Dans ces conditions, il devient inutile, lorsqu'on cherche à minimiser la somme du carré des résidus, de s'attarder à expliquer des individus qui présentent des caractéristiques incompatibles avec « la moyenne », sous peine de voir l'ensemble des prévisions devenir complètement faussées.

Une faible multicolinéarité des variables explicatives fait mécaniquement converger les deux méthodes. La régression linéaire, qui normalement prend en compte les relations entre les variables explicatives, en devient réduite à obtenir un résultat similaire à celui d'une régression PLS à une étape (qui ne prend pas en compte ces relations), ces relations étant inexistantes.

V.2. Régression PLS à étapes multiples : Compromis entre objectivité et opportunisme

L'opportunisme n'est en général pas une qualité, sauf lorsqu'il rime avec réalisme. Cette loi vaut aussi pour le domaine de l'économétrie.

Ainsi, le fait de dépasser la simple notion de « covariance pure » entre Y et chaque variable explicative, et de montrer que cette notion ne suffit pas, est le point fort de la régression linéaire.

A deux reprises dans ce mémoire, nous avons pu observer que la régression PLS à une seule étape était trop loin de la réalité :

- Dans l'exemple traité dans le point IV.1. de cette partie (page 49), nous avions nous
même créé la série Y, et elle était conçue de telle sorte à être égale à xi -- x2. La
régression PLS(1) a testé la covariance entre Y et xi, puis entre Y et x2,

indépendamment de la considération selon laquelle il était peut-être envisageable que xi et x2 étaient fortement corrélées entre elles et que Y pouvait peut-être s'expliquer, non pas par les variations individuelles de xi et x2, mais par leurs variations conjointes, c'est-à-dire par les variations formées par l'ensemble (xi,x2). Le modèle PLS(1) conclu alors à une relation insignifiante. Nous sommes dans le cas type où il ne fallait justement pas maximiser la variance de ti (la variance de Y étant pratiquement inexistante), mais se focaliser sur le coefficient de corrélation (Y,ti). La relation était parfaite, et on ne peut plus simple à retrouver, mais inexistante au sens de la régression

PLS(1).

- Dans notre exemple « Poids/Taille/Activité/Calories » du point II de cette partie (plus exactement à la page 39 s'agissant de la régression PLS à une seule étape), les variables « Activité physique » et « Calories » avaient justement été créées de sorte à expliquer les résidus de la régression de la variable Poids sur la variable Taille. Ce fut d'autant plus le cas de la variable Activité, qui fut créée en première, uniquement sur base de ce critère (la variable Calories étant volontairement corrélée au Poids et à la Taille, sa construction dépassait ce critère).

En d'autres termes, pour expliquer décemment l'influence de la variable Activité, il fallait raisonner « à Taille égale », c'est-à-dire qu'il fallait éliminer l'impact de la valeur Taille sur la valeur Poids, c'est-à-dire à prendre en considération les résidus de la régression « Poids sur Taille ». Hors, la régression PLS(1) ne tient pas compte de ces éléments. Elle a simplement relevé le fait que la variable Activité était très peu corrélée à la variable Taille (positivement), et a donc affecté un coefficient très faible à cette variable dans le modèle (et s'est par la même occasion trompée sur le signe de la relation).

La régression linéaire, elle, n'est pas tombée dans le piège, et a remarqué qu'en affectant un coefficient plus important à la variable Taille, et en affectant un coefficient élevé et négatif à la variable Activité, on arrivait à un meilleur résultat. C'était le résultat espéré, puisqu'il rend nettement mieux compte des conditions qui sont à la base de la création des variables.

Dans ces deux cas, on peut être pratiquement sûr que si on avait créé d'autres individus satisfaisants aux mêmes conditions que les individus actifs, ils auraient été nettement mieux prédits par le modèle de régression linéaire.

Partie 2 : Utilisation de la régression PLS sur des cas limites Je vois principalement deux enseignements à tirer de ces exemples :

- Considérer des relations « séparées » entre une variable expliquée et des variables explicatives ne revient pas au même que de considérer la relation liant la variable expliquée à l'ensemble des variables explicatives. Les deux analyses se distinguent l'une de l'autre dès lors qu'il existe des relations liant les variables explicatives entre elles. La régression PLS(1), en tenant des analyses séparées, n'est pas toujours capable de rendre compte de la réalité.

Cette explication est parfaitement illustrée par l'exemple où Y = x1 -- x2. Y ne peut ni s'expliquer par x1 ni par x2, mais par l'ensemble des deux, c'est-à-dire par la meilleure combinaison linéaire possible de x1 et x2 capable d'expliquer Y, en l'occurrence (dans le cas présent) la différence entre x1 et x2.

- Il existe une différence notable entre « corrélation simple » et « corrélation partielle ». La corrélation simple mesure le pourcentage de variation conjointe de deux variables sans tenir compte de l'influence possibles d'autres facteurs. La corrélation partielle mesure le pourcentage de variation conjointe de deux variables « toute chose étant égale par ailleurs ». C'est-à-dire qu'elle cherche à mesurer l'influence de la variation d'une variable sur la variation d'une autre variable, les autres variables étant fixées. La régression PLS à une seule étape ne s'intéresse qu'à la corrélation simple, alors que la régression linéaire, en cherchant à passer au plus près du nuage de points, est forcée de prendre en compte les relations entre variables explicatives, et les coefficients qui en découlent sont donc conditionnés par les corrélations partielles entre les variables explicatives et la variable expliquée.

C'est particulièrement le cas dans l'exemple « Poids/Taille/Activité/Calories », où la variable Activité présente un coefficient de corrélation non significatif avec la variable Taille, mais où la corrélation partielle Poids/Activité, notamment pour Taille fixée, est très élevée et négative, ce qui se ressent dans le coefficient affecté par la régression linéaire, mais absolument pas dans le coefficient affecté par la régression PLS(1).

Pour ces raisons, on peut dire que la régression PLS(1) est irréaliste, et a de fortes chances d'être surpassée par la régression linéaire, que ce soit en termes d'explication des individus actifs, ou en termes de prévisions d'autres individus.

Dans la majorité des cas, la régression PLS(1) n'est donc pas suffisante. Faut-il pour autant se rabattre systématiquement sur la régression linéaire, sachant que les étapes supplémentaires ne sont que des compromis entre une régression PLS(1) irréaliste et une régression linéaire rendant mieux compte des relations entre les variables ?

Ce n'est pas forcément le cas. En fait, en augmentant le nombre d'étapes de la
régression PLS, on vise essentiellement à mieux rendre compte de la réalité, en prenant

en compte en premier lieu les relations les plus objectives entre les variables. Dès lors que l'on passe à l'étape 2, et que l'on se rend compte que des covariances demeurent dans les résidus ignorés par l'étape 1, on en est indirectement amené à prendre en compte les relations entre les variables explicatives (puisque les résidus de la régression de chaque variable explicative sur ti sont conditionnés par les relations existantes entre les autres variables et ti, puisqu'elles ont elle aussi contribué à sa formation).

Mais cette prise en compte se fait progressivement, étape par étape, en privilégiant les relations les plus objectives, et non les plus « marginales », qui ne conduisent qu'à un surparamétrage du modèle en cherchant à prendre en compte des relations qui n'existent pas vraiment. On arrive donc ainsi à isoler, avec plus ou moins d'efficacité, la partie purement « opportuniste » d'une régression linéaire.

Le but est de s'arrêter à la bonne étape, avant que n'ait lieu le phénomène de surparamétrage. La régression PLS n'est en fait qu'une sorte de régression linéaire par des « moindres carrés contraints », la contrainte étant plus ou moins renforcée selon le nombre d'étapes.

Cette contrainte génère alors un biais dans le modèle. On entend par là que l'espérance de l'estimateur diverge de la moyenne observée sur la population (pour les valeurs de la variable expliquée). Les moindres carrés ordinaires constituent les « meilleurs estimateurs linéaire non biaisés » (on les appelle aussi « B.L.U.E. », qui vient de la traduction anglaise « Best Linear Unbiased Estimators »). Quand on cherche à comparer deux estimateurs non-biaisés, on dit que le meilleur est celui qui présente la variance la plus faible. C'est le cas des M.C.O. Néanmoins, cela n'exclu pas la possibilité de trouver un estimateur biaisé qui soit meilleur. C'est précisément ce qu'on cherche à déterminer en régression PLS.

Cela peut paraître impossible, la méthode des moindres carrés ordinaires étant celle qui, par définition, minimise la somme des résidus au carré... Mais il faut savoir que l'on cherche, non pas à prédire au mieux les valeurs des individus actifs (ce qui est inutile en soit, puisqu'elles sont connues), mais à estimer les valeurs que sont sensés prendre d'autres individus pour la variable expliquée, en fonction des valeurs (connues) qu'ils présentent au niveau des variables explicatives.

Il s'agit donc d'effectuer de l'estimation, et non d'expliquer au mieux des relations sur des individus que l'on connaît déjà. Dans ce contexte, le surparamétrage qui résulte du critère de la régression linéaire est à éviter.

L'autre avantage de la régression PLS réside dans une plus grande lisibilité du modèle. Les coefficients étant plus stables (pour autant que le bon nombre d'étapes ait été retenu), l'interprétation du modèle en est rendu plus aisé. En cas de régression linéaire par les M.C.O. sur des variables fortement corrélées, et particulièrement sur un faible nombre d'individus actifs, on doit faire face à une grande instabilité des coefficients,

plusieurs relations faisant intervenir des combinaisons de coefficient très variées donnant des résultats très proches. Dans ce contexte, il devient impossible de tenir une interprétation correcte du modèle.

Quoi qu'il en soit, la question que l'on doit se poser, généralement, lorsque l'on tente d'établir une analyse, est la suivante « Comment un obtenir un modèle, formé à partir d'un échantillon plus ou moins réduit, qui soit représentatif de la population mère ? ».

C'est ce que nous allons tenter d'établir dans la prochaine partie. Nous allons avoir l'occasion de construire des modèles sur base d'un échantillon, d'en choisir un, avant de le tester sur le reste de la population mère, et de vérifier le bienfondé de ce choix, en comparant ses résultats à ceux des autres modèles.

Passons donc, sans plus attendre, à la partie « Simulations ».

PARTIE 3

Simulations

Au cours de cette section, nous allons tenter de comprendre comment retenir, en régression PLS, le nombre d'étapes optimal (sachant qu'on se réserve le droit de choisir autant d'étapes que de variables et de déboucher ainsi sur une régression linéaire) permettant d'effectuer la meilleure estimation possible sur un nombre d'individus « important », en travaillant avec un nombre plus réduit d'individus actifs.

Nous allons pour cela créer nous-mêmes les données de la « population mère », et établir un modèle sur un échantillon réduit de cette population initiale. Nous tenterons ensuite de voir dans quelle mesure les différents modèles que nous allons calculer permettront d'estimer le reste de la population.

Pour mettre en évidence l'utilité de la régression PLS, nous choisirons un nombre assez faible d'individus actifs, et des variables considérablement corrélées entre-elles (sinon, le nombre d'étapes n'influencera pas le modèle, pour des raisons vues dans la partie précédente). Nous tenterons également, dans une certaine mesure, de faire varier ces paramètres, afin d'essayer de mettre en évidence les conditions pour lesquelles les conséquences engendrées par le choix du nombre d'étapes sont significatives.

Naturellement, il ne s'agit pas de dresser des conclusions qui se voudraient exhaustives quant aux propriétés de la régression PLS, qui délimiteraient clairement des seuils d'efficacités de la méthode en fonction de chaque paramètre. Il s'agit uniquement de faire des tests, de traiter quelques cas différents, avec des données qui ont des propriétés connues, afin de mettre en évidence certaines tendances, et de prouver empiriquement que, sous certaines conditions, la régression PLS est une méthode qui se justifie pleinement.

Afin d'éviter tout manque d'objectivité dans la création des données, celles-ci seront générées sous Excel, avec une composante prédéfinie et une composante aléatoire. Toutes les données de la population mère seront générées simultanément, y compris celles des individus actifs, qui seront choisi « au hasard » dans la population mère.

Pour générer une composante aléatoire, la fonction « ALEA() » d'Excel sera utilisée. Cette fonction ne possède peut-être pas toutes les propriétés d'une vraie fonction aléatoire au sens pur (l'aléa pur, en informatique, n'existe pas, puisque tout y est toujours fonction de quelque chose), mais ses propriétés sont probablement suffisantes que pour se livrer à un exercice de ce type sans que les conclusions ne soient excessivement faussées. De plus, pour éviter autant que possible tout problème, l'exercice sera répété plusieurs fois avec des données régénérées à chaque fois.

Cette fonction ALEA() génère aléatoirement un nombre à 16 décimales compris entre 0
et 1. La distribution de ce nombre au sein de cet intervalle est supposée équiprobable
pour chaque sous-intervalle de même amplitude défini au sein de l'intervalle (quelque

soit l'amplitude choisie). En théorie, notons que l'espérance de la fonction ALEA() est sensée être la suivante : E[ALEA()]=0.5

Naturellement, on peut obtenir un nombre aléatoire de l'ordre grandeur que l'on souhaite en multipliant cet aléa par une constante. On peut aussi créer une relation aléatoire entre deux variables, ou une relation partiellement aléatoire.

Nous allons ainsi définir un jeu de 5 variables explicatives xi, x2, x3, x4 et x5, et une variable expliquée Y. Nous choisissons un nombre 5 variables dans l'optique d'un compromis. D'une part, il faut un minimum de variables pour pouvoir observer des effets de multicolinéarité et pouvoir juger de la pertinence d'une méthode dans le cadre d'un jeu de relations suffisamment complexes. D'autre part, il ne faut pas non plus choisir un nombre trop élevé de variable sous peine de compliquer le problème plus qu'il ne l'est nécessaire et de se détourner de l'objectif initial qui est de tester la régression PLS.

Les relations entre les variables seront toutes définies de manière linéaire. On part de xi, fonction éventuelle d'un aléa et d'une constante. Ensuite, on envisage x2, qui peut éventuellement être fonction de xi. x3 pourra quant à elle être fonction de xi et x2, et ainsi de suite, chaque variable pouvant être fonction de toutes les variables dont l'indice est inférieur au sien. La variable Y peut logiquement être fonction de toutes les variables explicatives. Les relations entre les variables sont ainsi hiérarchisées afin de pouvoir être facilement encodées avec Excel.

Naturellement, chaque variable peut également intégrer des constantes ou des fonctions aléatoires de constantes.

Chaque test effectué fera l'objet de 4 simulations, afin de voir si les résultats sont significativement modifiés, et de tenir des conclusions moins hasardeuses.

Notons également que le nombre d'individus étant important, les tableaux contenant les données brutes se trouvent dans la partie « Annexes » (ces tableaux s'étalant de la page 127 à la page 138).

I. Test n°1

Prenons les relations suivantes :

xi = 200 + 100*ALEA()

x2 = 100 + 100*ALEA() + 2*ALEA()*xi + 0.5*xi

x3 = 2*ALEA()*xi + 2*ALEA()*x2

x4 = -50 - 3*ALEA()*xi + 2*ALEA()*x3

x5= 100 + 100*ALEA() + 5*ALEA()*xi + x2 + ALEA()*x4

Y = 2*xi +2*ALEA()*xi + ALEA()*x3+ 0.5*x4 + ALEA()*x4+ x5+ 0.5*ALEA()*x5 On peut résumer ces relations via le tableau suivant :

50 individus sont générés selon ces formules (avec Excel), dont les 10 premiers serviront d'individus actifs pour la création des modèles, et les 40 autres serviront à mettre à l'épreuve la capacité à estimer de chaque modèle.

4 simulations différentes seront effectuées.

Il peut-être intéressant, au préalable, de s'intéresser aux caractéristiques des séries qui vont être ainsi générées :

Pour mieux comprendre ce tableau, prenons deux exemples :

- La variable xi est la somme d'un terme constant d'une valeur de 200, qui ne fait l'objet d'aucun aléa, mais aussi d'un terme aléatoire, pouvant varier de 0 à 100 et d'espérance 50. On a donc une espérance totale de 250, qui se décompose structurellement en 200 unités constantes et de 50 unités aléatoires.

- La variable x2 est fonction de 4 termes :

o Un terme constant, d'une valeur de 100.

o Un terme aléatoire d'espérance 50.

o Un terme fonction aléatoire de xi, pouvant varier entre 0 et 500, d'espérance 250, espérance qui se décompose en :

n Un terme constant dans xi qui devient aléatoire dans x2, comptant pour une espérance de 200.

n Un terme aléatoire dans xi qui devient aléatoire de 2nd degré dans x2, comptant pour une espérance de 50.

o Un terme fonction directe de xi, pouvant varier entre 100 et 150 (xi pouvant varier entre 200 et 300), d'espérance 125, qui se décompose de la manière suivante :

n Un terme constant dans xi, qui reste constant dans x2, comptant pour dans l'espérance de x2 pour 100 unités.

n Un terme aléatoire dans xi, qui reste aléatoire dans x2, comptant pour 25 unités.

Au final, l'espérance de la variable x2 se décompose donc en :

o 200 unités constantes (dont 100 issues de xi)

o 275 unités aléatoires (dont 225 issues de xi)

o 50 unités « doublement aléatoires », qui proviennent toutes de xi.

Avec le phénomène d'enchevêtrement des variables les unes dans les autres, on remarque que l'on arrive à obtenir jusqu'à 6 degrés d'aléa dans une variable. Tout ceci semble fort complexe, mais une fois chaque degré d'aléa clairement identifié pour chaque variable, le tableau permet d'avoir une vue d'ensemble de la structure qui est à la base de la génération des différentes variables. Notons néanmoins que ce tableau ne nous renseigne pas sur les relations des variables entre elles.

On s'aperçoit donc que, dans l'ensemble, le terme constant n'est pas celui qui domine, et que de très fortes variations peuvent affecter plus ou moins aléatoirement l'ensemble des variables, avec des aléas qui peuvent se répercuter sur plusieurs variables à la fois (ce qui peut perturber ou au contraire renforcer la relation entre ces variables).

I.1. Simulation n°1

Les statistiques observées (moyenne et écart-type) sur les individus actifs (les 10 premiers individus) sont les suivantes :

La matrice des coefficients de corrélation sur ces individus donne :

On observe donc des coefficients assez élevés (en moyenne), que ce soit entre la variable expliquée et les variables explicatives, ou entre les variables explicatives entre elles.

Voyons à présent les mêmes tableaux, pour la population mère (les 50 individus) :

Les statistiques sur échantillon ne sont bien sûr pas ce qu'elles sont sur la population
mère, mais, toute proportion gardée, on constate des similitudes conséquentes. Notons

au passage que la population mère englobe les individus actifs et que cela a un léger impact sur la similitude des données.

Voici ce que nous donnent les différents modèles PLS que nous pouvons calculer sur le modèle :

On remarque que les coefficients sont peu stables lorsque l'on ajoute des étapes.

Remarquons également qu'en termes de R2 ajouté, seules les deux premières étapes semblent significatives.

Regardons à présent les coordonnées des composantes ainsi que leur variance :

On remarque que les 3 premières composantes sont significatives en termes de variance.

Au regard des deux critères, il serait donc judicieux de retenir 2 ou 3 composantes, la première n'étant pas suffisante, et les deux dernières n'étant pas significatives. La troisième composante ne se justifie que parce que sa variance est considérable et apporte probablement une part importante d'explication des variables x.

On retiendra donc, assez arbitrairement, 3 composantes.

Regardons à présent les résultats de l'application des différents modèles sur les 40 individus non-actifs :

On remarque donc que c'est le modèle à 2 composantes qui obtient le meilleur score (89.30%), le modèle à 3 composantes obtenant un score assez proche de ce dernier.

Si nous effectuons une régression linéaire multiple sur les 40 individus non-actifs, ce qui correspond au meilleur résultat possible en termes de SCR et donc de R2, nous obtenons les résultats suivants :

On remarque que le modèle PLS(2), ainsi que le modèle PLS(3) que nous avons retenu, sont nettement plus proches de ce « meilleur score possible » que ne l'est la régression PLS(5), c'est-à-dire la régression linéaire multiple sur les individus actifs.

La régression PLS, combinée aux critères utilisés pour la sélection du nombre d'étapes, est donc, ici, un meilleur estimateur que ne l'est la régression linéaire.

Mais cette unique simulation ne saurait suffire, nous allons donc en faire plusieurs autres afin de voir si cette tendance se vérifie.

1.2. Simulation n°2

La population mère et les individus actifs étant tous régénérés (selon les mêmes formules que pour la première simulation), voici ce que deviennent les nouvelles statistiques.

Pour les individus actifs :

Pour la population mère :

Par rapport à la précédente simulation, il faut noter une forte instabilité des corrélations des individus actifs, et une instabilité significative des corrélations de la population mère.

Intéressons nous à présent aux composantes PLS et aux différents modèles selon le nombre d'étapes :

Au regard de ce tableau, il semble inutile de retenir davantage de 1 étape. On note une grande instabilité des coefficients, à l'exception de la variable x5.

L'interprétation est plus délicate s'agissant de la variance des composantes. Il faut, au regard de ce critère, retenir au moins 2 étapes. Mais les 3 dernières étapes semblent également significatives, notamment la toute dernière, qui nous obligerait à retenir les deux autres si on souhaitait la prendre en compte.

A la vue du premier tableau, et dans l'optique de trouver un compromis, nous allons nous contenter de deux étapes.

Voyons à présent les résultats de l'application des différents modèles sur les individus non-actifs :

Nous sommes ici dans un cas plus délicat. Tous les modèles, sans exception, donnent des résultats satisfaisants, et ce malgré une amplitude conséquente des coefficients.

Néanmoins, dans ce cas-ci, la qualité des résultats semble fonction croissante du nombre d'étapes retenues. C'est ce que pouvait nous laisser imaginer le deuxième critère. Mais ce n'est pas le cas du premier critère, qui nous aurait plutôt poussés à ne retenir qu'une seule étape.

Néanmoins, on peut noter que l'amélioration des résultats n'est pas si importante que cela, et que le choix du second modèle, dans l'optique de compromis, n'était pas un si mauvais choix.

Voyons ce que nous donne la régression linéaire multiple sur les individus non-actifs :

On remarque là aussi, par rapport à la précédente simulation, une forte instabilité des coefficients (ce qui est surprenant lorsqu'il s'agit de comparer deux populations de taille presque aussi importante que leur population mère respective).

On constate que les 5 modèles approchent raisonnablement ce résultat optimal (au sens des moindres carrés), et que le modèle PLS(5) (ou de régression linéaire) est le meilleur.

1.3. Simulation n°3

Données des individus actifs :

Données de la population mère :

On note toujours des instabilités conséquentes par rapport aux deux précédentes simulations.

Passons sans attendre à l'étude des modèles et composantes :

On remarque que le modèle à 5 composantes explique très bien la population active. Néanmoins, le modèle à 2 composantes semble suffire, avec un R2 de 96.21%, les 3 autres étapes n'apportant rien de significatif.

Ici, le choix semble nettement plus délicat. Il semble inconcevable de retenir moins de 3 composantes, et les deux dernières composantes semblent également importantes, mais nettement moins que ne l'est la troisième.

D'après les deux tableaux, le mieux semblerait être de retenir 3 composantes.

Voyons à présent les résultats des modèles sur le reste de la population mère :

Cette fois, la contradiction est de taille. Les critères nous on poussé à choisir le moins bon modèle, et le seul « bon » modèle qui le soit vraiment (quand on connaît les résultats obtenus lors des deux autres simulations) est le modèle PLS(1).

Malheureusement, peu de choses laissaient présager que le modèle 1 était le bon, excepté le fait que la première composante suffisait à expliquer 79.96% de la variance de Y s'agissant des individus actifs. On aurait hélas pu penser que, le second axe apportant 16.25% d'explication de la variance de Y, et le troisième axe présentant une inertie considérable (presque aussi importante que celle du premier axe), il était indispensable de retenir 3 axes.

Ce n'était malheureusement pas le cas. On peut probablement expliquer cela par le fort degré d'aléa, qui soumet la qualité de l'échantillon à un hasard considérable.

Notons néanmoins que la régression linéaire multiple n'aurait pas, elle non plus, atteint des résultats intéressants

Voici les données et les résultats du meilleur modèle possible :

On constate ici que le modèle PLS(1) était d'une bonne qualité. La régression PLS n'était donc pas une mauvaise méthode sur cet exercice (bien au contraire, elle surpasse complètement la régression linéaire), mais le choix du nombre correct d'étapes était impossible au regard des critères, ce qui rend ici l'utilité de la méthode nettement moins intéressante (à quoi bon détenir le bon modèle si on ne sait pas le distinguer des autres lorsqu'on ne peut pas le tester sur la population mère ?).

I.4. Simulation n°4

Données des individus actifs :

Données de la population mère :

Il n'y a rien à ajouter sur ces données, quand on a déjà vu (dans les précédentes simulations) à quel point les séries étaient instables.

Partie 3: Simulations
Passons aux caractéristiques des modèles et composantes afin de discuter des critères :

Au regard de ce critère, il semble intéressant de retenir deux composantes, les 3 dernières n'apportant rien d'intéressant en terme d'explication de la variance de Y.

Voyons à présent l'inertie des composantes :

Ici, il semblerait qu'il soit préférable de retenir 4 composantes.

Dans une optique de compromis, nous retenons arbitrairement 3 composantes (2 ou 4 composantes auraient également pu se justifier).

Voyons donc les résultats des différents modèles :

Dans l'ensemble, les modèles ont des résultats plutôt moyens. Néanmoins, cette fois, les critères nous ont conduits au choix du meilleur modèle.

La régression linéaire est celle qui obtient le plus mauvais résultat. Les meilleurs résultats possibles étaient les suivants :

Le modèle choisi est bien entendu celui qui s'en approche le plus.

De toutes les simulations effectuées, celle-ci est celle qui présente la population mère la moins bien modélisable. Il est donc normal que les résultats des différents modèles testés soient moins bons dans l'ensemble que ceux des simulations précédentes.

I.5. Conclusions sur le test n°1

Il est à présent temps de conclure sur l'ensemble des simulations effectuées dans le cadre de ce premier test.

Le tableau suivant nous donne pas mal d'indications :

La colonne RLM(T) représente le R2 obtenu par régression linéaire multiple sur les individus non actifs pour chaque simulation. Il s'agit du meilleur score possible à obtenir, en termes de R2, par une régression de type linéaire.

En vert est systématiquement indiqué, pour chaque simulation, le meilleur modèle (parmi les 5 modèles proposés par la régression PLS) obtenu àpartir de l'échantillon.

En gras est systématiquement indiqué le modèle PLS correspondant au nombre d'étapes retenues au regard des critères.

On remarque plusieurs choses :

- Le meilleur modèle n'est jamais le même sur deux simulations différentes.

- Le meilleur modèle n'a été choisi qu'à une seule reprise à l'aide des critères.

- En général, le meilleur modèle se situe environ à 5% du meilleur résultat possible. - Le modèle de régression linéaire n'est le meilleur qu'à une seule reprise.

- En moyenne, les résultats obtenus à l'aide du modèle choisi (sur base des critères utilisés) est meilleur que ne le sont les résultats de la régression linéaire. C'est notamment le cas pour la simulation n°4, sans laquelle cette remarque ne tiendrait plus. - En moyenne, c'est le modèle PLS(1) qui obtient les meilleurs résultats.

- En moyenne, c'est le modèle PLS(5) qui obtient les plus mauvais résultats.

- Les résultats varient peu, aussi bien au cas par cas qu'en moyenne, s'agissant des modèles à 2, 3 et 4 composantes. On pourrait facilement inclure la 5ème composante à ce raisonnement si on ne tenait pas compte de la 4ème simulation.

Les résultats sont donc très nuancés pour cet exercice. L'utilité de la méthode semble pourtant réelle, puisqu'en moyenne, la régression linéaire est celle qui présente les moins bons résultats, et qu'en moyenne, le modèle choisi est meilleur que le modèle de régression linéaire. Mais ces résultats tiennent trop à la présence de la 4ème simulation que pour être jugés fiables.

On note néanmoins une certaine robustesse de l'approche PLS vu les résultats obtenus à la première étape.

Notons aussi que si on observe les coefficients trouvés par les modèles, quels qu'ils soient, on se trouve devant un souci évident d'interprétation, et il semble difficile de savoir si un modèle est plus fiable ou non qu'un autre.

Voici un tableau retranscrivant les écarts-types observés par les coefficients sur l'ensemble des simulations :

On note qu'excepté s'agissant de la constante, les écarts-types sont nettement plus faibles pour la régression PLS(1). Plusieurs d'entre eux sont même inférieurs aux écarts - types observés pour les régressions faites sur les individus non-actifs, ce qui est réellement impressionnant vu que la taille de l'échantillon est 4 fois inférieure à la taille de la population formée par les individus non-actifs.

Il est important de noter que la régression linéaire (ou PLS(5)) est celle qui présente les coefficients les plus instables, constante exceptée. Il s'agit là d'une relative illustration de l' « opportunisme » de la méthode.

Pour en conclure sur ce test, nous retiendrons surtout que les composantes aléatoires qui sont à l'origine de la création des séries sont probablement nettement trop élevées que pour obtenir des résultats suffisamment représentatifs de l'efficacité des méthodes.

Ce tableau, confrontant les moyennes observées sur les séries et les espérances de ces mêmes séries, le confirme :

La colonne «Ecart moy 96 » calcule l'écart relatif moyen (en valeur absolue) des moyennes considérées par rapport à l'espérance de la série.

On note une forte instabilité générale des séries. Les séries x1 et x2 sont les seules à présenter une instabilité relativement faible. La série x5 présente quant à elle une instabilité acceptable. En revanche, les séries x3, x4 et y sont considérablement instable, particulièrement la série x4, ce qui est normal si l'on se réfère à sa répartition en terme de degrés d'aléa (le terme constant y est résiduel).

S'il est normal de constater des écarts significatifs sur un échantillon de 10 individus, il l'est moins s'agissant d'une population mère de 50 individus.

Le deuxième test que nous allons effectuer se fera en conséquences avec des composantes aléatoires amoindries.

II. Test n°2

Comme il l'a été expliqué à la fin du premier test, il est nécessaire de travailler avec des données moins aléatoires, et notamment avec des relations moins aléatoires entre les séries. Ce sera donc l'objet de ce second test.

La seule différence avec le premier test va donc résider dans les relations génériques entre les variables. Le nombre de variables, d'individus actifs, d'individus au sein de la population mère, et de simulations ne changeront donc pas.

Prenons donc, cette fois, les relations suivantes :

xi = 225 + 50*ALEA()

x2 = 125 + 50*ALEA() + ALEA()*xi + xi

x3 = 0.5*xi + ALEA()*xi + 0.5*x2 + ALEA()*x2

x4 = -50 -- 0.75*xi -- 1.5*ALEA()*xi + 0.5*x3 + ALEA()*x3

x5 = 125 + 50*ALEA() + 1.25*xi + 2.5*ALEA()*xi + x2 + 0.25*x4 + 0.5*ALEA()*x4

Y = 2.5*xi + ALEA()*xi + 0.25*x3 + 0.5*ALEA()*x3 + 0.75*x4 + 0.5*ALEA()*x4 + 1.125*x5 + 0.25*ALEA()*x5

Les relations semblent certes légèrement plus complexes, mais en fait, la part d'aléa a été divisée par deux dans chaque relation liant une variable à une autre variable ou à une constante, et cette diminution a été compensée par une hausse des relations directe entre les variables entre-elles ou des relations entre les variables et les termes constants. L'espérance des séries demeure ainsi inchangée par rapport au premier test effectué.

Voici le tableau synthétisant les relations entre les variables :

Et voici le tableau résumant les nouvelles caractéristiques des séries :

Il est bon de noter qu'en divisant par deux la composante aléatoire qui fondait toute relation directe entre les variables, et en divisant par deux l'aléa des termes constants, on a fait bien plus que diviser par deux l'influence de l'aléa dans l'ensemble des séries. Mais cela n'empêche pas l'ensemble des séries de conserver une forte composante aléatoire.

Si l'on observe le tableau, on s'aperçoit que les espérances des séries restent inchangées. Seules les proportions des différents degrés d'aléa sont modifiées. Elles sont à présent plus raisonnables. Les termes constants prennent une importance beaucoup plus conséquente. Les aléas de degrés élevés prennent quant à eux une importance nettement moindre.

On peut donc s'attendre à des séries plus prévisibles, des relations entre les variables plus stables, et donc des données moins aléatoires au sein des individus actifs et de la population mère.

On a donc plus de chances d'avoir un échantillon de qualité décente, et plus de chances d'avoir une population mère représentant fidèlement les caractéristiques des séries.

Passons donc à présent aux simulations, qui, comme dans l'exemple précédent, seront au nombre de 4.

II.1. Simulation n°1

Voyons tout d'abord les caractéristiques des individus actifs :

On observe que les écarts types des séries sont nettement plus faibles que ceux que l'on a pu constater dans les simulations du premier test. Les moyennes des séries sont raisonnablement proches de leur espérance.

Caractéristiques de la population mère :

Naturellement, les moyennes enregistrées sur la population mère sont encore plus proches des espérances théoriques des séries. On observe néanmoins que la série x4 est toujours fortement instable et que sa moyenne reste assez éloignée de l'espérance.

Pour ce qui en est des corrélations, on peut dire que l'échantillon représente assez moyennement la population mère.

Attardons nous à présent sur les critères de décision quant au choix du modèle, et observons pour cela les caractéristiques des modèles et des composantes :

On s'aperçoit que les coefficients sont assez instables d'un modèle à l'autre, et que même les variables théoriquement les plus stables ne sont pas épargnées (bien au contraire). Cela tient à la complexité du jeu des variables entre-elles.

Notons également que les individus actifs sont nettement mieux prédits (globalement) que dans les simulations du test précédent.

On remarque que les 3 dernières composantes apportent très peu en termes de prédiction des individus actifs. Ce critère nous incite à ne retenir que 2 composantes.

Le critère de la variance des axes nous incite clairement à retenir 3 composantes. C'est ce que nous ferons, afin d'éviter de perdre une partie importante de la représentation des axes.

Notons que les deux derniers axes sont jugés complètement inutiles par les deux critères. Nous retenons donc 3 composantes.

Voyons à présent les résultats des estimations des différents modèles sur les 40 autres individus :

On remarque que les modèles à 2 et 3 composantes sont considérablement meilleurs que les autres.

Les modèles recommandés par les deux critères sont donc ici les meilleurs. Le modèle que nous avons retenu (celui à 3 composantes) n'est pas le meilleur mais est très proche de celui qui l'est.

Regardons à présent le meilleur résultat possible :

On s'aperçoit que les modèles en sont assez loin, ce qui est paradoxal. En effet, dans les simulations du précédent test, les meilleurs modèles s'approchaient en moyenne à 5% du meilleur résultat possible. Cette fois-ci, l'écart est de 12%, alors que nous avons réduit l'impact du facteur aléatoire.

Cela relève probablement d'une mauvaise qualité de l'échantillon, pas suffisamment représentatif de la population mère. On peut raisonnablement qu'il s'agisse d'une exception et que les prochains individus actifs seront plus représentatifs des prochaines populations mères (dans les simulations suivantes).

Quoi qu'il en soit, cette simulation est plutôt positive car les critères ont retenu les bons modèles.

11.2. Simulation n°2

Voyons tout de suite quelles sont les caractéristiques des séries. Tout d'abord celles des individus actifs :

Et voici celles de la population mère :

1l semblerait les coefficients de corrélations des séries issues des individus actifs soient un peu plus représentatifs de ceux de celles issues de la population mère que dans la simulation précédente.

Etudions à présent la construction des modèles et des composantes, avec, tout d'abord, les modèles en question :

Notons que les coefficients évoluent de manière assez stable d'étape en étape, si l'on ne tient pas compte de l'étape n°2 qui marque une sorte de « coupure » s'agissant du coefficient de la constante et de celui de x1.

Ce critère nous incite, sans équivoque, à retenir les deux premières composantes.

Notons par contre que les individus sont moins bien prédictibles que dans la simulation précédente (94.89% au mieux contre 99.34% dans la simulation n°1).

Etudions à présent les variances des axes :

Ce critère nous conduit à conserver 3 ou 4 axes. A nouveau, nous choisissons le compromis et retiendrons 3 axes.

Les résultats des modèles sont les suivants :

Les résultats semblent assez indifférents quant au modèle choisi. C'est à nouveau le modèle à 2 composantes qui sort légèrement du lot, tel que le préconisait le premier critère (c'était déjà le cas dans la simulation précédente). Le choix de 3 axes constitue le 2ème meilleur choix possible.

Voyons quels sont les données du résultat optimal sur les 40 individus concernés :

On s'aperçoit que le modèle PLS(2) était vraiment proche du résultat optimal. Pourtant, les coefficients, pour certains d'entre eux, sont loin d'être les mêmes.

On remarque cette fois-ci que, contrairement à l'exemple précédent, qui voyait un écart de + de 12% entre le meilleur modèle et le résultat optimal, ici, cet écart est inférieur à 1%. Cela tend à confirmer que la simulation précédente constituait une exception. On peut penser que les individus actifs représentaient un échantillon de meilleure qualité (plus représentatif) de la population active.

Pour ce qui en est de l'efficacité de la méthode PLS, nous pouvons dire qu'elle est ici difficilement démontrable étant donné la proximité des modèles en terme de qualité d'estimations.

Néanmoins, le fait que les critères nous aient amenés à choisir le deuxième meilleur modèle (le modèle PLS(3)), et le fait que l'hésitation portait sur les modèles PLS(2), PLS(3) et PLS(4) (les 3 meilleurs modèles), nous laisse à penser que la méthode est satisfaisante.

11.3. Simulation n°3

Les caractéristiques des individus actifs et de la population mère sont les suivantes. Pour les individus actifs :

Pour la population mère :

Comme dans la première simulation, les caractéristiques des individus actifs représentent moyennement celles de la population mère.

Intéressons nous à présent aux modèles et composantes :

Les individus actifs semblent facilement modélisables. Ce critère nous invite à retenir une, ou éventuellement deux composantes.

Le critère de la variance des axes semble nous inviter à retenir 4 composantes, mais nous indique clairement que la première composante est de loin la plus représentative.

Nous retiendrons 3 composantes, et ce pour deux raisons :

- Parce que les coefficients semblent hautement instables à partir de l'étape 4.

- Parce qu'il serait trop dangereux de se priver d'une partie trop importante de l'inertie des axes. Les deux premiers axes, à eux seuls, ne suffisent peut-être pas. Bien sûr, l'idéal serait de retenir 4 axes au regard du critère d'inertie, mais cela reviendrait à ignorer complètement le premier critère. Le choix de 3 composantes relève donc encore du principe de compromis.

Passons à présent aux résultats des estimations des modèles :

Cette fois, il semblerait que nous ayons choisi le bon nombre d'axes.

Notons que le premier critère, à lui seul, nous aurais dangereusement tenté de ne retenir qu'un seul axe. Il était important de se fier au second critère. Néanmoins, ce dernier, à lui seul, nous aurait poussé à retenir 4 axes, dont un aurait été de trop. Il est donc important de se fier aux deux critères en relativisant l'importance d'un seul critère pris isolément.

Notons que, dans l'ensemble, les prévisions sont meilleures qu'elles ne l'étaient lors de la première simulation, et moins bonnes qu'elles ne l'étaient pour la seconde.

Le résultat optimal était le suivant :

Contrairement à la première simulation, le meilleur modèle (qui fut d'ailleurs le modèle choisi) s'approche considérablement du meilleur résultat possible. La régression linéaire, quant à elle, était nettement plus loin du résultat.

Bien que l'on craignait, au départ, d'avoir un échantillon peu représentatif de la population mère, et d'avoir des résultats semblables à ceux de la première simulation, ce fut moins le cas ici. Les prévisions des différents modèles ne sont pas aussi bonnes qu'elles ne l'étaient dans la seconde simulation, mais cette fois, les critères nous ont poussés à choisir le bon modèle, qui lui était tout à fait correct.

La régression PLS, dans ce cas-ci, était donc utile.

11.4. Simulation n°4

Voici les caractéristiques des individus actifs :

Et les caractéristiques de la population mère :

Les caractéristiques de l'échantillon semblent assez peu représentatives de celles de la population mère, à l'instar de ce que l'on a pu constater lors des simulations 1 et 3. L'instabilité de la variable X4 semble y être pour beaucoup.

Les différents modèles obtenus à partir de l'échantillon sont les suivants :

Le critère du « R2 ajouté », sans équivoque, nous recommande de retenir 2 étapes. Notons que les coefficients sont assez stables à partir de l'étape 2 jusqu'à l'étape 5.

Etudions à présent les variances des différentes composantes :

Ce critère nous incite à retenir 3 étapes, la 3ème étant apparemment presque aussi importante que la première.

Nous allons donc, en quelques sortes, privilégier, cette fois, le second critère, et choisir 3 composantes, surtout parce que la troisième composante semble très importante au regard du second critère, et aussi parce que les coefficients semblent raisonnablement stables entre l'étape 2 et l'étape 3. Un phénomène de surparamétrage ne semble donc pas trop à craindre. Il s'agit au contraire de tenir davantage compte de l'inertie de l'ensemble des variables explicatives.

Les résultats donnés par les modèles sont les suivant :

Cette fois, il y a vraiment très peu de différences entre les 4 derniers modèles. La stabilité relative des coefficients s'agissant des 4 dernières étapes aurait pu nous le suggérer.

Dans cette simulation, le plus important était de ne pas retenir le premier modèle, qui est le seul dont les résultats se démarquent (dans le mauvais sens) du lot. Le choix du nombre d'étapes importait peu, pourvu qu'on en retienne au moins deux. Nous en avons retenu 3, sur base des critères, et avons ainsi pu éviter le seul danger possible.

Notons que, dans l'ensemble, les prévisions ne semblent pas très bonnes. Voyons donc quel était le résultat optimal :

Le meilleur modèle était à un peu plus de 7% du meilleur résultat possible. La qualité de l'échantillon était donc probablement moyenne. La population mère, quant à elle, devait également être de qualité moyenne, puisqu'elle est la moins bien modélisable sur les 4 simulations que nous avons pu faire.

Ce n'est pas pour autant que le bilan de la méthode PLS soit mauvais sur cet exemple, car même si la régression linéaire aurait donné de meilleurs résultats que ceux donnés par le modèle choisi, la différence était négligeable.

II.5. Conclusions sur le test n°2

Il est maintenant temps de conclure sur ce second test, dont l'originalité, par rapport au premier test, était de travailler sur des relations moins aléatoires.

Voici le tableau retraçant les résultats des différents modèles pour chaque simulation :

On s'aperçoit que notre choix s'est invariablement porté sur la conservation des 3 premières étapes.

On remarque aussi que la régression PLS(1) était dans tous les cas celle qui donnait les moins bons résultats, alors que, le plus souvent, il suffisait d'ajouter la seconde composante que pour obtenir le meilleur résultat possible.

Néanmoins, le choix systématique de 3 étapes n'était pas si mauvais en soi. Il constitue, dans 1 des 4 cas, le meilleur choix possible, et dans les autres cas, montre des résultats presque aussi bons que ceux du meilleur choix possible.

Sur l'ensemble des 4 simulations, l'apport de la méthode PLS est considérable, car il donne, en moyenne des résultats plus proches du « résultat optimal » que ne le fait la régression linéaire (PLS(5)).

On note, sur l'ensemble des simulations, que la population formée par les individus non-actifs était légèrement mieux modélisable que ce n'était le cas dans le test précédent (le meilleur résultat possible donne à présent un R2 en moyenne de 93.96%, contre 91.85% lors du premier test).

On peut également constater que, dans l'ensemble, les modèles établis sur les individus actifs prédisent nettement mieux le reste de la population.

En revanche, ce que l'on constate moins, c'est un éventuel rapprochement entre le résultat du meilleur des 5 modèles et le « résultat optimal ». Cet écart reste, en moyenne, d'environ 5%.

On constate d'ailleurs une sorte de convergence des résultats, comme si chaque modèle (excepté le modèle PLS(1)) était aussi bien capable d'estimer le reste de la population mère que les autres ne le sont.

Les prédictions s'améliorent donc nettement, mais l'écart du meilleur modèle (et également du modèle choisi) par rapport au meilleur résultat possible ne diminue pas en moyenne. De plus, les résultats semblent être moins sensibles par rapport au choix du modèle.

On remarque néanmoins que cette différence par rapport au premier test s'explique principalement par la simulation n°3 de ce dernier, qui avait complètement bouleversé les résultats. Sans elle, les conclusions du premier test ressembleraient davantage à celle du second. Mais la probabilité d'obtenir une simulation aussi atypique était bien entendu plus élevée dans le premier test, étant donné l'instabilité des séries.

Regardons à présent les écarts-types enregistrés sur les coefficients :

On observe cette fois que les modèles PLS(2) et PLS(3) sont les plus stables. Le modèle PLS(1) est aussi relativement stable constante exceptée.

De manière générale, la stabilité des modèles est légèrement meilleure que celle constatée lors du modèle précédent. On note également que le meilleur modèle possible sur individus ne faisant pas partie de l'échantillon est de loin le plus stable.

Etudions à présent les moyennes enregistrées sur les séries :

Par rapport au précédent test, on note que les séries sont devenues nettement plus stables, que ce soit au niveau de l'échantillon qu'au niveau de la population mère. Les écarts par rapport à l'espérance sont devenus acceptables, excepté s'agissant de la variable x4, qui reste hautement instable.

La question que l'on peut légitimement se poser est la suivante : Est-ce que la réduction du facteur aléatoire avantage l'approche PLS ou l'approche des MCO ?

En fait, la réponse théorique à cette question est assez délicate, car plusieurs effets entrent en jeu :

- S'il n'y avait aucun facteur aléatoire, les individus actifs seraient à 100% représentatifs de la population mère, et la régression linéaire serait avantagée, car en passant au plus près du nuage de points formé par les individus actifs, elle passerait forcément au plus près de celui formé par le reste de la population. Une réduction du facteur aléatoire avantage donc, de ce point de vue, l'approche des MCO.

- Une réduction du facteur aléatoire, compensée par une hausse des relations directes entre les variables explicatives, peut renforcer la nécessité d'utiliser la méthode PLS, qui, comme nous l'avons vu, permet en partie de faire face au phénomène de multicolinéarité. Toutefois, cet effet semble nettement moins évident que le premier.

Si l'on observe les résultats moyens des modèles au cours des deux tests, on s'aperçoit que, visiblement, c'est la régression linéaire qui est avantagée par la réduction du facteur aléatoire, puisque ses résultats s'améliorent en moyenne.

Ce tableau permet de comparer les résultats moyens enregistrés au cours des 2 tests :

On s'aperçoit que tous les résultats sont en nette progression, excepté pour le modèle à une composante.

L'approche PLS pure semble donc affaiblie et l'approche des MCO semble renforcée. Mais la nécessite d'utiliser la méthode PLS, combinée aux critères utilisés, quant à elle, reste bien réelle, car bien que l'écart enregistré entre le modèle choisi et le modèle PLS(5) est faible, il est assez stable d'une simulation à l'autre.

En réalité, la diminution du facteur aléatoire n'avait pas pour but d'avantager l'une ou l'autre méthode (même si l'approche PLS semble s'en trouver désavantagée), mais d'avoir des résultats qui nous permettent des conclusions plus stables, étant donné le nombre de simulations limitées que nous avons le loisir de pratiquer.

Si nous avions pu faire plusieurs dizaines de simulations, nous aurions probablement pu nous contenter des relations utilisées dans le premier test. Ce n'est malheureusement pas le cas car j'ai personnellement choisi de détailler un maximum le déroulement de chaque simulation, dans le but de rester le plus transparent possible (le manque de transparence pouvant, en statistiques, couvrir une éventuelle manipulation des résultats dont je ne souhaite pas être soupçonné, sous peine d'enlever toute crédibilité aux résultats trouvés lors des simulations).

Le fait de travailler avec des séries plus stables permet de compenser, dans une certaine proportion, le faible nombre de simulations. Cet objectif semble être atteint, dans une certaine mesure, car les résultats ont assez peu varié d'une simulation à l'autre :

- Le nombre d'étapes choisi au regard des critères fut toujours le même.

- Le meilleur modèle était dans 3 cas le modèle PLS(2), et dans l'autre cas le modèle PLS(3), sachant que même dans ce cas, le modèle PLS(2) donnait des résultats très satisfaisants.

- Les résultats des différents modèles sont plus stables.

- La prévisibilité de la population mère était plus stable.

L'autre but était tout de même de savoir si une réduction du facteur aléa affectait plus particulièrement un modèle qu'un autre. Apparemment, c'est le cas. Il faut retenir, en moyenne, plus d'étapes que dans le premier test, pour obtenir un bon modèle. Mais cette conclusion, basée sur seulement 4 simulations par test, est à relativiser à cause de l'instabilité des résultats du premier test.

Pour en finir sur les conclusions de ce deuxième test, nous dirons que la régression PLS fut efficace dans presque 100% des cas, car les résultats du modèle retenu étaient toujours meilleurs que ceux du modèle PLS(5) équivalent à la régression linéaire selon le critère des MCO, excepté lors de la dernière simulation où les deux modèles se valent (avec un léger avantage pour le modèle des MCO).

Par rapport au précédent test, on note des conditions plus stables. Le modèle choisi creuse, en moyenne, un écart moins important par rapport au modèle PLS(5), mais un écart qui est plus constant que dans le test précédent.

On peut penser que le modèle PLS retenu est, pour les deux tests, globalement meilleur que le modèle PLS(5), et que cet écart est plus conséquent lorsque l'aléa prédomine, mais qu'il est plus constant lorsque l'aléa est plus faible.

Il est maintenant temps de procéder à un troisième et dernier test. Le but va être de mettre en valeur la capacité de la régression PLS à fonctionner sur un nombre d'individus actifs à peine supérieur au nombre de variables.

III. Test n°3

Par rapport au précédent test, les relations génériques entre les variables ne changeront pas. Il suffit donc de retourner au début du second test pour connaître les propriétés exactes des variables.

Pour rappel, voici les espérances théoriques des séries :

La seule modification portera sur le nombre d'individus actifs. Le nombre d'individus actifs passera de 10 à 7. La taille de la population mère choisie sera toujours de 50 individus, ce qui nous laisse 43 individus sur lesquels nous mettrons à l'épreuve les qualités d'estimation des modèles.

Le but est de mettre en évidence les qualités d'estimation de la régression PLS sur faible échantillon.

Nous choisissons une telle approche car l'intérêt de la régression PLS se justifie surtout dans ce genre de cas de figures. Sur un échantillon trop élevé, les individus atypiques se compensent et on obtient souvent des caractéristiques trop représentatives de la population mère, ce qui élimine mécaniquement, en grande partie, le danger de surparamétrage de la régression linéaire au sens des MCO.

Néanmoins, afin de « laisser une chance » à la régression multiple, nous conservons un nombre d'individus actifs légèrement supérieur au nombre de variables, sans quoi ce test serait totalement inutile.

Ainsi, le fait de passer de 10 à 7 individus semble peut-être anodin, mais en réalité, cela change énormément la donne, puisque le nombre d'individus supplémentaires par rapport au nombre de variables explicatives passe de 5 à 2.

III.1 Simulation n°1

Observons les données des individus actifs :

Et les données de la population mère :

On s'aperçoit, cette fois, que les relations entre Y et chaque variable explicative sont assez comparables au sein des individus actifs et de la population mère, mais que les relations entre les variables explicatives sont mal représentées par l'échantillon.

Quant aux moyennes des séries, elles sont, pour certaines, s'agissant des individus actifs, loin de correspondre aux espérances théoriques.

Intéressons nous à présent aux critères de décisions

Tout d'abord, les prévisions des modèles retenus :

On remarque une instabilité assez forte des coefficients.

Ce critère nous incite plutôt à retenir 2, éventuellement 3 composantes. Mais compte tenu du faible nombre d'individus actifs, on peut s'attendre à un surparamétrage rapide. La troisième composante, n'apportant que 4.19% d'explication de la variance de Y, ne semble donc pas intéressante. Le fait de retenir une seule composante pourrait également se justifier.

Voyons à présent ce qu'il en est des variances des axes :

Ce critère nous incite à retenir 2 ou 3 composantes.

Dans les simulations précédentes, nous en aurions probablement retenu 3, mais ici, nous allons nous contenter de 2 composantes, étant donné le faible nombre d'individus actifs et la contribution modérée de la 3ème composante à l'explication de la variance de Y.

Notre choix se portera donc sur la conservation de 2 composantes.

Partie 3: Simulations Confrontons à présent les modèles au reste de la population mère :

Nous sommes en présence d'un cas assez particulier. Il fallait avant tout éviter de retenir 3 ou 5 composantes.

S'il est clair que nous n'aurions pas retenu 5 composantes, nous avons douté quant au choix du 3ème modèle, ce qui, ici, aurait été une erreur. Par contre, si nous avions retenu 4 composantes, cela n'en aurait pas été une au regard des résultats empiriques. Néanmoins, le score réalisé par le modèle PLS(4) tient probablement davantage au hasard. Nous avons donc bien fait de retenir un faible nombre d'étapes. Le nombre d'individus actifs étant faible, il aurait été quelque peu dangereux de retenir une troisième composante. Mais cela aurait pu se justifier.

Dans tous les cas, le résultat obtenu aurait été meilleur qu'en régression linéaire. Voyons à présent quel était le meilleur résultat possible sur les 43 individus non-actifs :

Bien évidemment, avec un échantillon aussi faible, il aurait été très chanceux d'arriver à prédire aussi bien la population active que ce n'était le cas dans les simulations du test précédent.

On constate que la régression linéaire s'éloigne complètement du résultat. La régression PLS, dans ses premières étapes, parvient à compenser, dans une certaine mesure, la mauvaise qualité de l'échantillon. Mais cette compensation est loin d'être intégrale.

Il est important de faire d'autres simulations pour voir dans quelle mesure ces résultats se vérifient.

Partie 3: Simulations

111.2 Simulation n°2

Les statistiques des individus actifs sont les suivantes :

Et voici celles de la population mère :

Les corrélations de la population formée des 7 individus actifs semblent assez peu représentatives de celles de la population mère.

1ntéressons nous à présent aux différents modèles qui s'offrent à nous.

Tout d'abord, les modèles en eux-mêmes :

Le critère du R2 nous invite à retenir une composante, éventuellement 2. Voyons ce que nous dit le critère de la variance des composantes :

Le critère nous suggère de retenir 3 étapes. Selon le même principe que pour la précédente simulation, il semblerait néanmoins bon de sacrifier la 3ème composante.

Les deux critères étant pris en considération, le plus sage semble être de retenir 2 étapes, le premier axe ne présentant pas une variance suffisante.

Nous retenons donc 2 composantes.

Voici les résultats de la confrontation des modèles avec les autres individus :

Notre choix s'est porté sur un des deux meilleurs modèles.

Il est étonnant de constater que le troisième axe, n'apportant presque rien en termes de R2 ajouté (sur les individus actifs), corresponde au meilleur modèle. Néanmoins, sa variance était importante.

Ce qu'il fallait avant tout éviter, ici, était de retenir 1, 4 ou 5 axes. C'est ce que les critères, combinés l'un à l'autre, nous ont conduit, bien que le premier critère, pris isolément, nous aurait peut-être conduit à ne retenir qu'un seul axe.

Voyons à présent quel était le meilleur résultat possible :

Par rapport à la simulation précédente, on peut dire que les modèles sont nettement plus proches du meilleur résultat possible. Ce n'est probablement pas la population mère qui est en cause, mais la capacité de représentation de l'échantillon, qui est probablement meilleure dans ce cas-ci.

Pour en conclure sur cette simulation, nous pouvons dire que la méthode de régression PLS obtient des résultats significatifs. Cette fois encore, le modèle PLS(5), correspondant au critère des MCO, était le moins bon. Le modèle que nous avons retenu lui a été meilleur.

Partie 3: Simulations

111.3 Simulation n°3

Les données des individus actifs sont les suivantes :

Et voici les données de la population mère :

Les données des individus actifs semblent assez peu représentatives de celles de la population mère.

Passons maintenant en revue les critères des différents modèles qui s'offrent à nous. Tout d'abord, les modèles en eux-mêmes :

Le critère du R2 ajouté par chaque composante semble nous indiquer de ne retenir qu'une seule étape.

Voyons ce qu'indiquent les variances des axes :

Ce critère nous indique de retenir deux composantes.

Bien que la deuxième composante semble ne pas être significative quant à l'estimation de la variable Y pour les individus actifs, et qu'il soit dangereux de retenir trop de composantes sur un aussi faible échantillon, cette composante représente à elle seule une variance considérable.

Nous retenons donc 2 composantes.

Voyons si les résultats donnés par les estimations des différents modèles nous ont donné raison :

Apparemment, nous aurions mieux fait de retenir 3 composantes. Mais les critères ne nous indiquait nullement de procéder de la sorte, et le risque de surparamétrage était élevé. Choisir trois 3 composantes aurait donc été, ici, le meilleur choix à postériori, mais ca n'aurait pas été un bon choix au regard des critères. Choisir 3 composantes aurait probablement été irrationnel, ce qui, ici, n'aurait pas empêché la chance de couronner ce choix de réussite.

Nous avons hésité entre retenir 1 ou 2 composantes, et le choix de 2 composantes était meilleur. Ca aurait pu ne pas être le cas. Mais, force est de constater que, sur le nombre de simulations que nous avons fait jusqu'ici, les choix que nous avons fait se sont dans l'ensemble montré bon, et c'est cela qui importe. Bien sûr, on ne peut pas contrôler le facteur « chance », mais, sur un grand nombre de simulations, ce facteur importe peu. L'important est donc, dans ces conditions, que le choix se porte le plus souvent possible sur l'un des meilleurs modèles. C'est le cas ici.

Voyons à présent ce qu'il en était du meilleur résultat possible :

Le modèle que nous avons choisi était assez loin de ce résultat. Mais nous n'aurions pas pu faire beaucoup mieux. Il a l'air de se confirmer, au fil des simulations, que la faible taille de l'échantillon se traduise par une moins bonne qualité de ce dernier (en moyenne et toute chose égale par ailleurs), ce qui est tout à fait logique, et nous amène forcément à avoir des modèles qui soient moins représentatifs de la « réalité ».

Le bilan de cette simulation est donc, somme toute, assez positif.

111.4 Simulation n°4

Les caractéristiques des individus actifs pour cette dernière simulation sont les suivantes :

Et voici les données équivalentes pour ce qui en est de la population mère :

Comme pour les précédentes simulations de ce test, les caractéristiques de la population mère sont assez mal représentées par l'échantillon.

Passons à présent à l'étude des différents modèles PLS possibles :

Ce critère nous incite à retenir 1 ou 2 axes.

Voyons ce que l'on peut dire des variances des axes :

Ce critère nous incite à retenir, selon différentes interprétations possibles, 1, 2, 3 ou 4 axes.

Nous sommes en présence d'un choix délicat. Retenir 1 seul axe est probablement insuffisant. Retenir un deuxième axe nous apporte moyennement peu en termes de variance, mais l'apport est significatif en termes de R2 ajouté. Globalement, il faut donc retenir le deuxième axe.

Mais dès lors que l'on retient deux axes, on est forcément tenté de retenir le troisième qui comporte une variance non négligeable. Sachant que le 4ème axe détient lui aussi une certaine variance, se priver à la fois du 3ème et du 4ème axe peut paraitre dangereux.

Nous choisirons donc, pour cette fois, de retenir 3 axes. Nous n'en retenons pas moins
dans l'espoir d'éviter le danger qui consiste à avoir un modèle trop peu représentatif de

l'ensemble X. Nous n'en retenons pas plus dans l'espoir d'éviter le surparamétrage. C'est le seul choix qui ne nous expose que modérément à chaque risque pris individuellement.

Voyons dès lors quels sont les résultats de la mise à l'épreuve des modèles sur les autres individus de la population mère :

Les résultats semblent assez indifférents quant au choix de retenir 2, 3 ou 4 composantes.

Parmi les trois modèles concernés, nous avons choisi le moins bon, mais nous avons probablement évité certains risques (qui ne se sont pas vraiment vérifiés ici).

De plus, l'écart par rapport aux deux autres modèles est relativement infime. Voyons ce qu'il en est du meilleur résultat possible :

Apparemment, la population mère était, cette fois, légèrement moins bien modélisable qu'elle ne l'était lors des précédentes simulations.

Cela explique peut-être, en partie, les faibles résultats obtenus par les modèles établis sur base de l'échantillon.

Quoi qu'il en soit, les critères nous ont permis à nouveau de retenir un modèle se situant dans la bonne « tranche » de résultats.

Il est à présent temps de conclure sur le troisième test.

111.5 Conclusions sur le test n°3

Le but de ce troisième test était de voir si la régression PLS était bel et bien une méthode intéressante sur un échantillon faible, et, plus particulièrement, de voir si une réduction de la taille de l'échantillon permet à l'approche PLS de « creuser l'écart » par rapport aux autres modèles.

Voyons donc le tableau résumant les résultats obtenus :

On s'aperçoit que dans 3 cas sur 4, notre choix s'est porté sur le modèle à 2
composantes. Dans le dernier cas, notre choix s'est porté sur le modèle à 3 composantes.

Même si nous n'avons choisi le meilleur qu'à une seule reprise, notre choix s'est toujours porté sur les deux modèles (PLS(2) et PLS(3)) qui cumulent à eux deux tous les meilleurs résultats sur les 4 simulations. Parmi ces deux modèles, le plus important était de ne pas choisir le modèle 3 lors de la première simulation.

On observe aussi qu'en moyenne, le modèle PLS(2) est le meilleur, suivi de près par le modèle PLS(3). Le modèle PLS(5) est quant à lui nettement moins bon puisqu'il se situe à plus de 10% (en moyenne) des meilleurs modèles.

La régression linéaire au sens des MCO est donc clairement désavantagée par la faiblesse de l'échantillon, puisque dans le test précédent, l'écart avec les meilleurs modèles n'était en moyenne que de 4%.

Le test semble donc, dans une certaine mesure, doublement concluant :

- Nous constatons, comme nous l'avons expliqué d'un point de vue théorique, que la régression PLS est plus utile sur un échantillon faible.

- Les modèles choisis au regard des critères sont constamment parmi les meilleurs.

Notons qu'en moyenne, les modèles retenus sur base des critères sont 10 à 11% meilleurs que le modèle de régression linéaire des MCO.

Il est également positif de constater que les résultats du modèle retenu sont assez stables. Ils oscillent entre 75.07% et 84.86% (9.79% d'amplitude), alors que le modèle PLS(5) oscille entre 57.87% et 78.16% (20.29% d'amplitude).

Néanmoins, cette conclusion serait clairement ternie si par malchance nous avions retenu le modèle à 3 composantes pour la première simulation. Mais quoi qu'il en soit, même dans ce cas de figure, les résultats auraient été meilleurs que ceux obtenus par la régression PLS(5) pour chaque simulation.

Voyons à présent les différents écarts-types des coefficients enregistrés sur les 4 simulations pour chaque modèle :

La première chose que l'on remarque, c'est qu'il semble extrêmement pénalisant de passer d'un échantillon de 10 individus à un échantillon de 7 individus, toutes choses égales par ailleurs. Tous les modèles présentent, dans l'ensemble, des coefficients très peu stables, en comparaison avec ce que l'on a pu voir précédemment.

On s'aperçoit que le meilleur modèle possible sur les 43 individus non actifs (dont les écarts-types se trouvent dans la colonne de droite du tableau ci-dessus) est nettement plus stable que ne le sont les différents modèles estimés sur base des 7 individus actifs, ce qui est parfaitement normal.

On s'aperçoit également que le modèle PLS(1), sur l'ensemble des coefficients, est probablement le plus stable (les écarts-types sont les plus faibles excepté s'agissant des coefficients affectés à la constante et aux variables x1 et x4, bien que restant très faible pour la variable x4). Le modèle PLS(2) est également l'un des plus stables.

On s'aperçoit également que le modèle PLS(5) est hautement instable, exception faite de certains coefficients. Cela tend à souligner, dans une certaine mesure, la faible robustesse de l'approche des MCO sur un échantillon trop de taille faible. Ce qui n'est, bien entendu, pas surprenant, étant donné les nombreuses explications fournies à ce sujet tout au cours du mémoire, notamment s'agissant de « l'opportunisme » de la méthode des MCO.

On constate néanmoins qu'aucun modèle n'a le « monopole » de la stabilité de l'ensemble des coefficients. C'était déjà le cas dans nos précédents tests. Le nombre de simulations est trop faible que pour que ce ne soit le cas.

Quoi qu'il en soit, globalement, les coefficients sont plus instables que dans le test n°2, ce qui est normal, puisqu'on travaille sur des séries qui ont les mêmes caractéristiques, avec un échantillon plus faible, donc moins représentatif des caractéristiques intrinsèques des variables, et dont la modélisation est donc fortement soumise au facteur aléatoire.

Voyons à présent ce qu'il en est des différences constatées entre la moyenne des séries (au niveau des individus actifs comme au niveau de la population mère) et les espérances des variables :

Par rapport au précédent test, il est logique de constater que les écarts à l'espérance s'équivalent dans une certaine mesure, étant donné que la population mère est de même taille dans les deux tests, et étant donné que les séries gardent les mêmes propriétés.

On constate une relative hausse de l'instabilité des caractéristiques des individus actifs. Il est étonnant de constater que cette hausse reste modérée, après avoir amputé l'échantillon de 30% des ses individus (10 dans le test n°2, 7 dans le test n°3). On aurait pu s'attendre à ce que les moyennes soient nettement plus instables. Ce n'est pas complètement le cas. Nous aurions peut-être dû travailler avec seulement 6 individus afin de diminuer encore davantage la qualité de l'échantillon (5 auraient été insuffisants car le modèle linéaire établi sur le critère des MCO aurait systématiquement trouvé la

présence d'une relation linéaire exacte, excessivement instable d'un échantillon à l'autre).

De manière à conclure sur ce test, comparons à présent les résultats moyens obtenus par les différents modèles lors des tests n°2 et n°3.

On constate que l'effet de la diminution de l'échantillon est réel, car les résultats sont en chute libre.

Mais il est fort intéressant de constater que les modèles à faible nombre d'étapes sont ceux qui souffrent le moins de ce changement. Si on s'en tient aux extrêmes, on s'aperçoit que, sur 10 individus, le modèle PLS(5) (équivalent au critère des MCO) est meilleur d'à peu près 5% que le modèle PLS(1). Mais lors du passage à 7 individus, les résultats du modèle PLS(5) plongent de plus de 15%, alors que le modèle PLS(1) pers moins de 5%. Le modèle PLS(1) surpasse alors le modèle PLS(5) de presque 6%.

S'agissant des autres modèles à 2, 3 et 4 étapes, les pertes semblent assez semblables. Le modèle PLS(2) est le moins affecté des 3. Il était déjà le meilleur (en moyenne) lors du 2ème test, et l'écart se creuse davantage ici, excepté par rapport au modèle PLS(1) qui est le seul à tendre à le rattraper.

Cela nous confirme donc que l'approche PLS, représentée par les premières étapes de la construction d'un modèle PLS, est particulièrement utile lorsqu'il y a peu d'individus actifs, car ses résultats sont moins sensibles au nombre d'individus actifs et au facteur aléa. Il semble donc s'agir bel et bien d'une approche plus robuste que ne l'est l'approche des MCO.

On pourrait se demander ce qu'il en serait si l'on augmentait considérablement le nombre d'individus actifs. On peut penser que les dernières étapes s'amélioreraient considérablement, alors que les premières étapes auraient plutôt tendance à stagner.

Quoi qu'il en soit, cela ne veut pas dire que l'approche des MCO au sens stricte soit à privilégier. Tout dépendrait bien entendu de l'efficacité des critères que nous avons utilisés au cours de nos 12 simulations.

Il est à présent temps de conclure sur cette troisième et dernière partie.

IV. Conclusions sur les simulations réalisées

Ce qu'il est primordial de retenir sur l'ensemble de ces tests, c'est que l'important n'est pas vraiment de comparer une approche à une autre. Certes, il est bon de savoir que les premières étapes sont à priori meilleures sur faible échantillon, et que les dernières étapes seraient plutôt à privilégier en cas d'échantillon de grande taille. Mais ce qui compte avant tout, c'est que les critères nous permettent de retenir, en moyenne, dans tout type de circonstances, le meilleur nombre possible d'étapes à priori.

C'est plutôt ce que l'on a pu constater au cours des tests que nous avons effectué. Les critères nous ont souvent amené à retenir un des meilleurs modèles, souvent meilleur que ne l'est le modèle associé au critère des MCO, et souvent parmi les meilleurs modèles.

L'approche en termes de MCO stricts de la régression linéaire multiple n'est donc, à elle seule, pas suffisante, puisqu'une approche PLS avec sélection du nombre d'étapes au regard des critères lui est généralement préférable, d'après les tests que nous avons pu mener en tout cas.

Il est important de signaler que ces tests n'ont de sens que pour tester l'efficacité de la méthode dans l'absolu. Ils ne sont pas tout à fait réalistes, puisque, dans la réalité, lorsqu'on étudie un échantillon, on ne connaît ni les caractéristiques intrinsèques des variables, ni les caractéristiques de la population mère. L'approche que nous avons utilisée ne fonctionne que pour tenter de démontrer certaines propriétés théoriques de la régression PLS.

Dans la réalité, lorsque l'on étudie un échantillon, et qu'on tente d'établir des prévisions qui ont vocation à s'appliquer au-delà de l'échantillon, on ne peut pas vérifier quels sont en effet les résultats des différents modèles.

Voila pourquoi il est important de déterminer, dans un cadre théorique, si la méthode PLS, combinée à l'utilisation des critères, permet de connaître le meilleur modèle à utiliser (ou l'un des meilleurs). Pour plus de réalisme, nous avons volontairement fait abstraction des résultats obtenus par les modèles sur le reste de la population mère, de sorte à faire un choix sur seule base des caractéristiques des modèles établis, comme c'est le cas dans une situation réelle où l'on ne dispose pas des données permettant de vérifier si l'approche est juste ou non.

Le fait que les résultats, dont nous n'avons tenu compte qu'après avoir choisi un modèle, donnent plutôt raison aux critères nous amène à penser qu'il pourrait en être de même dans la réalité.

Néanmoins, étant donné le fait que, dans la réalité, les propriétés des variables ne sont pas connues, il est impossible d'être sûr du bienfondé du choix d'un modèle. Mais il s'agit avant tout, non pas de choisir le « meilleur modèle », qui dans la réalité est souvent impossible à déterminer, mais plutôt le modèle qui, à priori, offre l'espérance de résultat la plus élevée. Etant donné le fait que les résultats, obtenus au cours de nos tests, concordent assez bien avec les critères, on peut raisonnablement penser que les critères puissent également s'appliquer à des modèles établis sur base d'un échantillon réel.

Ces tests nous ont également permis de savoir, de manière très générale, que tout chose égale par ailleurs, les modèles à faible nombre d'étapes trouvent davantage leur utilité en présence d'aléa fort et d'échantillon de taille réduite, c'est-à-dire lorsque la population a peu de chances de se modéliser au mieux suivant un modèle qui modéliserait les individus actifs au mieux.

La corrélation des variables explicatives entre-elles est également très importante, même si nous ne l'avons pas démontré au cours de ces tests (mais nous avions vu précédemment que plus les variables explicatives sont orthogonales entre elles, et plus les étapes de la régression PLS se confondent).

Mes principaux regrets, s'agissant de cette partie, sont, d'une part, de ne pas avoir pu effectuer davantage de simulations par test, et d'autre part, de ne pas avoir pu mener d'autres tests, notamment en augmentant la taille de l'échantillon ou en décorrélant fortement les variables.

CONCLUSION

GENERALE

Il est maintenant temps de conclure sur ce mémoire. Au cours de ce dernier, j'ai tenté de présenter la régression PLS de la manière la plus littéraire possible, dans le but d'expliquer la méthode et ses justifications à ceux qui ne la connaissent pas.

Dans un premier temps, le but a été de situer la méthode historiquement, et au sein de la vaste discipline formée par l'ensemble des analyses statistiques. Ainsi, nous avons vu en quoi consistait une régression linéaire sur le principe, avant de voir en quoi consistait la régression PLS en elle-même.

Ensuite, nous avons détaillé un minimum les formules nécessaires à la mise en pratique de la régression PLS univariée, sans données manquantes, sur laquelle s'est focalisé le mémoire. Nous avons ainsi voir comment se calculent les composantes, comment se construit le modèle, et dégager de cela quelques propriétés théoriques (critère de covariance, indépendance des composantes, centrage et réduction des données, ...). Nous avons également vu les critères qui permettent de savoir combien d'étapes il est préférable de retenir.

Nous avons pu constater que la régression PLS peut s'appliquer à des échantillons présentant moins d'observations que de variables explicatives.

Nous sommes ensuite passés à quelques exemples théoriques extrêmes, desquelles nous avons pu déduire quelques propriétés s'agissant de l'usage pratique de la méthode. Nous avons ainsi pu constater que la méthode est d'autant plus efficace en cas de multicolinéarité des variables explicatives, cas sur lequel nous nous sommes longuement attardés. C'est de cette manière que nous avons pu distinguer la différence d'approche entre la méthode des MCO et la méthode de régression PLS, tout en montrant que la seconde constituait une généralisation de la première.

Nous sommes ensuite passés à des tests basés sur des simulations à partir de données fictives avec des propriétés connues à l'avance, que nous avons détaillé. Nous avons ainsi pu faire trois tests. Le deuxième s'est différencié du premier par une part nettement amoindrie du facteur aléatoire, et le troisième s'est différencié du deuxième par un échantillon de taille réduite. Nous en avons conclu que la régression linéaire est avantagée lorsque l'échantillon est fortement représentatif de la population mère. Au contraire, un échantillon de taille réduite, et des séries comportant une forte part d'aléa (l'aléa se traduisant concrètement par « tout ce qui n'est pas fonction de l'ensemble des variables »), sont autant d'éléments qui favorisent les régressions PLS à faible nombre d'étapes.

Nous avons également pu démontrer, dans une certaine mesure, que la régression PLS, utilisée judicieusement (c'est-à-dire combinée comme il se doit aux critères retenus), permet de dépasser la simple approche des MCO, parfois trop « opportuniste » (ce qui est un danger lorsque l'échantillon est réduit).

Au regard de l'ensemble du mémoire, il semble que la régression PLS peut se caractériser comme étant une méthode robuste, fiable, s'appliquant dans de nombreux cas, et étant plus générale que ne l'est la régression linéaire.

Ses principaux avantages, lorsque le nombre d'étapes est adroitement choisi, peuvent se résumer ainsi :

- La régression PLS fonctionne bien sur un échantillon de taille faible, pouvant même être inférieur au nombre de variables explicatives.

- La régression PLS permet de compenser, partiellement, une baisse de qualité de l'échantillon.

- La régression PLS permet d'éviter certains problèmes engendrés par la multicolinéarité des variables.

A cela, on peut ajouter deux avantages, que nous n'avons pas eu l'occasion de démontrer :

- La régression PLS, dans son approche multivariée, permet d'expliquer plusieurs variables endogènes.

- La régression PLS, dans un algorithme plus général, permet de créer un modèle en tenant compte des individus présentant certaines données manquantes, sans avoir recours à des méthodes d'estimation des données manquantes.

Ces avantages justifient donc l'utilisation de la méthode. Bien entendu, elle se justifie plus particulièrement dans les conditions que nous avons exposé, mais, de manière générale, cette méthode semble pouvoir se justifier en toutes circonstances, pour autant que l'on soit prêt à retenir le nombre d'étapes maximal si les critères le justifient.

Par conséquence, bien que cette méthode ait connu la plupart de ses succès dans le domaine de la chimie, on peut penser qu'elle pourrait facilement être transposée à d'autres domaines, particulièrement dans ceux où le nombre d'individus actifs est faible (en comparaison au nombre de variables explicatives) et où les variables explicatives sont significativement corrélées entre-elles.

BIBLIOGRAPHIE

Références internet :

Druilhet P., Mom A., « Régression PLS: Une nouvelle approche » http://www.agro-montpellier.fr/sfds/CD/textes/druilhet1.pdf

AI ACCESS, Glossaire de la modélisation :

http://www.aiaccess.net/French/Glossaires/GlosMod/f_gm_correlation_partielle.htm http://www.aiaccess.net/French/Glossaires/GlosMod/f_gm_pls.htm

Revue de statistique appliquée :

Cazes P. (1995), tome 43, n°1 :

http://archive.numdam.org/article/RSA_1995__43_1_5_0.pdf http://archive.numdam.org/article/RSA_1995__43_1_7_0.pdf http://archive.numdam.org/article/RSA_1995__43_1_65_0.pdf Palm R., Iemma A.F., tome 43, n°2 :

http://archive.numdam.org/article/RSA_1995__43_2_5_0.pdf

Bry X., Antoine P., « Application à l'analyse biographique», Explorer l'explicatif : http://www.cairn.info/article.php?ID_REVUE=POPU&ID_NUMPUBLIE=POPU_406&ID_ARTICLE=POPU _406_0909

Bastien P., Tenenhaus M. (2003), « Régression PLS et données manquantes », Club SAS STAT : http://club-sas-stat.jeannot.org/journees/docs20031204/PLSetDonneesManquantes.pdf

Bastien P., Vinzi V.E., Tenenhaus M. (2002), « Régression linéaire généralisée PLS», Groupe HEC : http://www.hec.fr/hec/fr/professeurs_recherche/upload/cahiers/CR766.pdf

http://www.iut-lannion.fr/LEMEN/MPDOC/STAT/chap3/estim.htm

Chavent M., Patouille B. (2003), « Calcul des coefficients de régression et du PRESS en régression PLS1 » : http://www.math.u-bordeaux.fr/lchavent/Publications/2003/press-pls-preprint.pdf

Goupy J., « La régression PLS1, cas particulier de la régression linéaire séquentielle orthogonale (RLSO) » : http://www-rocq.inria.fr/axis/modulad/archives/numero-33/goupy-33/goupy-33.pdf

Techniques statistiques récentes pour l'analyse des données : http://www.univ-lille2.fr/cerim/recherche/stats/axe3.html

Ces liens sont directement « clicables » à l'adresse suivante : http://www.renaudloup.be/refinternet.htm

Livres :

Tenenhaus M. (2002), « La Régression PLS: Théorie et Pratique», Editions TECHNIP

TABLE DES MATIERES

Introduction GénéraleFFFFFFFFFFFFFFFFFFFFFFFFFF.. 8 Sommaire 11

Partie 1 : Présentation de la régression PLS

I. Contexte historiqueFFFFFFFFFFFFF.FFFFFFFFFF 13

II. Qu'est-ce que la régression PLS 7 FFFFFFFFFFFFFFFFFF 13

III. Principes d'une régression linéaireFFFFF...FFFFFFFFFFFF 14

IV. Les avantages de la régression PLS 15

V. Le principe de la régression PLS univariéeFFFFFFFFFFFF.FF 16

VI. Les étapes de calcul de la régression PLS1 19

VII. Indépendance des composantesFFFFFFFFFFFFFFFFFFF. 24

VIII. Centrage et réduction des donnéesFFFFFFFFFFFFFF.FFF 26

IX. Le critère de validation croisée FFFFFFFFFFFFFFFFFF 28

X. Les critères liés à la covariance composante - variable expliquéeFFFFF 32

Partie 2 : Utilisation de la régression PLS sur des cas limites

I. Régression PLS avec une seule variable explicativeFFFFFFFFFFF. 35

II. Un exemple à trois variables explicativesFFFFFFFFFFFFFF.F 38

II.1. Régression PLS à 1 étape 39

II.2. Régression PLS à 2 étapesFFFFFFFFFFFFFFFFFFFFF 41

II.3. Régression PLS à 3 étapesFFFFFFFFFFFFFFFFFFFFF 46

III. La régression linéaire et le critère des moindres carrésFFFFFFF...FF 48

IV. La régression PLS comme généralisation des MCOFFFFFFFFFFF 48

IV.1. Un exemple d'inefficacité de la régression PLS à une étapeFFFFFFFFFF. 49

IV.2. Un exemple de régression PLS sur variables explicatives orthogonalesFFFFFF. 50

IV.3. Conclusions.FFFFFFFFFFFFFFFF...FFFFFFFFF 51

V. Le critère de la régression PLSFFFFFFFFFFFFFFFFFFF 53

V.1. Régression PLS et MCO : Différence entre objectivité et opportunismeFFFF...F 54

V.2. Régression PLS à étapes multiples : Compromis entre objectivité et opportunismeFF 56

Partie 3 : Simulations

I. Test n°1FFFFFFFFFFFFFFFFFFFFFFFFFF...FF 64

I.1. Simulation n°1FFFFFFFFFFFFFFFFFFFFFFFFF 67

1.2. Simulation n°2FFFFFFFFFFFFFFFFFFFFFFFFF 70

1.3. Simulation n°3FFFFFFFFFFFFFFFFFFFFFFFFF 73

1.4. Simulation n°4FFFFFFFFFFFFFFFFFFFFFFFFF 76

1.5 Conclusions sur le test n°1 79

II. Test n°2FFFFFFFFFFFFFFFFFFFFFFFFFF...FF 82

II.1. Simulation n°1FFFFFFFFFFFFFFFFFFFFFFFFF 85

11.2. Simulation n°2FFFFFFFFFFFFFFFFFFFFFFFFF 88

11.3. Simulation n°3FFFFFFFFFFFFFFFFFFFFFFFFF 91

11.4. Simulation n°4FFFFFFFFFFFFFFFFFFFFFFFFF 94

11.5. Conclusions sur le test n°2FFFFFFFFFFFFFFFFFFFFFF 97

III. Test n°3FFFFFFFFFFFFFFFFFFFFFFFF.FFFF 102

III.1. Simulation n°1FFFFFFFFFFFFFFFFFFFFFFFF... 103 111.2. Simulation n°2FFFFFFFFFFFFFFFFFFFFFFFF... 106 111.3. Simulation n°3FFFFFFFFFFFFFFFFFFFFFFF...F 109 111.4. Simulation n°4FFFFFFFFFFFFFFFFFFFFFFFF... 112 111.5. Conclusions sur le test n°3FFFFFFFF..FFFFFFFFFFFF. 115

IV. Conclusions sur les simulations réalisées 119

Conclusion généraleFFFFFFFFFFFFFFFFFFFFFFFFFF. 121

Bibliographie 124

AnnexesFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFF. 127






Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy








"La première panacée d'une nation mal gouvernée est l'inflation monétaire, la seconde, c'est la guerre. Tous deux apportent une prospérité temporaire, tous deux apportent une ruine permanente. Mais tous deux sont le refuge des opportunistes politiques et économiques"   Hemingway