DECREMER Renaud
Université Paul Verlaine de Metz
UFR Droit, Economie, Administration
Mémoire de M1 en Sciences Economiques
Sous la direction de Monsieur Philippe CASIN
« L'université Paul Verlaine de METZ
n'entend donner ni approbation, ni
improbation aux opinions émises dans ce
mémoire. Celles-ci doivent être
considérées
comme personnelles à son auteur. »
PREFACE ET REMERCIEMENTS
Cette partie a vocation à retranscrire
brièvement la manière dont le mémoire a vu le jour ainsi
que mes impressions personnelles avant, pendant, et après la
réalisation de ce dernier. Si seul le sujet en lui-même vous
intéresse, vous pouvez sans problème passer outre cette partie et
vous rendre directement au sommaire.
Le mémoire, pour un étudiant de master,
constitue probablement, dans la majorité des cas, le travail le plus
abouti, le plus long, le plus complexe, le plus intéressant et le plus
personnel auquel il n'a jamais eu l'occasion de prendre part. C'est bien
entendu mon cas, et c'est pour cela que je tiens à m'exprimer sur le
déroulement de celui-ci.
Il est important de rappeler que le mémoire constitue
un choix pour un étudiant, dans la mesure où celui-ci est libre
de choisir le sujet qui lui convient le mieux parmi ceux qui lui sont
proposés. Mon choix s'est porté sur ce sujet (la
régression PLS), pour plusieurs raisons. La première est que j'ai
toujours été attiré par l'analyse de données, les
statistiques, et les chiffres en général. Mais bien que ce
domaine me fascine, il m'a, à plusieurs reprises, posé des
problèmes (difficultés de compréhension notamment) tout au
long de mon cursus. J'ai donc tenu, en choisissant ce sujet, à essayer
de renverser certaines de ses difficultés, d'autant plus que je pense
être amené à me spécialiser en Expertise Statistique
dans le cadre de la dernière année de ma filière. Il
était donc très important, à ce titre, pour moi, de
réaliser par moi-même un travail où je puisse
développer ma propre approche, à partir des
éléments avec lesquels j'étais à l'aise, d'un sujet
qui m'était jusqu'alors inconnu, et qu'il allait falloir comprendre par
moi-même, avec pour seule aide les diverses recherches que j'allais
devoir mener, et quelques explications venant de la part du responsable du
sujet que j'ai choisi. C'est dans ce contexte que le choix d'un tel sujet m'est
apparu comme étant la meilleure solution. Bien entendu, il est
évident que le choix de ce sujet ne s'est pas fait sans tenir compte
d'autres facteurs, notamment l'imposante demande, de la part des autres
étudiants, pour certains sujets faisant une plus grande
unanimité, n'ayant pas trait au domaine de l'analyse de données.
Il était alors évident que mon choix allait se porter sur ce
sujet.
Le sujet étant choisi, j'ai eu toute liberté
pour mener ce travail dans la direction qui me convenait le mieux. J'ai alors
décidé d'adopter la démarche qui est
généralement la mienne lorsque je suis amené à
traiter un sujet auquel je ne suis pas encore familiarisé, à
savoir celle qui consiste à « comprendre pour expliquer ». Je
pense que certains étudiants auraient abordé ce mémoire en
lançant un maximum de recherches sur le sujet, en faisant un immense
effort de synthèse et de réorganisation des idées, et en
retranscrivant, dans une formulation qui leur est plus ou moins propre, le
compte- rendu de leurs recherches. Cela n'a pas été ma
démarche, car un tel effort ne m'aurait pas permis d'approfondir
à ma guise ma connaissance du sujet. J'ai donc effectué un
certain nombre, limité, de recherches, sans chercher à me
documenter de manière exhaustive. Le but n'était pas de
réunir tous les ouvrages accessibles traitant du sujet,
mais simplement de trouver une base de réflexion me
permettant de situer le sujet, et de me renseigner sur ses principaux enjeux.
Par la suite, le travail de recherche a pris une proportion très
marginale par rapport au travail de réflexion personnelle, car c'est
avant tout ce travail qui m'a permis d'avancer dans ce mémoire. C'est ce
travail qui m'a donné la possibilité de vérifier que
l'enjeu de la méthode était bien réel, et ne se justifiait
pas qu'à travers les dires des auteurs qui ont eu le loisir de s'y
intéresser.
Le lecteur que vous êtes notera assez rapidement et
aisément que mon approche fut assez littéraire. En effet, selon
moi, les diverses formules et propriétés mathématiques ne
trouvent leur sens qu'en tant qu'outil permettant de raisonner et de tirer des
conclusions, qui doivent rester compréhensibles par la majorité,
et donc littéraires. De plus, de très nombreux travaux ayant
déjà été menés sur ce sujet, il était
inutile de se focaliser sur les formules et les démonstrations
mathématiques, auxquelles je ne pouvais, personnellement, rien apporter.
J'ai donc simplement retranscrit les formules à la base de la
méthode, principalement en utilisant les notations de l'ouvrage de
Michel Tenenhaus (« La Régression PLS -- Théorie et Pratique
»), qui d'ailleurs fut l'ouvrage central autour duquel s'est construit mon
mémoire, sans pour autant lui avoir emprunté une part très
importante de contenu (exception de la brève présentation
historique du sujet faite en tout début de première partie, et de
la faite démonstration sur l'indépendance des composantes PLS).
J'ai donc tâché de rester le plus littéraire et le plus
compréhensible possible, afin ceux qui n'ont que des connaissances
limitées en statistiques (dont je fais partie) puissent décemment
comprendre ce la majorité de ce qu'ils pourront lire dans ce
mémoire, et se familiariser avec les notions les plus importante de
celui-ci. Si mon approche avait été trop
mathématisée, ou trop complexe, je n'aurais pas pu
prétendre avoir apporté quoi que ce soit au lecteur, car je
n'aurais fait que rendre compte des travaux de personnes nettement plus
connues, expérimentées et très probablement plus
compétentes que moi, et j'aurais été incapable de me
retrouver dans ce mémoire, pas plus que je n'aurais été
capable de comprendre et de m'imprégner de la plupart des notions que
j'aurais été amené à utiliser.
Bien entendu, cela ne m'a pas empêché
d'évoquer les formules dont sont issues les composantes de la
régression PLS, ni d'évoquer certaines propriétés
mathématiques de l'analyse, parfois sous forme de formules, car il
aurait été déplacé de parler d'un sujet dont les
fondements (les formules mathématiques) ne sont pas abordés.
Aussi, je n'ai pas la prétention d'affirmer qu'un lecteur n'ayant aucune
notion statistique sera capable de suivre l'intégralité des
raisonnements qui sont développés tout au long de ce
mémoire (que ce soit dans les parties mathématiques ou dans les
parties littéraires). Néanmoins, je garde l'espoir qu'elles
puissent trouver, dans ce mémoire, une présentation plus
abordable de la méthode et de son utilité, que ce qu'il est
généralement coutume de rencontrer dans la plupart des travaux
traitants du sujet (que ce soit dans les livres ou sur internet).
Etant donné l'approche utilisée pour
réaliser ce travail, il m'a été très difficile
d'établir un plan dès le départ. Plusieurs idées me
sont venues à l'esprit, mais il m'était pratiquement impossible
de retenir un plan qui soit trop précis avant d'avoir abordé les
différents aspects que je tenais à traiter. C'est pour cela que
le plan a beaucoup évolué (sans jamais avoir existé dans
une version qui soit un tant soit peu détaillée) jusqu'à
ce que le mémoire ne soit terminé, car sa structure
dépendait de l'évolution de ma perception du sujet,
elle-même conditionnée par l'avancée de ce mémoire.
C'est notamment pourquoi, pendant longtemps, j'ai pensé intégrer
à ce mémoire une partie « Application à la
réalité », faisant la démonstration d'une utilisation
de la régression PLS sur un jeu de données réelles, avant
d'avoir l'idée, qui m'a semblée plus intéressante, de
créer une partie « Simulations », faisant elle aussi la
démonstration d'une utilisation de la méthode, mais sur
données fictives, créées de toutes pièces à
l'aide de Microsoft Excel 2003 et de sa fonction permettant de
générer une composante aléatoire. Au départ, je ne
souhaitais pas que la partie « Simulations » écarte totalement
la partie « Application à la réalité », mais la
différence d'intérêt entre les deux méthodes,
combinée au fait que le mémoire devait toucher à sa fin
(pour des raisons de temps), a fait que j'ai préféré
totalement délaisser cette idée initiale, pour ne pas risquer de
compromettre l'intérêt de celle que j'ai finalement
décidé de retenir. Naturellement, j'aurais souhaité que
cette partie soit tout de même intégrée à ce
mémoire, mais elle ne m'aurait que très difficilement permis de
me prononcer sur l'efficacité de la méthode, sauf à
disposer de suffisamment de données que pour être en mesure de
former une population mère, sur laquelle j'aurais pu testé les
qualités de prédictions des modèles établis sur
base d'un échantillon réduit de cette population. Mais même
si tel avait été le cas, je n'aurais que très
difficilement pu disposer de données desquelles j'étais
suffisamment informé des propriétés que pour pouvoir tirer
des conclusions générales sur l'efficacité de la
méthode, et sur les meilleures conditions d'efficacité de
celle-ci. Dans une certaine mesure, les différentes simulations que j'ai
pu mener lors des différents tests m'ont permis d'isoler l'influence de
certains facteurs, et de tenter des conclusions sur l'impact de ces derniers
sur l'efficacité de la méthode. Voila pourquoi j'ai
privilégié cette partie.
Le fait de ne pas avoir pu intégrer cette partie «
Application à la réalité » constitue mon plus grand
regret, car le but de toute méthode statistique reste probablement de
pouvoir servir dans un cadre réel, le contraire leur enlevant tout
intérêt. De ce point de vue, une application sur des séries
réelles, dans le but de modéliser des relations liant des
variables réelles, est nettement moins abstraite que ne le seront jamais
des données fictives, ce qui aurait pu être plus parlant aux yeux
de certains lecteurs.
Ce n'est pas mon seul regret. J'aurais également
aimé pouvoir approfondir les tests, en faire davantage, et faire
davantage de simulations pour chaque test, afin qu'en ressortent des
conclusions plus précises, plus ciblées, plus exhaustives.
Toutefois, je n'aurais pas souhaité que ce soit au prix d'une
transparence amoindries des simulations réalisées, qui ont
été volontairement très détaillées.
Je regrette également de ne pas avoir
évoqué le cas de la régression PLS multivariée
(c'est-à-dire : avec de multiples variables expliquées), ou
encore de ne pas avoir traité le cas de la régression PLS avec
présence de données manquantes. Ces deux cas existent pourtant et
représentent deux avantages considérables de cette
méthode.
Toutefois, il faut garder à l'esprit que ces divers
approfondissements auraient probablement rendu le mémoire nettement
moins compréhensible, et nettement plus fastidieux à aborder dans
son intégralité.
Finalement, je m'estime satisfait de ce mémoire,
à plusieurs titres. Il m'a tout d'abord permis d'améliorer ma
compréhension générale du domaine statistique, et plus
particulièrement ma compréhension du sujet. Ensuite, le travail
qu'il a nécessité m'a permis d'améliorer ma méthode
de travail, ma capacité à m'organiser, à gérer le
facteur temps, à mieux cerner les qualités et les défauts
inhérents à ma manière de travailler, et à mener
à bien un travail de plus grande ampleur que ceux que j'ai pu
connaître jusqu'à présent. Il m'a également permis
de m'épanouir à travers une démarche personnelle, et donc
adaptée à moi-même, me permettant par la même
occasion d'aborder les aspects du sujet auxquels je suis le plus sensible.
J'en viens donc à la fin de ce préambule et j'en
profite pour remercier ceux qui ont, directement ou indirectement,
contribué à ce mémoire. La première personne qui me
vient à l'esprit est Monsieur Philippe Casin, maître de
conférence dans ma faculté (UFR Droit, Economie et Administration
de l'université Paul Verlaine de Metz), et responsable de la direction
de ce mémoire (et à l'origine de la présence du sujet
parmi les sujets disponibles). Son aide, ses conseils et indications m'ont
notamment permis de mieux cerner le sujet et d'en déduire l'orientation
que je souhaitais lui donner. Je remercie également Christine
Stachowiak, également enseignante de ma faculté et responsable
méthodologique des mémoires de ma promotion. Je remercie ces deux
professeurs à la fois pour leur apport au mémoire, mais
également pour leurs enseignements auxquels j'ai pu assister. D'autres
professeurs me viennent également à l'esprit, dans la mesure
où ils m'ont permis d'acquérir certaines connaissances
mathématiques (ou autres ayant servi à ce mémoire) et
m'ont permis de maitriser certaines notions. Je remercie donc, de
manière générale, tous les professeurs dont j'ai pu
assister aux cours, plus particulièrement Monsieur François
Marque (enseignant en mathématiques, statistiques, et informatique),
Monsieur Marius Marchal (enseignant en mathématiques et statistiques) et
Monsieur Pierre Morin (enseignant en Macroéconomie appliquée, et
ayant eu la délicatesse d'expliquer efficacement la signification de
certaines statistiques utilisées dans le cadre des différents
modèles économétriques vu en cours).
Bien entendu, je ne pourrais conclure cette section sans citer
Michel Tenenhaus, omniprésent et incontournable s'agissant de la
régression PLS, et dont l'ouvrage (évoqué plus haut)
m'aura permis de disposer d'une base solide de réflexion. J'en remercie
donc l'auteur, en saluant l'exhaustivité dont il a su faire preuve.
|
|