INTRODUCTION
GENERALE
L'analyse statistique est un large domaine recouvrant des
techniques d'analyse de plus en plus nombreuses. Ces nouvelles techniques se
développent continuellement, pour faire face à différents
problèmes. Les attentes envers ces analyses sont de plus en plus
élevées, et on cherche à les rendre de plus en plus
efficaces, et de plus en plus adaptées à des situations
concrètes, parfois très spécifiques. Ainsi, lorsque l'on
tente d'expliquer une variable par plusieurs autres variables (la
première étant la variable expliquée, ou endogène,
et les autres étant les variables explicatives, ou exogènes), on
ne cherche pas seulement à obtenir un modèle minimisant les
erreurs d'estimations des individus actifs (individus à partir desquels
le modèle a été construit), on cherche également
à obtenir un modèle qui soit facilement interprétable, et
qui permette d'effectuer des prévisions sur des individus (ou des
entrées) pour lesquels on ne connaît pas la valeur de la variable
explicative. Il faut, bien évidemment, que ces prévisions soient
les plus proches possibles de la réalité. Il faut
également que les modèles soient stables, c'est-à-dire que
les chances d'obtenir un modèle trop éloigné de la
réalité soient minimales, car on ne peut pas toujours comparer
les valeurs estimées aux valeurs réelles, dont on ne dispose pas
(à priori), puisqu'on cherche à les estimer. Il faut parfois
même que ce modèle remplisse ces conditions alors que l'on dispose
de très peu d'individus actifs, alors même que le nombre de
variables explicatives est très élevé, ce qui rend
pourtant, d'un point de vue théorique, la construction d'un
modèle, représentatif de la réalité, très
délicate. C'est précisément ce à quoi tente de
répondre la régression PLS.
Comme nous allons le constater tout au long de ce
mémoire, la régression linéaire simple ou multiple,
répondant au simple critère des MCO (moindres carrés
ordinaires), est souvent prise à défaut lorsqu'il s'agit
d'applications de ce type. Soit, tout simplement, parce que les conditions
initiales, à cause des propriétés mêmes de cette
méthode, rendent son calcul impossible, ce qui est notamment le cas
lorsque le nombre de variables explicatives devient inférieur au nombre
d'individus actifs, puisqu'il existe alors une infinité de solutions au
problème de la minimisation du critère des MCO, toutes
répondant à une égalisation à zéro de ce
critère (et donc impossibles à discerner les unes des autres).
Soit, sans rentrer dans des cas aussi extrêmes, parce que cette
méthode est peu efficace sur des situations tendant à approcher
ce cas limite. La multicolinéarité des variables explicatives
pose également d'importants problèmes de stabilité de
cette méthode. La régression PLS, en contournant ces
problèmes, parvient à proposer des modèles parfois
étonnants de précision et de stabilité, compte tenu de
conditions initiales qui sont parfois, à priori, très peu
propices à l'établissement d'un modèle (échantillon
de taille réduite, de mauvaise qualité, grand nombre de variables
explicatives, ...). C'est ce que nous allons tenter d'expliquer, et
d'apprécier, au cours de ce mémoire, en comparant et en opposant
les deux approches.
Dans la première partie de ce mémoire, nous
présenterons et définirons la méthode. Nous exposerons les
formules qui permettent de construire ce modèle. Bien que la
régression PLS puisse être multivariée (c'est-à-dire
avec des modèles présentant plusieurs variables explicatives) et
s'appliquer sur des échantillons présentant des données
manquantes, nous ne nous intéresserons qu'au cas de la régression
PLS univariée sans données manquantes, notamment afin de ne pas
compliquer la compréhension et l'interprétation des formules.
Nous verrons également que la régression PLS étant un
processus itératif, dont les résultats varient en fonction du
nombre d'étapes choisies, il est nécessaire de
s'intéresser à des critères, plus ou moins objectifs,
permettant de retenir un certain nombre d'étapes. Dans la seconde
partie, nous nous intéresserons à quelques cas «
extrêmes », mettant en valeur les qualités et défauts
inhérents à l'approche PLS, de sorte à permettre au
lecteur de mieux cerner l'enjeu de l'utilisation correcte de cette
méthode. Nous verrons également que la régression PLS, en
réalité, constitue une forme de généralisation de
la régression linéaire au sens des MCO, et peut
s'appréhender en termes de « moindres carrés partiels »
(Partial Least Squares, dont les initiales sont à l'origine de
l'appellation de la méthode). Enfin, dans la troisième partie,
nous ferons de vrais simulations sur des jeux de données fictives
(présentant un certain degré d'aléa) afin de faire une
démonstration des qualités d'estimation de la régression
PLS, particulièrement dans certaines conditions, tout en expliquant
comment retenir le nombre correct d'étapes au regard des
critères. Nous pourrons ainsi comparer les différents
modèles obtenus et nous prononcer sur l'utilité de la
méthode et de l'application des critères qui lui sont
indissociables, tout en nous prononçant sur l'influence des
propriétés de l'échantillon.
Il est important de noter que plusieurs logiciels ont
été utilisés dans le cadre de ce mémoire. Les plus
utilisés ont été Microsoft Word (rédaction du
mémoire) et Microsoft Excel (réalisation de divers calculs, des
tableaux, et de la partie simulations) dans leurs versions 2003 et 2007. Paint
a été utilisé afin de convertir les tableaux Excel au
format image. Certaines équations ont été
générées à l'aide du complément Microsoft
Equations 3.0. Les régressions PLS ont toutes été
effectuées avec StatBox Pro 6.40. Les régressions
linéaires des moindres carrés ordinaires ont été
effectuées avec Eviews 5.0.
|
|