CONCLUSION
GENERALE
Il est maintenant temps de conclure sur ce mémoire. Au
cours de ce dernier, j'ai tenté de présenter la régression
PLS de la manière la plus littéraire possible, dans le but
d'expliquer la méthode et ses justifications à ceux qui ne la
connaissent pas.
Dans un premier temps, le but a été de situer la
méthode historiquement, et au sein de la vaste discipline formée
par l'ensemble des analyses statistiques. Ainsi, nous avons vu en quoi
consistait une régression linéaire sur le principe, avant de voir
en quoi consistait la régression PLS en elle-même.
Ensuite, nous avons détaillé un minimum les
formules nécessaires à la mise en pratique de la
régression PLS univariée, sans données manquantes, sur
laquelle s'est focalisé le mémoire. Nous avons ainsi voir comment
se calculent les composantes, comment se construit le modèle, et
dégager de cela quelques propriétés théoriques
(critère de covariance, indépendance des composantes, centrage et
réduction des données, ...). Nous avons également vu les
critères qui permettent de savoir combien d'étapes il est
préférable de retenir.
Nous avons pu constater que la régression PLS peut
s'appliquer à des échantillons présentant moins
d'observations que de variables explicatives.
Nous sommes ensuite passés à quelques exemples
théoriques extrêmes, desquelles nous avons pu déduire
quelques propriétés s'agissant de l'usage pratique de la
méthode. Nous avons ainsi pu constater que la méthode est
d'autant plus efficace en cas de multicolinéarité des variables
explicatives, cas sur lequel nous nous sommes longuement attardés. C'est
de cette manière que nous avons pu distinguer la différence
d'approche entre la méthode des MCO et la méthode de
régression PLS, tout en montrant que la seconde constituait une
généralisation de la première.
Nous sommes ensuite passés à des tests
basés sur des simulations à partir de données fictives
avec des propriétés connues à l'avance, que nous avons
détaillé. Nous avons ainsi pu faire trois tests. Le
deuxième s'est différencié du premier par une part
nettement amoindrie du facteur aléatoire, et le troisième s'est
différencié du deuxième par un échantillon de
taille réduite. Nous en avons conclu que la régression
linéaire est avantagée lorsque l'échantillon est fortement
représentatif de la population mère. Au contraire, un
échantillon de taille réduite, et des séries comportant
une forte part d'aléa (l'aléa se traduisant concrètement
par « tout ce qui n'est pas fonction de l'ensemble des variables »),
sont autant d'éléments qui favorisent les régressions PLS
à faible nombre d'étapes.
Nous avons également pu démontrer, dans une
certaine mesure, que la régression PLS, utilisée judicieusement
(c'est-à-dire combinée comme il se doit aux critères
retenus), permet de dépasser la simple approche des MCO, parfois trop
« opportuniste » (ce qui est un danger lorsque l'échantillon
est réduit).
Au regard de l'ensemble du mémoire, il semble que la
régression PLS peut se caractériser comme étant une
méthode robuste, fiable, s'appliquant dans de nombreux cas, et
étant plus générale que ne l'est la régression
linéaire.
Ses principaux avantages, lorsque le nombre d'étapes est
adroitement choisi, peuvent se résumer ainsi :
- La régression PLS fonctionne bien sur un
échantillon de taille faible, pouvant même être
inférieur au nombre de variables explicatives.
- La régression PLS permet de compenser, partiellement,
une baisse de qualité de l'échantillon.
- La régression PLS permet d'éviter certains
problèmes engendrés par la multicolinéarité des
variables.
A cela, on peut ajouter deux avantages, que nous n'avons pas eu
l'occasion de démontrer :
- La régression PLS, dans son approche multivariée,
permet d'expliquer plusieurs variables endogènes.
- La régression PLS, dans un algorithme plus
général, permet de créer un modèle en tenant compte
des individus présentant certaines données manquantes, sans avoir
recours à des méthodes d'estimation des données
manquantes.
Ces avantages justifient donc l'utilisation de la
méthode. Bien entendu, elle se justifie plus particulièrement
dans les conditions que nous avons exposé, mais, de manière
générale, cette méthode semble pouvoir se justifier en
toutes circonstances, pour autant que l'on soit prêt à retenir le
nombre d'étapes maximal si les critères le justifient.
Par conséquence, bien que cette méthode ait
connu la plupart de ses succès dans le domaine de la chimie, on peut
penser qu'elle pourrait facilement être transposée à
d'autres domaines, particulièrement dans ceux où le nombre
d'individus actifs est faible (en comparaison au nombre de variables
explicatives) et où les variables explicatives sont significativement
corrélées entre-elles.
|