IV. Conclusions sur les simulations
réalisées
Ce qu'il est primordial de retenir sur l'ensemble de ces
tests, c'est que l'important n'est pas vraiment de comparer une approche
à une autre. Certes, il est bon de savoir que les premières
étapes sont à priori meilleures sur faible échantillon, et
que les dernières étapes seraient plutôt à
privilégier en cas d'échantillon de grande taille. Mais ce qui
compte avant tout, c'est que les critères nous permettent de retenir, en
moyenne, dans tout type de circonstances, le meilleur nombre possible
d'étapes à priori.
C'est plutôt ce que l'on a pu constater au cours des
tests que nous avons effectué. Les critères nous ont souvent
amené à retenir un des meilleurs modèles, souvent meilleur
que ne l'est le modèle associé au critère des MCO, et
souvent parmi les meilleurs modèles.
L'approche en termes de MCO stricts de la régression
linéaire multiple n'est donc, à elle seule, pas suffisante,
puisqu'une approche PLS avec sélection du nombre d'étapes au
regard des critères lui est généralement
préférable, d'après les tests que nous avons pu mener en
tout cas.
Il est important de signaler que ces tests n'ont de sens que
pour tester l'efficacité de la méthode dans l'absolu. Ils ne sont
pas tout à fait réalistes, puisque, dans la
réalité, lorsqu'on étudie un échantillon, on ne
connaît ni les caractéristiques intrinsèques des variables,
ni les caractéristiques de la population mère. L'approche que
nous avons utilisée ne fonctionne que pour tenter de démontrer
certaines propriétés théoriques de la régression
PLS.
Dans la réalité, lorsque l'on étudie un
échantillon, et qu'on tente d'établir des prévisions qui
ont vocation à s'appliquer au-delà de l'échantillon, on ne
peut pas vérifier quels sont en effet les résultats des
différents modèles.
Voila pourquoi il est important de déterminer, dans un
cadre théorique, si la méthode PLS, combinée à
l'utilisation des critères, permet de connaître le meilleur
modèle à utiliser (ou l'un des meilleurs). Pour plus de
réalisme, nous avons volontairement fait abstraction des
résultats obtenus par les modèles sur le reste de la population
mère, de sorte à faire un choix sur seule base des
caractéristiques des modèles établis, comme c'est le cas
dans une situation réelle où l'on ne dispose pas des
données permettant de vérifier si l'approche est juste ou non.
Le fait que les résultats, dont nous n'avons tenu
compte qu'après avoir choisi un modèle, donnent plutôt
raison aux critères nous amène à penser qu'il pourrait en
être de même dans la réalité.
Néanmoins, étant donné le fait que, dans
la réalité, les propriétés des variables ne sont
pas connues, il est impossible d'être sûr du bienfondé du
choix d'un modèle. Mais il s'agit avant tout, non pas de choisir le
« meilleur modèle », qui dans la réalité est
souvent impossible à déterminer, mais plutôt le
modèle qui, à priori, offre l'espérance de résultat
la plus élevée. Etant donné le fait que les
résultats, obtenus au cours de nos tests, concordent assez bien avec les
critères, on peut raisonnablement penser que les critères
puissent également s'appliquer à des modèles
établis sur base d'un échantillon réel.
Ces tests nous ont également permis de savoir, de
manière très générale, que tout chose égale
par ailleurs, les modèles à faible nombre d'étapes
trouvent davantage leur utilité en présence d'aléa fort et
d'échantillon de taille réduite, c'est-à-dire lorsque la
population a peu de chances de se modéliser au mieux suivant un
modèle qui modéliserait les individus actifs au mieux.
La corrélation des variables explicatives entre-elles
est également très importante, même si nous ne l'avons pas
démontré au cours de ces tests (mais nous avions vu
précédemment que plus les variables explicatives sont
orthogonales entre elles, et plus les étapes de la régression PLS
se confondent).
Mes principaux regrets, s'agissant de cette partie, sont,
d'une part, de ne pas avoir pu effectuer davantage de simulations par test, et
d'autre part, de ne pas avoir pu mener d'autres tests, notamment en augmentant
la taille de l'échantillon ou en décorrélant fortement les
variables.
|