Conclusion
L'obtention de prédictions précises grâce
aux algorithmes de Machine Learning est assez complexe. Les tâches les
plus importantes restent le traitement des valeurs manquantes, le choix des
variables explicatives optimales et celui des meilleurs paramètres des
algorithmes (nombre d'arbres, nombres de feuilles, etc....). Nous n'avons pas
abordé ce dernier point car sa mise en application nécessite
l'introduction d'autres concepts plus complexes. Toutefois, notre étude
nous a permis de faire certains constats. Premièrement, la
création de nouvelles modalités pour les variables textuelles en
remplacement aux valeurs manquantes, augmente le pouvoir de prédiction
des modèles(de 50 euros dans notre cas). Deuxièmement,
l'utilisation d'un unique arbre pour estimer le coût des sinistres
s'avère dans tous les cas, moins puissant que l'utilisation d'une
forêt entière. Troisièmement, un modèle ayant une
erreur moyenne absolue élevée peut aussi avoir un taux de
prédiction élevé. Dernièrement, la qualité
du jeu de données influe beaucoup sur le résultat des
prédictions. En effet, le taux de prédiction des sinistres
corporels est beaucoup plus élevé que celui des sinistres
matériels avec les mêmes variables explicatives et le même
traitement sur les jeux de données. De plus, pour un même jeu de
données (dommages matériels dans notre cas), l'importance des
variables peut varier d'un algorithme à l'autre. Nous constatons
d'après les graphes en annexes (Annexe 2 Importance des variables selon
l'algorithme des arbres de décision et Annexe 3 Importance des variables
selon l'algorithme des forêts aléatoires), qu'en dehors de la
charge à l'ouverture, nos deux algorithmes ne s'accordent pas sur
l'importance des variables.
D'une manière générale, nous avons
montré par l'exemple qu'il est possible de
« correctement » prédire les coûts des
sinistres grâce aux algorithmes de Machine Learning. Partant de
là, de nombreux prolongements sont possibles :
-- L'ajout de nouvelles variables telles que la description du
sinistre (détails sur le type de véhicules impliqués par
exemple), la notion « d'âge » du sinistre ou
même le taux d'AIPP (Atteinte Permanente à
l'Intégrité Physique et Psychique) des victimes dans les
informations fournies à l'algorithme pourrait améliorer sa
qualité de la prédiction.
-- Une optimisation des hyperparamètres des algorithmes
pourrait permettre de réduire davantage l'écart absolu trop
élevé des sinistres qui dépasse le seuil fixé.
-- L'utilisation d'autres méthodes non
présentées dans ce mémoire pourrait permettre de
détecter des signaux « faibles ». C'est le cas des algorithmes
d'apprentissage non supervisé.
-- La combinaison de différents algorithmes peut
permettre de pallier les limites de prédiction de ceux-ci.
-- Une des idées phares de cette étude
était de pouvoir prédire la date de clôture des sinistres
dès leur déclaration. Cette idée rejoint la notion
d'âge d'un sinistre.
|