WOW !! MUCH LOVE ! SO WORLD PEACE !
Fond bitcoin pour l'amélioration du site: 1memzGeKS7CB3ECNkzSn2qHwxU6NZoJ8o
  Dogecoin (tips/pourboires): DCLoo9Dd4qECqpMLurdgGnaoqbftj16Nvp


Home | Publier un mémoire | Une page au hasard

 > 

Amélioration l’estimation des sinistres responsabilité civile automobile par machine learning


par Mohamed HOUNSINOU
École supérieure des technologies de l'information appliquées aux métiers - Paris - MBA - Big Data & Business Intelligence 2021
  

précédent sommaire suivant

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy

Conclusion

L'obtention de prédictions précises grâce aux algorithmes de Machine Learning est assez complexe. Les tâches les plus importantes restent le traitement des valeurs manquantes, le choix des variables explicatives optimales et celui des meilleurs paramètres des algorithmes (nombre d'arbres, nombres de feuilles, etc....). Nous n'avons pas abordé ce dernier point car sa mise en application nécessite l'introduction d'autres concepts plus complexes. Toutefois, notre étude nous a permis de faire certains constats. Premièrement, la création de nouvelles modalités pour les variables textuelles en remplacement aux valeurs manquantes, augmente le pouvoir de prédiction des modèles(de 50 euros dans notre cas). Deuxièmement, l'utilisation d'un unique arbre pour estimer le coût des sinistres s'avère dans tous les cas, moins puissant que l'utilisation d'une forêt entière. Troisièmement, un modèle ayant une erreur moyenne absolue élevée peut aussi avoir un taux de prédiction élevé. Dernièrement, la qualité du jeu de données influe beaucoup sur le résultat des prédictions. En effet, le taux de prédiction des sinistres corporels est beaucoup plus élevé que celui des sinistres matériels avec les mêmes variables explicatives et le même traitement sur les jeux de données. De plus, pour un même jeu de données (dommages matériels dans notre cas), l'importance des variables peut varier d'un algorithme à l'autre. Nous constatons d'après les graphes en annexes (Annexe 2 Importance des variables selon l'algorithme des arbres de décision et Annexe 3 Importance des variables selon l'algorithme des forêts aléatoires), qu'en dehors de la charge à l'ouverture, nos deux algorithmes ne s'accordent pas sur l'importance des variables.

D'une manière générale, nous avons montré par l'exemple qu'il est possible de « correctement » prédire les coûts des sinistres grâce aux algorithmes de Machine Learning. Partant de là, de nombreux prolongements sont possibles :

-- L'ajout de nouvelles variables telles que la description du sinistre (détails sur le type de véhicules impliqués par exemple), la notion « d'âge » du sinistre ou même le taux d'AIPP (Atteinte Permanente à l'Intégrité Physique et Psychique) des victimes dans les informations fournies à l'algorithme pourrait améliorer sa qualité de la prédiction.

-- Une optimisation des hyperparamètres des algorithmes pourrait permettre de réduire davantage l'écart absolu trop élevé des sinistres qui dépasse le seuil fixé.

-- L'utilisation d'autres méthodes non présentées dans ce mémoire pourrait permettre de détecter des signaux « faibles ». C'est le cas des algorithmes d'apprentissage non supervisé.

-- La combinaison de différents algorithmes peut permettre de pallier les limites de prédiction de ceux-ci.

-- Une des idées phares de cette étude était de pouvoir prédire la date de clôture des sinistres dès leur déclaration. Cette idée rejoint la notion d'âge d'un sinistre.

précédent sommaire suivant






Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy








"Et il n'est rien de plus beau que l'instant qui précède le voyage, l'instant ou l'horizon de demain vient nous rendre visite et nous dire ses promesses"   Milan Kundera