Amélioration l’estimation des sinistres responsabilité civile automobile par machine learningpar Mohamed HOUNSINOU École supérieure des technologies de l'information appliquées aux métiers - Paris - MBA - Big Data & Business Intelligence 2021 |
RésuméDans un contexte où la capacité à pouvoir stocker et manipuler d'importantes quantités de données est de plus en plus grandissante, les provisions pour sinistres à payer (PSAP) qui sont pour le moment grandement estimées à l'aide de méthodes agrégées, peuvent désormais être « prédites » individuellement grâce aux méthodes de Machine Learning. Les enjeux de la bonne prédiction du coût d'un sinistre sont partie intégrante de la maîtrise des risques. Ces enjeux peuvent être aussi bien réglementaires, stratégiques que financiers, et incitent les assureurs non-vie à se questionner sur l'utilisation de nouvelles approches de provisionnement. Dans ce mémoire, nous nous intéressons à la mise en place d'algorithmes de Machine Learning pour prédire ligne à ligne les sinistres, c'est-à-dire sinistre par sinistre et non de façon agrégéedans un triangle de liquidation. Notre objectif est de mieux tirer parti des informations spécifiques à chaque sinistre. Pour ce faire, nous utiliserons une base de données réelles comportant des sinistres survenus de 2015 à 2017 touchant les garanties Responsabilité Civile matérielle et Responsabilité Civile corporelle en assurance automobile, fournie par un assureur français. Ces données présentent l'avantage de comporter de nombreuses informations sur les sinistres que nous appelons variables descriptives. Il s'agit par exemple du nombre de victimes, de la cause du sinistre, de la charge à l'ouverture. Dans un premier temps, nous commencerons par rappeler les généralités en assurance non-vie, puis nous nous intéresserons au fonctionnement des méthodes de provisionnement agrégées utilisées ainsi qu'à leurs limites. Par la suite, nous étudierons les données à notre disposition et leurs particularités. Ensuite nous présenterons les algorithmes de Machine Learning que nous comptons utiliser sur ces données avant de les mettre en application. Et enfin nous conclurons sur l'apport de ces nouveaux modèles. Mots-clés : provisionnement ligne à ligne / individuel, Machine Learning, arbres de décisions, forêts aléatoires, apprentissage supervisé, régressions, PSAP. AbstractIn a context where the ability to store and handle large amounts of data is increasing, the claim reserves which are for the moment greatly estimated using aggregated methods, can now be Individually «predicted» using machine learning methods. The challenges of correctly predicting the cost of a claim represent an important part of risk's control. These challenges can be regulatory, strategic, or financial, and prompt non-life insurers to question themselves on the use of new reserving approaches. In this study, we are interested in the implementation of Machine Learning algorithms to predict claims using line-by-line methods instead of aggregate ones such asrun-off triangles. Our goal is to make better use of the information specific to each claim. To do so, we will use a database comprising claims that occurred from 2015 to 2017 affecting material damage and bodily injury cover in automobile insurance, provided by a French insurer. These data have the advantage of including a lot of information on claims that we will be calling descriptive variables. Such as the number of victims, the cause of the incident, the load on at theopening for example. First, we will start by recalling the generalities of non-life insurance, then we will look at how the aggregate reserving methods are used to work as well as their limits. Subsequently, we will study the data at our disposal and its particularities. Then we will present the Machine Learning algorithms that we intend to use on this data before applying them. And finally, we will conclude. Keywords: micro reserving, Machine Learning, decision trees, random forests, supervised learning, regressions, claims reserves. Tout d'abord, je souhaiterais remercier Emilie DEPREY la Responsable Actuariat Comptes ainsi que mon tuteur Mouhamadou NDIAYE qui m'ont permis de travailler dans cette fabuleuse équipe. Je remercie aussi mes précieux collègues de l'équipe Actuariat Comptes qui ont montré une implication et un soutien sans faille en me faisant part de leurs idées et points de vue dans la rédaction de ce mémoire. J'aimerais également remercier mon tuteur académique, Mhand BOUFALA, pour sa disponibilité ainsi que mes parents et mes camarades de classe pour leur soutien moral. Enfin, merci à toi Faouziath pour ta présence et ta patience durant ma formation universitaire. 1.1 Définition de l'assurance de responsabilité civile 3 1.2 Les différentes formes de responsabilité civile en assurance automobile 3 1.3 Enjeux du provisionnement 4 1.5 Cycle de vie des sinistres 6 1.6 Particularités du portefeuille Entreprise 7 II. Méthodes classiques de détermination de la provision 8 2.1 Triangle de développement 8 2.3 Méthode de Bornhuetter-Ferguson 10 2.5 Limites des méthodes classiques 12 III. Echantillon d'études et méthodologie de collecte des données 14 3.1 Présentation de la base de données 14 3.2 Collecte et sélection des données 23 IV. Amélioration de l'évaluation par Machine Learning 24 4.1 Généralités sur le Machine Learning 24 4.2 Algorithmes supervisés et non supervisés 25 4.4 Les arbres de régressions 26 V. Implémentation des algorithmes 32 VI. Algorithmes de régressions et de classification 32 5.1 Mise en application en langage Python 32 5.2 Exploration des données 32 5.3 Traitement des valeurs manquantes : parse_model () 33 5.4 Algorithmes et évaluations 35 5.5 Autres traitements des valeurs manquantes 37 Table 2.1 Triangle de développement .............................................................8 Table 2.1 Triangle de développement rempli grâce au modèle de Chain-Ladder T....9 Table 4.1 Quelques exemples de Machine Learning proposés par Mitchell ............25 Annexe1 Liste des variables ........................................................................42 Figure 1.1 Décomposition de la PSAP .............................................................5 Figure 1.2 Décomposition de la charge ultime ...................................................6 Figure 1.3 Schéma de la vie d'un sinistre .........................................................7 Figure 3.1 Histogramme des dossiers en 2015par année d'ouverture....................15 Figure 3.2 Histogramme des dossiers en 2016par année d'ouverture....................15 Figure 3.3 Histogramme des dossiers en 2017par année d'ouverture....................15 Figure 3.4 Proportions des dossiers en 2015 par année de clôture.......................16 Figure 3.5 Proportions des dossiers en 2016 par année de clôture.......................16 Figure 3.6 Proportions des dossiers en 2017 par année de clôture.......................16 Figure 3.7 Nombre de dossiers par classe de 100K€.........................................17 Figure 3.8 Nombre de dossiers par cause du sinistre.........................................18 Figure 3.9 Top 10 des départements les plus touchés........................................18 Figure 3.10 Top 10 des villes les plus touchées................................................19 Figure 3.11 Répartition des dossiers par type de litige........................................19 Figure 3.12 Charge moyenne par type de litige.................................................20 Figure 3.13 Nombre de dossiers clos et ouverts.................................................20 Figure 3.14 Nombre de dossiers par type de dommage......................................21 Figure 3.15 Nombre de dossiers par taux de responsabilité.................................21 Figure 3.16 Nombre de dossiers par nombre de victimes....................................22 Figure 4.1 Partie de la PSAP à estimer ..........................................................24 Figure 4.2 Exemple de partitionnement d'un espace bidimensionnel ....................27 Figure 4.3 Illustration du tree bagging avec trois arbres.......................................30 Annexe 2 Importance des variables selon l'algorithme des arbres de décision........43 Annexe 3 Importance des variables selon l'algorithme des forêts aléatoires...........43 |
|