Memoire Online - Prédiction de durée de séjour hospitalier en gynécologie basée sur le machine learning: cas de quelques hôpitaux au sud-Kivu

ENSEIGNEMENT SUPERIEUR ET UNIVERSITAIRE
INSTITUT SUPERIEUR PEDAGOGIQUE DE KAZIBA
I.S.P/KAZIBA

Mémoire présenté et défendu pour l'obtention du diplôme de Licence en Pédagogie Appliquée

Research is to see what everybody else has seen, and to think what nobody else has thought -- Albert szent-Györgyi

A toute personne vouée du bon sens dans ce monde cassé A tous les amoureux de l'Intelligence Artificielle

Le présent travail n'est pas seulement le fruit d'un labeur individuel, mais aussi celui

de plusieurs personnes que je tiens à remercier. Parmi les personnes qui ont collaboré à la

réalisation de ce travail en offrant soit un support moral, soit un support technique je

Sans doute, des personnes auront été, involontairement oubliées dans l'énumération

suivante, je tiens en premier lieu à remercier mon Dieu tout puissant, le créateur de

J'exprime toute ma reconnaissance à l'équipe de direction de ce travail notamment le

Je tiens à remercier ma famille, en particulier mes parents ZAHINDA KASHOSHO Faustin

et sa dulcinée NSIMIRE M'MUSOBO Adolphine qui m'ont soutenu à réaliser mes études et

qui m'ont toujours encouragé dans mon destin. Je leurs exprime toute ma reconnaissance.

Mes remerciements sont adressés au CT. BASHIGE NTUGA Innocent et le Professeur

Balagizi Karhagomba Innocent pour leur appuie matériel, moral durant notre cursus

A toutes les autorités académiques et administratives de l'Institut Supérieur Pédagogique

A toutes les autorités scolaires de l'Institut Saint Jean-Paul II Bugoye et de l'EP

Mes sincères et profondes gratitudes nous assujettissent à remercier le Doctorant

ZIRHUMANANA BALIKE Dieudonné, NGANIZA LUGERERO Bernadette et Msc. AGISHA Albert

Aux Réverendes Soeurs de la Paroisse de Burhinyi et aux Réverends Prêtres de la

Congrégation des Franciscains de la paroisse de Burhinyi, plus précisement le Père Jean

A tous mes formateurs depuis l'école primaire jusqu'à ce niveau, dans le cadre scientifique, spirituel, ... trouvez ici, l'expression de ma profonde gratitude. Vous avez fait de moi ce que je suis.

A mes frères, soeurs, cousins, cousines, neveux et nièces : BISIMWA ZAHINDA, BULONZA ZAHINDA, KULONDWA ZAHINDA, MUSAFIRI ZAHINDA, RHUGWASANYE ZAHINDA, FADHILI ZAHINDA, ZIRUKA ZAHINDA, CHRISTIAN LUSHUHA, MUTABESHA MIHIGO, ...

A tous mes beaux-frères et belles-soeurs : NZIGIRE M'MUSHOSHERE, OLINAMUNGU M'MUTABESHA, NEEMA KAGAYO, IZUBA MASHEGEYE, BAHATI ONESPH0RE trouvez ici l'expression de ma profonde gratitude.

A mes amis, mes camarades étudiants du département de maths et ceux de l'ISP KAZIBA en général : BIJIRAMUNGU BEKA, MUSHAGALUSA BAHOYA, BWIRHONDE ZIHINDULA, CHOMBO NAMIKERE, ALEXANDRE BASHUSHANA, BAHATI BASHIMBE, VOLONTE MINEKE, MUNGU WAMPAGA Innocent, ... trouvez ici l'expression de ma gratitude.

A cette personne, laquelle la destinée nous unira et que j'aimerai de tout mon coeur, j'espère qu'elle existe, elle trouvera, dans la copie de ce travail mes sincères remerciements.

Introduction générale

Au cours de ces dernières années, la nouvelle technologie est en train de prendre le devant dans la prise de décision dans plusieurs domaines. Dans le domaine hospitalier, selon [18] et [19] une rigoureuse collaboration entre les chercheurs universitaires et les agents de santé dans plusieurs contextes est importante. Cette collaboration cherche à rassembler les efforts de chaque partie pour améliorer les performances d'efficacité des services des établissements de soins. Avec l'apparition de la pandémie à Covid19 en 2019, où le monde a fait face à un cas plus particulier du galopage du taux d'hospitalisation dans plusieurs hopitaux du monde, les gestionnaires de santé seraient peut-être confrontés à un dilèmme : d'une part, du nombre de personnel soignant qui doit assumer la permanance, et du nombre de patients pouvant être réadmit dans une unité de soins de santé, ou alors, d'une éventuelle sortie d'un patient x à l'hopital d'autre part. Le cas concret est celui de la France car selon [18], elle a atteint le nombre d'hospitalisation de 7,1 millions durant l'an 2019.

La Durée de Séjour Hospitalier (DDS) constitue un des indicateurs de base d'évaluation de la pertinence d'un hôpital. Cette durée représente l'intervalle de temps entre l'admission du patient dans un service (ou hôpital) et sa sortie du service (ou hôpital). Elle est donc le parcours suivi lors du séjour [18]. Pendant que plusieurs services sanitaires au monde s'approprient les nouvelles technologies de l'information et de la communication pour rendre meilleures et fiables leurs structures sanitaires. Il s'oberve jusque là, dans notre pays la non considération de la nouvelle technologie de l'Information et de la Communication expliquée par le fait que les institutions sanitaires ne sont pas numérisées.

Les établissements de soin sont des systèmes à plusieurs dimensions car, ils doivent gérer concomitamment la pertinance des personnels soignants, de la gestion des malades, etc. En RDC plus particulièrement au Sud-Kivu, le service de gynécologie réçoit un nombre important de patientes car, des mamans en processus de procréation, des cas de règles douloureuses, des violences sexuelles, ... C'est ainsi que, dans ce travail, nous allons plus nous intérésset à la Durée de Séjour du service de Gynécologie dans certains hopitaux de la province du Sud-Kivu.

Face aux besoins sanitaires croissants de la population, à la surcharge du travail des

professionnels de santé et à l'allongement des délais d'attente des patients, l'estimation de

la DDS doit être établie au moment de l'admission du patient, suivie et la mise à jour

- L'analyse du taux journalier d'admission des patients et le suivi de leur séjour.

Un des avantages les plus importants de la prédiction de la DDS est la maîtrise des

La prédiction de la durée de séjour hospitalier, est une discipline complexe dont nous ne sommes pas les précursseurs. C'est comme par exemple, MEKHALDI RASHDA NAILA dans sa thèse de doctorant présentée et soutenue le 27 janvier 2022, il fait des algorithmes pour la prédiction de la DDS dans plusieurs unités de soins, notamment dans les services suivants : le service de cardiologie, le service de médecine polyvalente, le service de pédiatrie et le service de néonatologie. A chaque fois, il faisait deux algorithmes l'un en apprentissage supervisé et l'autre en apprentissage non supervisé et faire une comparaison et faire une étude de savoir quel algorithme prédit mieux que l'autre. Il génère deux modèles, l'un statique, le modèle qui sera formulé au moment de l'admission du patient; et l'autre séquentiel, qui intègre les données disponibles pendant le séjour du patient.

Etant donné que la durée de séjour hospitalier (DDS) joue un grand rôle dans la définition d'un hopital fiable, la rédaction de ce papier est axée sur le problème de la modélisation de la durée de séjour hospitalier basée sur quelques techniques de Machine Learning. Nous tâcherons de répondre à la question suivante : Comment pouvons-nous faire un algorthme de préduction de durée de séjour hospitalier (DDS) dans l'unité médicale de la gynécologie et qu'il puisse prédire à quelques erreurs près cette DDS ?

La prédiction de la durée de séjour hospitalier sérait possible grâce aux données des hopitaux se rapportant sur les informations des patients et voir même depuis l'admission de ce dernier. Cet algorithme approximerait la population, au cas où elle serait associée d'une technique et des algorithmes de l'apprentissage automatique de l'intelligence artificielle.

Pour répondre d'une manière claire et précise à notre problématique de recherche, il nous sera impératif de définir deux algorithmes en machine learning. L'un en apprentissage supérvisé et l'autre en apprentissage non supérvisé; et à chaque instant, étudier la pertinance de l'un ou l'autre. Ces algorithmes seront possibles, après avoir étudié les différentes causes d'un séjour quelconque dans une unité de gynécologie, spécialement dans certainss hôpitaux du Sud-Kivu. Mais aussi, une recolte de données qui nous conduira à la méthode documentaire nous sera utile dans la construction de l'algorithme de l'apprentissage supervisé.

Ce travail est constitué de quatres chapitres bornés par l'introduction générale et la conclusion générale. Le premier chapitre porte sur les systèmes d'informations hospitaliers où nous essayons de faire un apperçu sur les données d'hospitalisation et leur origines ainsi que de la propriété de ces dernières. Dans ce dernier, nous parlons aussi de la durée de séjour hospitalier et des facteurs infuençant cette dernière. Le deuxième chapitre parle des modèles de prédiction de Machine Learning. Dans ce dernier, nous différencions les différentes formes d'apprendissange avant de parler de quelques modèles de Machine Learning (oui, quelques modèles car notre liste n'est pas exaustive) avant de chutter par la pertinence d'un modèle de Machine Learning car, bien évidement différentes modèles prédisent différemment. Ce qui veut dire qu'il y a des erreurs qui peuvent surgir. Ainsi donc, le meilleur modèle de prédiction sera celui qui prédit à moins d'erreurs. Le troisième

chapitre est celui consacré à la présentation des données que nous allons utiliser. Ces données proviennent de plusieurs structures sanitaires de la province car, bien évidemment, nous n'avons pas trouvé des données pour toute la province stockées en un seul endroit. Et finalement, le quatrième et dernier chapitre est celui où nous allons construire nos différents modèles de machine Learning pour prédire le séjour hospitalier dans l'unité médicale de la gynécologie en province du Sud-Kivu. Pour ce faire, nous allons constituer des modèles tantôt en apprentissage supervisé, tantôt en apprentissage non supervisé et à chaque étape nous allons nous rassurer de la pertinence de chaque modèle pour en fin finir par une meilleure selection du modèle à considérer.

Chapitre 1

Actuellement, les établissements de soins font face à une forte croissante du nombre de cas d'hospitalisation, et ceci, c'est depuis l'apparution de la pandémie à COVID-19 où le nombre d'hospitalisation a accru dans plusieurs pays du monde [7]. Pour ce faire, il est donc question pour les services de santé, d'améliorer leurs conditions de fonctionnement par une bonne gestion des structures sanitaires et ainsi, parvenir à consolider la qualité de soin pour permettre les entrées et sorties au sein de n'importe quelle unité médicale. Ceci sera alors effectif, par le fait de bien conserver les informations médicales, pour savoir administrer un médicament à un quelconque patient et ne pas le faire fortuitement.

D'une manière plus générale, les Systèmes d'Informations Hospitaliers (SIH) s'occupent de la gestion de l'ensemble des informations, de leurs règles d'utilisation et de leur circulation. De plus, ils font face au stockage et au traitement des données pour répondre aux besoins quotidiens des établissements de soins ([11] et[19]).

Les performances et la qualité des services de soins reposent sur la qualité et la quantité des informations collectées dans les SIH. La DDS constitue un des indicateurs d'évaluation le plus utilisé et sa prédiction basée sur les données disponibles dans les SIH a été au centre d'un grand nombre de travaux de recherche. Le problème de la prédiction des durées

de séjours hospitaliers a été abordé sous différents angles dans des recherches précédentes. [19].

Le but de ce chapitre est de vouloir mettre à la lumière du soleil certaines informations sur le Système d'Information Hospitalier en partant de la sorte : tout d'abord nous allons décrire les systèmes d'Information Hospitalier d'une manière générale en parlant de la sources de ces informations ainsi que des propriétés y afferantes. En suite, nous allons parler de la durée de séjour hospitalier et les facteurs influençant cette dernière pour enfin chutter avec le rôle des machines learning dans tout ceci.

Définition 1.1 Un Système d'Information Hospitalier (SIH) est un Système informatique destiné à faciliter la gestion de l'ensemble des informations médicales et administratives d'un hôpital. Selon [19], on appelle système d'information l'ensemble des outils matériels, des logiciels et des réseaux de télécommunications utilisés pour recueillir, créer et distribuer des données utiles dans des organisations.

En particulier, un Système d'Informations Hospitalier (SIH) désigne un système conçu pour gérer l'ensemble des données médicales et administratives d'un hôpital. Il se constitue d'un groupe d'éléments en communication qui rassemblent, traitent et fournissent les informations nécessaires à son activité.

Définition 1.2 Un Système d'information de l'hôpital est un ensemble des éléments en interaction ayant pour objectif de rassembler, traiter et fournir les informations nécessaires à son activité.

Définition 1.3 Un Système d'Information de Santé (SIS) est un Système d'information global, regroupant tous les types d'acteurs et ressources de santé.

Dans un milieu hospitalier, plusieurs informations sont récueillies, tantôt lors de l'admission du patient et au fur et à mesure que le patient augmente son séjour à l'hopital. On a donc besoin souvent des informations antérieures du patient et quelques informations administratives. Selon [19], ces informations comprennent les données démographiques sur les patients, les étapes de son suivi, les complications, les médicaments, les signes vitaux, les antécédents médicaux, les immunisations, les données de laboratoire et les rapports de radiologie [HIM]. Les informations administratives concernent la gestion opérationnelle d'un hôpital en matière de soins de santé. Elles englobent les informations de la gestion des patients (parcours, facturation, actes médicaux), la gestion de la finance et de la comptabilité (budget, ressources matérielles, achats) et la gestion des ressources humaines (affectations, planning, payement).

Le SIH est scindé en trois sous-systèmes comme illustre la figure 1.1 ([11], [18] et[19] )

Ce volet s'occupe de l'administration des données patients, les unités de soins, la communication entre ces unités et la gestion de la recherche et de l'enseignement médicaux. Il contient toutes les données liées au patient comme par exemple : le diagnostic médical, les prescriptions et la réalisation des actes médicaux, l'édition des comptes rendus et les résumés de dossier sont présentes au sein de ce sous-système.

L'objectif est donc de mieux organiser les activités et les structurer afin d'assurer une meilleure qualité de soins des patients. Le sous-système d'information logistique permet de gérer les différents ressources matérielles, humaines, physiques et financières de l'hôpital. Il englobe la gestion de stocks et des approvisionnements, la gestion des locaux, la gestion des facturations et des commandes, la gestion des lits d'hospitalisation et de soins ainsi que les archives et la documentation des établissements de soins.

Il veille à la prise en charge de la gestion médicoéconomique de l'hôpital. Il concerne la qualité des soins et la gestion des risques. De plus, il s'intéresse à l'allocation budgétaire des différentes unités de soins .

Ces sous-systèmes sont souvent en interaction afin d'assurer la continuité des services de soins, améliorer leur qualité et gérer les ressources et les contraintes budgétaires. Compte tenu du grand volume des données des SIH, divers formats de stockage sont apparus. Ces données proviennent de multiples sources et font l'objet de plusieurs études dans le domaine médical. Quoi que ces données existent, elles proviennent de quelque part effectivement. Dans la partie suivante, nous allons parler des différentes sources des données hospitalières.

Les progrès technologiques et les progrès des processus de traitement des données ont permis une augmentation exponentielle de la quantité des données collectées dans le domaine de la santé. Le volume des données contenues dans les SIH ne cessent de croître. En fonction de leur type, les données sont recueillies à partir de différentes sources. Ces sources de données sont nombreuses et diffèrent selon le type de collecte, le format de représentation et la nature des informations. Les principales sources des données médicales sont : les dossiers médicaux, les enquêtes auprès des patients et les données administratives utilisées pour payer les factures ou gérer les soins ([20],[19]). Dans ce qui suit, nous détaillons les sources de données .

Il comporte les données démographiques du patient acquises au moment de son admission : sa date de naissance, son adresse, son statut marital et son sexe. Il contient également les données liées à son état de santé comme les résultats des analyses biologiques et les transcriptions médicales, les résultats d'examens radiologiques, le diagnostic médical, les antécédents médicaux et les rapports textuels cliniques.

Elles peuvent inclure les données des facturations et des remboursements des séjours hospitaliers des patients. Les données de facturation sont souvent liées aux motifs d'hospitalisation représentés à l'aide de la Codification Internationale des Maladies (CIM) et aux procédures que le patient a subi au cours de son séjour. Les données administratives comportent aussi des informations sur le type de l'unité médicale, l'admission du patient, le nombre d'unités dans lesquelles le patient est passé (ou le nombre de jours passés dans chaque unité).

Une source importante des données médicales est apparue avec l'explosion de l'utilisation d'internet comme moyen de communication. Les données de santé peuvent provenir des échanges des patients sur les réseaux sociaux et des recherches effectuées sur le web. Elles proviennent également des études cliniques réalisées par les professionnels de santé, les scientifiques et les industriels.

"S'agissant des données de santé, informations éminemment sensibles, la tentation est exacerbée de se prévaloir d'un droit de propriété pour se garantir une meilleure protection contre tout usage préjudiciable" N. MALLET-POUJOL cité dans [9].

Vu que les données médicales doivent être protégées comme vu dans la section 1.3, il existe des données à caractère privé. Des lois pour palier à un quelconque dérapage des données médicales sont aussi de structe application.

Les données médicales sont à conserver jalousement non seulement du fait qu'elles sont sensibles, mais aussi car elles sont utilisées par des chercheurs, les hopitaux eux-mêmes, ... ces dernières nous aident même à l'organisation des établissements de soins, l'identification de profils homogènes de patients, le suivi des parcours des patients et la recherche de leur diagnostic médical. Cependant, avant d'utiliser ces données, il est primordial de procéder à leur annotation, de les intégrer et de les pré-renseigner de manière appropriée afin de faciliter leur compréhension. La compréhension et la manipulation des données médicales se heurtent à des défis liés à leur complexité, la richesse des informations aussi qu'à des contraintes de confidentialité [19]. Il existe donc des garentis juridiques pour n'importe quel dérapage de la part des données médicales [20].

La figure 1.2 nous illustre les différentes propriétés des données médicales ainsi que leurs sources. Particulièrement, les données que nous avons utilisées dans l'analyse de ce présent travail ne sont pas loin de respecter ces critères ici.

Les sous-sections suiventes nous servirons de détail pour les propriétés du SIH en paraphrasant [19].

Selon l'article 4 du Règlement Général sur la Protection des Données (RGPD) de l'Union Européenne : « les données relatives à la santé physique ou mentale d'une personne physique, y compris la prestation de services de soins de santé, qui révèlent des informations sur l'état de santé de cette personne » sont définies comme données à caractère personnel. Ces donnes doivent donc être protégées et une politique et une démarche de sécurité de ces données doivent être définies pour les protéger. Si la protection des données est un enjeu majeur, d'autres risques liés au matériel et à l'infrastructure informatique sont également des points d'attention récurrents. Les données médicales sont exploitées dans plusieurs recherches et études académiques et industrielles. Elles peuvent être utilisées dans la conception des systèmes d'aide à la décision du domaine médical, l'amélioration des prestations de soins de santé, l'optimisation des ressources matérielles et humaines des hôpitaux. Un processus d'anonymisation ou de pseudo-anonymisation des données est donc utile avant toute manipulation. L'anonymisation des données médicales est définie comme la suppression de tout caractère identifiant un ensemble de données d'une

manière irréversible. Toutes les informations directement ou indirectement identifiables sont supprimées ou modifiées afin d'empêcher toute ré-identification des personnes. Quant à la pseudo-anonymisation, elle permet le retour à l'information originale en cas de besoin particulier. Elle consiste à remplacer les données à caractère personnel par des pseudonymes. Cette technique est réversible et permet donc la ré-identification ou l'étude de corrélations entre les informations codifiées en cas de besoin particulier. De cette manière, la réutilisation des données médicales est possible ce qui suscite un intérêt et une demande croissante.

A l'aire du Big data, les données médicales ne sont plus à ignorer. L'analyse des données massives est un domaine en pleine croissance qui peut fournir des informations utiles dans le domaine des soins de santé. Dans les systèmes d'aide à la décision ou de prédiction, les éléments collectés sont insérés dès leur disponibilité dans le modèle comme des évènements successifs. Un exemple qui caractérise cette particularité est de modéliser le séjour hospitalier par un processus de trois étapes : moment d'admission du patient, le séjour hospitalier et la sortie du patient.

Lors de l'admission du (de la) patient(e), des informations démographiques comme l'âge, l'adresse, le genre et l'état civil sont acquises ainsi que des informations administratives comme le type d'admission au service concerné, le motif d'hospitalisation et l'unité médicale dans laquelle le patient est admis.

Au cours du séjour hospitalier, d'autres informations médicales et administratives s'ajoutent. Par exemple les actes médicaux réalisés pour le patient, les complications médicales et les transferts entre unités médicales.

Et au finish, à la sortie du (de la) patient(e), les rapports médicaux effectués par les médecins ou les infirmiers sont élaborés. La régularisation de la facture, la durée de séjour du patient et son mode de sortie sont prélevés.

De nos jours, il est nécessaire d'utiliser conjointement des données provenant de systèmes d'information qui utilisent différentes sources de connaissances comme par exemple, les rapports médicaux textuels et les résultats d'imagerie médicale pour l'enregistrement des données et les utiliser dans la résolution de nombreux problèmes dans le domaine médical. L'exploration de ces données dites hétérogènes pour extraire des connaissances est un processus fastidieux imposant des contraintes opérationnelles importantes. Les données hétérogènes sont des données dont les types et les formats présentent une grande variabilité. Il existe principalement 4 types d'hétérogénéité :

- L'hétérogénéité syntaxique : Elle se produit lorsque deux sources de données ne sont pas exprimées dans le même langage.

- L'hétérogénéité sémantique ou conceptuelle : Elle désigne les différences de modélisation d'un même domaine d'intérêt.

- L'hétérogénéité terminologique : Elle désigne les variations de noms lorsqu'on se réfère aux mêmes entités à partir de différentes sources de données.

- L'hétérogénéité pragmatique : Elle correspond à des interprétations différentes des entités.

De plus, nous rajoutons l'hétérogénéité par type de données. Elle réside dans ce cas dans la présence de données quantitatives ou dites numériques et qualitatives ou dites catégorielles. Les données quantitatives sont celles qui peuvent être comptées ou comparées sur une échelle numérique. On distingue alors les données quantitatives continues et discrètes. Pour le type qualitatif, on sépare le qualitatif nominal et le qualitatif ordinal. Par exemple l'âge d'un patient est une donnée numérique discrète, sa taille est une donnée numérique continue, son genre est une donnée catégorielle nominale et son niveau d'étude est une donnée catégorielle ordinale. Nous définissons aussi le type de donnée catégorielle multivaluée comme par exemple les diagnostics médicaux si le patient possède plusieurs diagnostics. Le format des données médicales peut être structuré ou non structuré. Le format des données structurées est organisé et formaté. Par conséquent, il est facile de saisir, rechercher et manipuler les données structurées. A l'inverse, les données non structurées comme par exemple les rapports médicaux en format textuel ou les images de

radiologie médicale, souvent classées comme des données qualitatives, sont plus difficiles à traiter et à analyser. Un processus d'intégration des données hétérogènes est crucial pour permettre aux utilisateurs de définir leurs requêtes sans connaître leurs sources et donner une vue uniforme de l'ensemble de ces sources.

La grande quantité d'informations générées par les systèmes d'informations de santé, la variété des sources des données médicales et l'hétérogénéité des données rendent leur traitement et leur analyse plus difficile et plus complexe soulevant ainsi plusieurs défis. Parmi ces défis, nous retrouvons la présence de plusieurs variables ce qui engendre une grande dimension. De plus, ces données sont souvent incomplètes et contiennent des variables fortement corrélées entre elles résultant de la redondance de l'information. Les données médicales présentent également d'autres problèmes comme la présence des données aberrantes ou des erreurs dans les informations enregistrées. Ces problèmes imposent des méthodes de pré-traitement des données avant de les utiliser afin de rendre leur exploitation plus facile et fiable. La complexité des données médicales rend primordiale l'implication de l'expertise médicale dans leur exploitation par les utilisateurs afin de valider, interpréter et mieux valoriser leur contenu.

Définition 1.4 La Durée de Séjour Hospitalier peut être définie comme un séjour pendant lequel le patient peut être hospitalisé dans plusieurs services, que l'on appelle actuellement des " unités médicales "[4].

La figure 1.3 explique en quelques sortes la durée de séjour hospitalier dans un hopital en passant par une ou plusieurs unités médicales.

Face à un accroissement sans précédent du nombre de cas d'hospitalisation, l'apparution des nouvelles maladies et ou épidémies, la famine en RDC, les institutions sanitaires font face à un nombre accru des patients pouvant même dépasser la capacité d'accueil de ces derniers.

Pour faire face à tout ceci, la prédiction de la durée de séjour hospitalier est un facteur clé dans un service de santé, car contribue à la planification et à l'organisation des activités de soins, ainsi qu'au management des lits réduisant leur occupation inutile [19], mais aussi savoir gérer le personnel soignant et ouvrier pour l'assurance des malades. Chaque structure sanitaire est donc confrontée à faire face à un système de santé sans pareil pour permettre une bonne compétitivité au marché des hopitaux.

Selon [19], il existe trois facteurs importants pour définir la pertinance d'un système de santé, on peut citer : le taux de mortalité, le nombre de réadmissions et la durée de séjour hospitalier (DDS) .

Quant à l'unité de mesure de la DDS, elle est mesurée en journée. Cette définition peut changer constamment dans d'autres contextes. Dans les services d'urgence et ambulatoire, l'admission et la sortie du patient sont réalisées dans la même journée. De ce fait, la DDS est égale à 0 jour. La valeur de la DDS est alors calculée en nombre d'heures et peut s'étaler sur 24 heures au maximum. Plusieurs travaux ont étudié les flux des patients en service d'urgence en se basant sur l'estimation du nombre d'heures du séjour du patient dans ce service. Nous distinguons donc deux définitions majeures de la DDS : la DDS dans des unités médicales dites « programmées » calculée en nombre de jours passés dans ces unités et la DDS dans des services dits « non programmés » calculée en nombre d'heures. Dans ces deux cas, la DDS est quantifiée par une valeur numérique discrète.

Ce qui nous permet d'affirmer qu'une Durée de Séjour Hospitalier au délà de la moyenne provoquerait des coûts matériels que financiers suplémentaires à l'hopital. C'est ainsi alors

que la prédiction de DDS dans un service sanitaire est d'une importance capitale pour palier à ce problème.

La durée de séjour hospitalieur est souvent dû à plusieurs facteurs qui sont tantôt d'origine du patient lui-même ( c'est à dire de son âge, de sa maladie, de son état psychique, ...) ou d'un autre facteurs exterieur. D'où alors la durée de séjour hospitalier dépend aussi de l'Unité médicale dans laquelle le patient est admis ([19]).

Ce travail étant borné dans le service de Gynécologie, à part les facteurs vus ci-haut, les hopitaux aussi jouent un rôle dans la prédiction de la DDS. C'est comme le cas par exemple de la Gynécologie obstétrique où, pour un accouchement eutocique la DDS va de 2 à 5 jours selon les hopitaux consultés et pour un accouchement distocique, elle va de 4 à 9 jours.

L'intelligence artificielle (Artificial intelligence en anglais) englobe plusieurs techniques comme par exemple l'apprentissage automatique (Machine Learning), la vision par ordinateur, le raisonnement, la représentation des connaissances et la fouille de données. Ces techniques font partie des techniques les plus utilisées de nos jours dans les différents domaines de recherche. Les applications de l'IA s'étendent à des domaines que l'on pensait auparavant réservés aux experts humains des données numérisées, d'infrastructure informatique, d'amélioration de la puissance et de la capacité de stockage des ordinateurs,

le domaine médical est identifié comme l'un des domaines les plus promoteurs de l'IA. L'apprentissage automatique ou le Machine Learning (ML) en anglais, est une technique de l'IA largement employée dans les recherches cliniques. Elle est apparue dans les années 1950 avec Alan Turing quand il a écrit un article sur « Computing machinery and intelligence » dans lequel il explique que pour démontrer l'intelligence d'une machine, elle doit être capable d'exécuter des tâches humaines de telle sorte que personne ne peut la différencier de celle d'un être humain.

La figure 1.4 illustre les principales techniques de l'Intelligence Artificielle et leurs applications [19].

FIGURE 1.4 - Techniques de l'Intelligence Artificielle et leurs applications [19]

L'apprentissage automatique consiste à doter les machines de capacités d'analyse, d'apprentissage et de généralisation à partir des données. L'objectif est de résoudre des problèmes pour lesquels il aurait été difficile de trouver une solution avec des approches informatiques traditionnelles. Il existe quatre types d'apprentissage automatique : l'apprentissage supervisé, l'apprentissage non-supervisé, l'apprentissage semi-supervisé et l'apprentissage par renforcement. En médecine, selon les nouvelles techniques de l'IA, plusieurs solutions sont en train de voir le jour comme c'est le cas par exemple de la prédiction du cancer, dans la prédiction d'une quelconque réadmission à l'hopital [13], ...

Comme nous pouvons le constanter, la Nouvelle Technologie de l'Information et de la Communication (NTIC) est au service de toute la communauté et ceci par l'apparution de l'Intelligence Artificielle où les machines prennent certaines décisions que prennaient

les humains dans l'ancien temps. Faudra-t-il que ceci soit possible sans nous interroger comment ça marche ? La mise en place d'un Algorithme de Machine Learning se fait le plus souvent par le canal de certains algorithmes (Modèles de prédiction). La partie suivante sera concencrée à certains modèles de machine learning qui nous servirons dans les deux derniers chapitres.

Chapitre 2

La durée de séjour hospitalier est sans doute un facteur qui indique en quelques sortes la force et la viabilité d'un système hospitalier. Cette prédiction a vu son essort depuis que l'Intelligence Artificielle, spéciallement les Machines Learning sont entrain de s'imposer dans la prise de décision dans presque tous les domaines de la vie. Parfois, on ne sait pas distinguer ce qui est intélligence artificielle, apprentissage automatique et apprentissage profond.

Le but de ce chapitre est tout d'abord de présenter le machine learning, son historique et ses champs d'application, en suite nous mettrons au courant les differents modèles de prédiction de machine learning, ainsi que la définition d'un modèle pertinant et en fin, comprendre le rôle de ces modèles dans la prédiction de DDS.

Premièrement, nous devons définir clairement ce dont nous parlons lorsqu'il est question d'IA. Que sont l'intelligence artificielle, l'apprentissage automatique et l'apprentissage

FIGURE 2.1 - Les relations entre l'intelligence artificielle, l'apprentissage automatique et l'apprentissage profond [10]

L'intelligence artificielle est née dans les années 50, quand une poignée de pionniers de l'informatique naissante ont commencé à se demander si les ordinateurs pouvaient

être conçus pour « penser » une question dont nous continuons aujourd'hui d'explorer
les ramifications. Une définition précise de ce domaine serait la suivante : c'est l'effort d'automatisation des tâches intellectuelles normalement effectuées par des humains [10].

L'intelligence artificielle est donc un domaine général qui englobe l'apprentissage automatique et l'apprentissage profond, mais qui comprend également de nombreuses autres approches qui n'impliquent aucun apprentissage. Pendant très longtemps, de nombreux experts ont cru qu'une intelligence artificielle équivalente à celle de l'homme pouvait être atteinte en faisant en sorte que les programmeurs fabriquent un ensemble suffisamment large de règles explicites pour manipuler les connaissances. Cette approche est connue sous le nom d'intelligence artificielle symbolique (symbolic AI), et ce fut le paradigme dominant de l'IA des années 1950 à la fin des années 1980. Elle a atteint son apogée pendant le boom des systèmes experts (expert systems) dans les années 1980 [10].

Bien que l'IA symbolique se soit révélée apte à résoudre des problèmes logiques bien définis, tels que jouer aux échecs, elle s'est avérée incapable de définir des règles explicites pour résoudre des problèmes plus complexes et flous, tels que la classification d'images, la reconnaissance de la parole et la traduction linguistique. Une nouvelle approche est apparue, et elle a pris la place de l'intelligence artificielle symbolique : c'est l'apprentissage

Dans l'Angleterre victorienne, Lady Ada Lovelace était une amie et une collaboratrice de Charles Babbage, l'inventeur de la machine analytique (Analytical Engine) : le premier ordinateur mécanique polyvalent connu. Bien que visionnaire et très en avance sur son temps, la machine analytique n'était pas conçue comme un ordinateur polyvalent (general purpose computer) lorsqu'elle a été pensée dans les années 1830 et 1840, car le concept de calcul polyvalent n'avait pas encore été inventé. C'était simplement un moyen d'utiliser des opérations mécaniques pour automatiser certains calculs du domaine de l'analyse

mathématique d'où le nom de machine analytique. En 1843, Ada Lovelace a ainsi
commenté l'invention : « le moteur analytique n'a aucune prétention à être à l'origine de quoi que ce soit. Il peut faire toutes les tâches dont nous savons comment lui ordonner de les effectuer [...]. Son domaine de compétence est de nous aider à rendre disponible ce que nous connaissons déjà. » Le pionnier de l'IA, Alan Turing, a cité cette remarque plus tard comme « l'objection de Lady Lovelace » dans son article phare de 1950 appelé « Computing Machinery and Intelligence » qui présentait le test de Turing ainsi que les concepts clés qui façonneront plus tard l'IA. Turing citait Ada Lovelace en se demandant si les ordinateurs polyvalents pourraient être un jour capables d'apprendre et de faire preuve de créativité, et il en vint à la conclusion qu'ils en seraient capables. L'apprentissage automatique découle de cette question : un ordinateur pourrait-il aller au-delà des « tâches dont nous savons comment lui ordonner de les effectuer », et apprendre par lui-même comment effectuer une tâche spécifique ? Un ordinateur pourrait-il nous surprendre ? À la place de programmeurs élaborant à la main des règles de traitement de données, un ordinateur pourrait-il apprendre automatiquement ces règles par l'exposition aux données ?

Cette question ouvre la porte à un nouveau paradigme de programmation. En programmation classique, le paradigme de l'IA symbolique, l'homme saisit des règles (un programme) et des données à traiter conformément à ces règles, et il en découle des réponses en sortie. Avec l'apprentissage automatique, les humains entrent des données,

ainsi que les réponses attendues à partir de ces données, et ils obtiennent des règles en sortie. Ces règles peuvent ensuite être appliquées à de nouvelles données pour produire des réponses originales.

Un système d'apprentissage automatique est entraîné plutôt qu'explicitement programmé. De nombreux exemples pertinents pour une tâche lui sont présentés. Puis il trouve dans ces exemples une structure statistique qui lui permet à terme d'élaborer des règles pour l'automatisation de la tâche. Par exemple, si vous souhaitez automatiser l'étiquetage de vos photos de vacances, vous pouvez présenter à un système d'apprentissage automatique de nombreux exemples d'images déjà étiquetées par des humains, et le système apprendra des règles statistiques pour associer, à des images spécifiques, des étiquettes spécifiques. Bien que l'apprentissage automatique n'ait commencé à prospérer que dans les années 1990, il est rapidement devenu le sous-domaine de l'IA le plus populaire et le plus performant. Cette tendance est alimentée par la disponibilité de matériels informatiques plus rapides et de plus grands ensembles de données. L'apprentissage automatique est étroitement lié aux statistiques mathématiques, mais il diffère des statistiques sur plusieurs points importants. À la différence des statistiques, l'apprentissage automatique traite généralement de vastes et complexes ensembles de données (par exemple un ensemble de données de millions d'images, chacune comprenant des dizaines de milliers de pixels) pour lesquels une analyse statistique classique telle qu'une analyse bayésienne serait impossible à mettre en oeuvre. En conséquence, l'apprentissage automatique, et en particulier l'apprentissage profond : Deep Learning, présente relativement peu de théorie mathématique peut-être trop

peu et est axé sur l'ingénierie. C'est une discipline pratique dans laquelle les idées sont
plus souvent prouvées empiriquement que théoriquement.

Pour définir l'apprentissage profond (deep learning en anglais) et comprendre la différence entre l'apprentissage profond et les autres approches d'apprentissage automatique, nous devons d'abord avoir une idée du fonctionnement des algorithmes d'apprentissage automatique. Nous venons juste d'énoncer que l'apprentissage automatique découvre des règles permettant d'exécuter une tâche de traitement de données, lorsque lui sont fournis

des exemples de résultats attendus. Pour faire de l'apprentissage automatique, nous avons donc besoin de trois choses :

- des points de données d'entrée (input data points) par exemple, si la tâche est
la reconnaissance vocale, ces points de données peuvent être des fichiers audio de personnes qui parlent ; si la tâche est l'étiquetage d'images, ces points de données peuvent être des images ; si c'est dans le cas de ce papier, on aura donc besoin de données d'entrées de la patiente.

- des exemples de sortie attendue (expected output) dans une tâche de reconnaissance vocale, il peut s'agir de transcriptions de fichiers sonores générés par l'homme ; dans une tâche d'étiquetage d'images, les sorties attendues peuvent être des étiquettes telles que « chien », « chat », etc. ; dans une tâche de séjour hospitalier les output sont donc des séjours moyens de chacune des patientes.

- un moyen de mesurer la performance de l'algorithme c'est un élément nécessaire pour déterminer la distance, au sens mathématique, entre la sortie effective de l'algorithme et la sortie attendue ; la mesure est utilisée comme un signal de retour (feedback) pour ajuster le fonctionnement de l'algorithme ; cette étape d'ajustement est ce que nous appelons l'apprentissage.

Un modèle d'apprentissage automatique transforme ses données d'entrée en sorties qui ont un sens, c'est un processus qui est « appris » à partir de l'exposition à des exemples connus d'entrées et de sorties. Par conséquent, le problème central de l'apprentissage automatique et de l'apprentissage profond est de transformer de manière utile les données : en d'autres termes, d'apprendre des représentations utiles des données d'entrée disponibles

des représentations qui nous rapprochent du résultat attendu. Avant d'aller plus loin : qu'est-ce qu'une représentation ? Fondamentalement, c'est une façon différente

de considérer les données de représenter ou d'encoder les données. Les modèles
d'apprentissage automatique ont pour but de trouver des représentations appropriées pour

leurs données d'entrée des transformations de données qui les rendent plus adaptées à
la tâche à accomplir, telle que par exemple une tâche de classification.

Techniquement, voici ce qu'est l'apprentissage automatique : c'est la recherche de représentations utiles de certaines données d'entrée, dans un espace des possibilités prédéfini, en s'appuyant sur un signal de retour. Cette idée simple permet de résoudre un

très large éventail de tâches intellectuelles, de la reconnaissance automatique de la parole à la conduite automobile autonome.

Disons, ce qui est profond de l'apprentissage profond est donc une nouvelle approche de l'apprentissage des représentations à partir des données qui met l'accent sur l'apprentissage de couches (layers) successives de représentations qui sont de plus en plus significatives.

L'adjectif « profond » de l'apprentissage profond ne fait pas référence à une forme de compréhension plus approfondie réalisée par l'approche mise en oeuvre ; il représente plutôt l'idée de couches successives de représentations.

Dans cette section, nous allons voir quelques algorithmes de prédictions de Machine Learning tantôt en apprentissange supervisé, en apprentissage non supervisé ou en apprentissage par renforcement.

Au delà de ces différents apprentissages, il existe des algorithmes utiliés dans l'un ou l'autre apprentissage. Ces modèles au finish nous serviront en grande partie dans la conception du modèle de prédiction en Gynécologie qui fera l'objet de ce mémoire.

Parlons d'abord de ce qui est de l'apprentissage supervisé, l'apprentissage non supervisé et l'apprentissage par renforcement ([19] et[25]).

L'apprentissage supervisé est fait en utilisant une vérité, c'est-à-dire qu'on a une connaissance préalable de ce que les valeurs de sortie pour nos échantillons devraient être. Par conséquent, le but de ce type d'apprentissage est d'apprendre une fonction qui, compte tenu d'un échantillon de données et de résultats souhaités, se rapproche le mieux de la relation entre les entrées et les sorties observables dans les données. La figure 2.2 est un exemple d'un modèle de traitement de données en apprentissage supervisé.

- Les algorithmes de régression, qui cherchent à prédire une valeur continue, une quantité.

- Les algorithmes de classification, qui cherchent à prédire une classe/catégorie.

Dans l'apprentissage non supervisé (clustering en anglais), l'ensemble de données est divisé en sous-groupes homogènes pour obtenir une représentation simplifiée de l'ensemble de départ [19]. Les algorithmes d'apprentissage automatique non supervisés sont utilisés lorsque l'information utilisée pour entraîner le modèle n'est ni classifiée ni étiquetée. Le modèle en question étudie ses données d'entrainement dans le but de déduire une fonction pour décrire une structure cachée à partir des données (figure 2.3). À aucun moment le système ne connaît la sortie correcte avec certitude. Au lieu de cela, il tire des inférences des ensembles de données quant à ce que la sortie devrait être. [1].

Les algorithmes de ce type d'apprentissage peuvent être utilisés pour trois types en problèmes.

- Association : un problème où on désire découvrir des règles qui décrivent de grandes portions de ses données. Par exemple, dans un contexte d'une étude de

FIGURE 2.3 - Modèle de traitement de données en apprentissage non supervisé [1]

comportement d'achat d'un groupe de clients, les personnes qui achètent tel produit ont également tendance à acheter un autre produit spécifique.

- Regroupement : un problème où on veut découvrir les groupements inhérents

aux données, comme le regroupement des clients par le comportement d'achat. - La réduction de dimension : on vise à réduire le nombre de variables à prendre

Ce type d'algorithme est la combinaison entre l'apprentissage supervisé et l'apprentissage non supervisé. Ces algorithmes sont capables d'apprendre à partir d'ensembles de données partiellement étiquetées [19].

L'apprentissage par renforcement est une méthode qui consiste à optimiser de manière itérative un algorithme uniquement à partir des actions qu'il entreprend et de la réponse associée de l'environnement dans lequel il évolue (figure 2.4).

Cette méthode permet aux machines et aux agents de déterminer automatiquement le comportement idéal dans un contexte spécifique pour maximiser ses performances. Une simple rétroaction de récompense, connue sous le nom de signal de renforcement, est

FIGURE 2.4 - Modèle de traitement de données en apprentissage par renforcement

La plus part des problèmes de la DDS utilisent les algorithmes de l'apprentissage supervisé car, avant d'étudier la DDS d'un patient, il faut donc savoir pour les précédents, leurs DDS et ainsi, les faire appliquer au nouveau modèle.

Dans la partie suivante nous allons parcourir quelques algorithmes en apprentissage supervisé car, sont eux qui nous serviront dans la suite de ce travail.

Pour résoudre un problème en apprentissage supervisé, on fait recours à plusieurs méthodes qui sont applicables dans plusieurs domaines [1]. Dans la suite, nous allons essayer de voir certains algorithmes en apprentissage automatique. Précisons que la liste n'est pas exhaustive mais nous allons juste essayer de présenter ici quelques modèles mais pas les tous.

La régression linéaire est l'une des méthodes de prédiction en ML. Elle utilise des variables quantitatives et l'idée plus générale ici est juste d'exprimer les variables par une fonction f(x).

L'un de ses principaux mérites est de fournir une illustration pédagogique élémentaire des différents concepts du ML. Il suppose que la fonction de prédiction f qui lie les variables prédictives x1, ..., x_p à la variable cible a la forme :

La régression linéaire est utilisée pour l'estimation de certaines tendances en économétrie et dans le marketing lorsqu'on a des raisons de penser qu'il existe une relation linéaire entre la variable explicative et la cible. Établir la relation entre l'augmentation du prix d'un produit et sa demande, évaluer l'impact d'une campagne publicitaire en fonction des frais engagés sont des exemples d'utilisation [15].

L' apprentissage du modèle consiste en l'occurrence à calculer les coefficients ai qui minimisent les erreurs de prédiction sur un jeu de données d'apprentissage. Le plus souvent l'erreur est définie comme la somme des carrés des écarts entre les valeurs prédites f(x⁽ⁱ⁾) et les valeurs observées yⁱ. On parle à ce titre de méthode des moindres carrés. Le carré ici des erreurs nous permet de ne pas avoir des valeurs négatives qui pourraient probablement se simplifier et ainsi faire penser au concepteur du modèle que nous est correct or il y a des valeurs érronées.

Un modèle de ML le plus souhaité, est celui qui minimise l'erreur. C'est ainsi que dans la conception d'un algorithme de Machine Learning, on cherche toujours à prendre le modèle qui a moins d'erreurs.

En effet, pour chaque point xi, l'erreur unitaire pour ce point xi est donné par la différence entre la valeur prédite et la vraie valeur. Pour se rassurer que cette valeur sera positive pour que l'équation 2.3 ne soit pas nulle, on élève cette difference au carré :

L'erreur unitaire étant déjà définie, faisons une sommation de ces erreurs pour plusieurs points. L'équation 2.2 donne [12] :

La fonction coût (équation 2.3) est définie en normant cette somme de l'équation 2.2 par le nombre m de points dans la base [12] :

Il existe aussi des modèles linéaires généralisés qui se basent sur des lois de probabilité. Les modèles linéaires généralisés (GLM) étendent les modèles linéaires de deux manières [2]. Premièrement, les valeurs prédites y sont liés à une combinaison linéaire des variables d'entrée x via une fonction de lien inverse. Deuxièmement, la fonction de perte au carré est remplacée par la déviance unitaire d'une distribution dans la famille exponentielle (ou plus précisément, un modèle de dispersion exponentielle reproductive (EDM).On fait alors le choix d'une distribution statistique à faire. Ceci est guidé par la caractéristique de données qu'on a [2] :

- Si les valeurs cibles y sont des nombres (valeur entière non négative) ou des fréquences relatives (non négatives), vous pouvez utiliser une distribution de Poisson avec un lien logarithmique.

- Si les valeurs cibles y sont positives et asymétriques, vous pouvez essayer une distribution Gamma avec un lien de journal.

- Si les valeurs cibles y semblent avoir une queue plus lourde qu'une distribution Gamma, vous pouvez essayer une distribution gaussienne inverse (ou des puissances de variance encore plus élevées de la famille Tweedie).

- Si les valeurs cibles y sont des probabilités, vous pouvez utiliser la distribution de Bernoulli. La distribution de Bernoulli avec un lien logit peut être utilisée pour la classification binaire. La distribution catégorielle avec un lien softmax peut être utilisée pour la classification multiclasse.

D'après l'équation 2.1, nous pouvons encore définir par 'q la DDS prédite à un moment t [22]. Cette équation devient donc :

Le modèle des k plus proches voisins (KNN pour k Nearest Neighbors) est un des modèles prédictifs les plus simples. Il ne fait aucune hypthèse mathématique et ne demande pas non plus toute une litanie des choses. Il nécessite très peu de choses [15] :

L'opérateur de distance le plus souvent utilisé est la distance Euclidienne, cependant, en fonction du problème, on peut encore utiliser d'autres distances [26], etc

On suppose que l'ensemble E contient n données labellisées et u , une autre donnée n'appartenant pas à E qui ne possède pas de label. Soit d une fonction qui renvoie la distance (qui reste à choisir) entre la donnée u et une donnée quelconque appartenant à E. Soit un entier k inférieur ou égal à n [8]. Le principe de l'algorithme de k-plus proches voisins est le suivant [3] et [8] :

- On calcule les distances entre la donnée u et chaque donnée appartenant à E à l'aide de la fonction d.

- On retient les k données du jeu de données E les plus proches de u, c'est-à-dire, les données déjà classifiées qui ont une distance d la plus proche avec la nouvelle donnée entrée.

- On attribue à u la classe qui est la plus fréquente parmi les k données les plus proches.

Les distances les plus souvent utilisées ici sont les distances euclidienne et Manhattan.

La distance Euclidienne est la distance utilisée pour calculer la distance entre deux points. La distance Euclidienne d entre les points A et B est donnée par la relation suivante :

La distance de Manhattan est nommée ainsi car elle permet de mesurer la distance parcourue entre deux points par une voiture dans une ville où les rues sont agencées selon un quadrillage.

La distance de Manhattan d entre deux données A et B est donnée par la relation suivante :

Les arbres de décision sont des modèles de ML supervisés et non paramétriques extrêmement flexibles. Ils sont utilisables aussi bien pour la classification que pour la régression. Nous décrirons ici brièvement les principes utilisés pour la classification. Les arbres de décision utilisent des méthodes purement algorithmiques qui ne reposent sur aucun modèle probabiliste. L' idée de base consiste à classer une observation au moyen d'une succession de questions (ou critères de segmentation) concernant les valeurs des variables prédictives Xi de cette observation. Chaque question est représentée par un noeud d'un arbre de décision. Chaque branche sortante du noeud correspond à une réponse possible à la question posée. La classe de la variable cible est alors déterminée par la feuille (ou noeud terminal) dans laquelle parvient l'observation à l'issue de la suite de questions [23].

Un modèle de Machine Learning comprend trois sortes de noeuds [16] : les racines, les noeuds intermédiaires et les branches. Deux noeuds sont reliés par des branches. La figure 2.5 illustre ces diffentes parties d'un arbre de décision. Selon la figure 2.5, on constate que la racine de cet arbre est x0, les noeuds intermédiaires sont x2, x3 et x4. Par

contre, les branches sont x1, x5; x6, x7 et x8. On comprend dans ce sens que l'arbre de décision n'est rien autre qu'une suite de questions où les réponses constituent des branches et des feuilles.

La question de la profondeur de l'arbre qu'il faut retenir est délicate et est directement liée au problème du surapprentissage. Exiger que toutes les observations soient parfaitement rangées peut rapidement mener au surapprentissage. Pour cette raison on décide généralement de ne plus rajouter de noeuds lorsque la profondeur de l'arbre excède un certain seuil, qui caractérise la complexité maximale de l'arbre de décision, ou lorsque le nombre d'observations par feuille est trop faible pour être représentatif des différentes classes (on parle de pré-élagage). On pratique aussi des opérations d'élagage a posteriori (prunning) sur des arbres dont les feuilles sont homogènes en utilisant un jeu de données distinct (prunning set) de celui qui a permis la construction de l'arbre original [23].

Une fois l'arbre construit à partir des données d'apprentissage, on peut prédire un nouveau cas en le faisant descendre le long de l'arbre, jusqu'à une feuille. Comme la feuille correspond à une classe, l'exemple sera prédit comme faisant partie de cette classe [26].

Les arbres de décisions interviennent par ailleurs comme brique de base de l'algorithme plus sophistiqué des forêts aléatoires que nous présenterons au paragraphe suivant.

Quoi que l'arbre de décision soit un algorithme important en prédiction, elle présente

- C'est un algorithme Glouton, sans backtrack (sans retracer ou trace arrière).

- Transposables en règles avec des règles ayant des attributs communs, en particulier

Dans cette partie, nous allons voir quelques fonctions mathématiques utiles pour un arbre de décision. L'algorithme utilise l'entropie (c'est une théorie tirant ses origines dans la théorie de l'information. L'entropie en statistique designe le désordre qui règne dans une population. La constuction de l'arbre visera à minimiser ce bruit [12]) et le gain d'information comme fonctions [6].

Etant donné un ensemble C de données labélisées +, - et p la population totale, l'entropie sur C de l'ensemble de données S est donnée par l'équation 2.7

L'entropie étant déjà minimisée, l'étape critialle est de savoir quel attribut testé en premier (on choisira l'attribut qui maximisera le gain d'information ou, son équivalent : qui minimisera l'entropie [6] [12] ). Il faut connaître la notion de gain d'information. Le gain est défini par un ensemble d'exemples et par un attribut. L'équation 2.8 formulée va donc servir à calculer ce que cet attribut apporte au désordre de l'ensemble. Plus un attribut contribue au désordre, plus il est important de le tester pour séparer l'ensemble en plus petits sous-ensembles ayant une entropie moins élevée [6].

Les arbres de décisions interviennent par ailleurs comme éléments de base de l'algorithme

plus sophistiqué des forêts aléatoires que nous présenterons au paragraphe suivant.

Il est connu qu'une forêt est un ensemble de plusieurs arbres (figure 2.6). Les forêts aléatoires sont donc un ensemble de plusieurs arbres de décisions.

Prenons l'exemple suivant : imaginez-vous, vous vous rendez à l'hôpital pour le CPN et d'un coût, un médecin vous annonce que vous allez subir une opération (la prémière après sept naissances d'avant.) Parfois vous n'allez pas vous imaginer que cela soit possible. Il vous faut donc un récours vers un autre médecin car vous supposez que celui-là n'est pas soit à la hauteur de sa tâche. [12]

Comme pour l'algorithme de l'arbre de décision, quoi qu'il y a un seul arbre, mais à l'intérieur de ce dernier sont groupés plusieurs autres questionnement qui permettent de bien répondre à une certaine question. L'ensemble de ces portions d'arbre à l'intérieur d'un arbre constituent pour ce faire un algorithme appelé forêt aléatoire (Random Forest en anglais) [12].

On doit les random forests au fantastique Leo Breiman, éminent statisticien américain connu pour ses travaux sur les arbres décisionnels et sur la méthode CART, introduite

précédemment. Lui-même avait parfaitement conscience du défaut majeur d'un arbre de décision : sa performance est trop fortement dépendante de l'échantillon de départ. De plus, on peut s'attendre à ce que l'ajout de quelques nouvelles données dans la base d'apprentissage (ce qui est une bonne nouvelle en soit !) ne modifie pas drastiquement le modèle, qu'il le modifie de façon marginale pour l'améliorer. Ce n'est pas le cas avec un arbre de décision, dont la topologie peut totalement changer avec l'ajout de quelques observations supplémentaires. Plutôt que de lutter contre ces défauts des arbres de décisions, Breiman a eu l'idée géniale d'utiliser plusieurs arbres pour faire des... forêts d'arbres ! Vous avez compris le forest dans random forest. Et random alors ? Pour éviter de se retrouver avec des arbres égaux, il donne à chaque arbre une vision parcellaire du problème, tant sur les observations en entrée que sur les variables à utiliser. Ce double échantillonnage est tout simplement tiré aléatoirement. Notons que l'assemblage d'arbres de décision construits sur la base d'un tirage aléatoire parmi les observations constitue déjà un algorithme à part entière connu sous le nom de tree bagging. Les random forests ajoutent au tree bagging un échantillonnage sur les variables du problème, qu'on appelle feature sampling. On retiendra que :

Avant d'entrer dans le détail de son fonctionnement, notons enfin que l'on retrouve dans le random forest la polyvalence des arbres de décision. En effet, on peut les utiliser :

- en classification, le résultat final étant obtenu en faisant « voter » chaque arbre ;

Le but de l'algorithme des forêts aléatoires est de conserver la plupart des atouts des arbres de décision tout en éliminant leurs inconvénients, en particulier leur vulnérabilité au surapprentissage et la complexité des opérations d'élagage. C'est un algorithme de classification ou de régression non paramétrique qui s'avère à la fois très fléxible et très robuste.

1. À partir d'un échantillon initial de N observations (x⁽¹⁾, . . . x⁽ⁿ⁾), dont chacune est décrite au moyen de p variables prédictives, on crée « artificiellement » B nouveaux échantillons de même taille N par tirage avec remise. On appelle cette technique

le bootstrap. Grâce à ces B échantillons, on entraîne alors B arbres de décisions différents.

Le nombre B d'arbres s'échelonne généralement entre quelques centaines et quelques milliers selon la taille des données d'apprentissage. Le choix du nombre in de variables à retenir à chaque noeud est le résultat d'un compromis. Il a été démontré que les prédictions d'une forêt aléatoire sont d'autant plus précises que les arbres individuels qui la composent sont prédictifs et que les corrélations entre prédictions de deux arbres différents sont faibles. Augmenter le nombre in de variables augmente la qualité de prédiction des arbres individuels mais accroît aussi les corrélations entre arbres. Une valeur in de l'ordre de /p constitue un bon compromis [23].

Les réseaux de neurones artificiels sont utilisés tantôt dans plusieurs disciplines mais ne constituent pas en quelques sortes eux mêmes une discipline [27]. Un réseau de neurone artificiel (parfois simplement réseau de neurones) est un modèle de prédiction qui met en exergue le fonctionnement du cerveau. Le cerveau ici considéré est une collection de neurones connectés les uns aux autres. Chaque neurone examine les sorties des autres neurones, qui deviennent ses entrées, effectue un calcul, puis se déclenche ou pas [15]. La figure 2.7 est un exemple illustratif d'un réseau de neurones.

Les réseaux de neurones résolvent nombreux problèmes tels que la réconnaissance de l'écriture, la réconnaissance faciale [25],[15], voire même la fonction du système nerveu central [24].

Définition 2.1 Les réseaux de neurones artificiels sont des réseaux fortement connectés de processeurs élémentaires fonctionnant en parallèle. Chaque processeur élémentaire calcule une sortie unique sur la base des informations qu'il reçoit. Toute structure hiérarchique de réseaux est évidemment un réseau.

Cependant, développer un réseau de neurones à moindre coût est l'appanage de [25] : - Un Dataset beaucoup plus grand (des millions de données)

Pour dépasser ces challenges, les chercheurs dans le domaine ont développés des variantes du Gradient Descent ainsi que d'autres techniques pour calculer plus rapidement les dérivées sur des millions de données. Parmi ces solutions on trouve [25] :

- Mini-Batch Gradient Descent : Technique pour laquelle le Dataset est fragmenté en petits lots pour simplifier le calcul du gradient à chaque itération.

- Batch Normalization : Mettre à la même échelle toutes les variables d'entrée et de sortie internes au Réseau de Neurone pour éviter d'avoir des calculs de gradients extrêmes.

- Distributed Deep Learning : Utilisation du Cloud pour diviser le travail et le confier à plusieurs machines.

- 1890 : W. James, célèbre psychologue américain introduit le concept de mémoire associative, et propose ce qui deviendra une loi de fonctionnement pour l'apprentissage sur les réseaux de neurones connue plus tard sous le nom de loi de Hebb.

- 1943 : J. Mc Culloch et W. Pitts laissent leurs noms à une modélisation du neurone biologique (un neurone au comportement binaire). Ce sont les premiers à montrer que des réseaux de neurones formels simples peuvent réaliser des fonctions logiques, arithmétiques et symboliques complexes (tout au moins au niveau théorique).

- 1949 : D. Hebb, physiologiste américain explique le conditionnement chez l'animal par les propriétés des neurones eux-mêmes. Ainsi, un conditionnement de type pavlovien tel que, nourrir tous les jours à la même heure un chien, entraîne chez cet animal la sécrétion de salive à cette heure précise même en l'absence de nourriture. La loi de modification des propriétés des connexions entre neurones qu'il propose explique en partie ce type de résultats expérimentaux.

La réponse à cette question viendra à l'aide de l'exemple sur la figure 2.8. Sur cette

figure, on remarque à gauche des entrées appelées input layers et à gauche des sorties appelées Output layers. Les petits ronds sont appelés les neurones et représentent des fonctions d'activation [25].

Le réseau de Neurones le plus simple qui existe porte le nom de perceptron. Il est identique à la Régression Logistique de la section précedente.

Les entrées du neurone sont les x multipliées par des paramètres c à apprendre. Il existe deux étapes pour le calcul d'un réseau de neurone d'abord, un calcul linéaire par la somme de toutes les entrées et le calcul de la fonction d'activation ou la fonction logistique [25].

On utilise souvent d'autres fonctions d'activation que la fonction sigmoïde pour simplifier le calcul du gradient et ainsi obtenir des cycles d'apprentissage plus rapides [25] :

- On réunit les neurones en colonne (on dit qu'on les réunit en couche, en layer). Au sein de leur colonne, les neurones ne sont pas connectés entre eux.

- On connecte toutes les sorties des neurones d'une colonne à gauche aux entrées de tous les neurones de la colonne de droite qui suit.

On peut ainsi construire un réseau avec autant de couches et de neurones que l'on veut. Plus il y a de couches, plus on dit que le réseau est profond (deep) et plus le modèle devient riche, mais aussi difficile à entraîner. C'est ça, le Deep Learning [25].

Les réseaux de neurones entrent dans la catégorie des modèles non linéaires en leurs paramètres. La forme la plus courante de réseau de neurones statique est une extension

où les fonctions f (x, w^') , appelées "neurones", sont des fonctions paramètrées qui seront définies dans la suite.

La fonction f peut être paramétrée de manière quelconque. Deux types de paramétrage sont fréquemment utilisés [14] :

- les paramètres sont attachés aux variables du neurone : la sortie du neurone est une fonction non linéaire d'une combinaison des variables {x } pondérées par les paramètres {w }, qui sont alors souvent désignés sous le nom de « poids » ou, en raison de l'inspiration biologique des réseaux de neurones, « poids synaptiques ». Conformément à l'usage (également inspiré par la biologie), cette combinaison linéaire sera appelée « potentiel » dans tout cet ouvrage. Le potentiel v le plus fréquemment utilisé est la somme pondérée, à laquelle s'ajoute un terme constant ou « biais » :

- les paramètres sont attachés à la non-linéarité du neurone : ils interviennent directement dans la fonction f ; cette dernière peut être une fonction radiale ou RBF (en anglais Radial Basis Function), ou encore une ondelette ; la première tire son origine de la théorie de l'approximation, la seconde de la théorie du signal . Par exemple, la sortie d'un neurone RBF à non-linéarité gaussienne a pour équation :

Comme vu dans les chapitres précedents, il existre plusieurs algorithme de prédiction en apprentissage automatique. Mais la question qui reste toujours en jachère est celle de savoir si réellement toutes ces méthodes ont les mêmes chances de prédiction. C'est dans cette

perpective que dans cette section, nous allons essayer de voir comment on peut parvenir à faire un choix des algorithmes à maintenir pour la prédiction en Machine Learning. Nous allons parler de quelques mesures d'estimation des algorithmes de regression [2].

l représente la proportion de variance (de y) qui a été expliquée par le variables indépendantes dans le modèle. Il fournit une indication de la bonté de et donc une mesure de la probabilité que les échantillons non vus soient prédit par le modèle, à travers la proportion de variance expliquée.

Étant donné que cette variance dépend de l'ensemble de données, peut ne pas être significativement comparable dans différents ensembles de données. Le meilleur score possible est de 1,0 et il peut être négatif (parce que le modèle peut être arbitrairement pire). Ceci veut dire que lorsque le modèle coefficient de détermination est nul, inférieur à zéro ceci s'explique en disant que quand la variable x croit d'une valeur quelconque, la variable y décroit.

La fonction calcule la moyenne absolue erreur, un risque métrique correspondant à la valeur attendue de la perte d'erreur absolue ou de la perte -norm.

Si est la valeur prédite du -ième échantillon, et est la valeur vraie correspondante, alors l'erreur absolue moyenne (MAE) estimé sur est défini comme suit :

La fonction calcule le carré moyen erreur, un risque métrique correspondant à la valeur attendue de l'erreur au carré (quadratique) ou perte.

Si est la valeur prédite du -ième échantillon, et est la valeur vraie correspondante, alors l'erreur quadratique moyenne (MSE) estimé sur est défini comme suit :

Il existe plusieurs autres mesures de performences d'un modèle de regression, mais dans le cadre de ce travail, nous allons nous limiter à ces trois mesures linéaires.

Ce deuxième chapitre étant celui consacré à la description des modèles de machine Learning car au début nous avons signifié que c'est un domaine qui n'est pas cher à nous. Dans le chapitre suivant, nous allons essayer de classer et grouper les données qui nous servirons dans la construction du nouveau modèle de prédiction de séjour hospitalier, le principal objectif de ce travail.

Chapitre 3

En Apprentissage automatique et dans toute science expériementale, une connaissance de certaines données anciennes permettant de prendre des décisions sur des données nouvelles est necéssaire. Ainsi, dans ce chapitre, nous allons nous intérésser à la présentation de la base de données récueillies dans plusieurs hopitaux de la, aussi, par le trichement de ces données, nous allons montrer comment nous procédérons à l'analyse de ces dernières d'abord par le traitement des données.

Nous avons recolté des données dans certains hopitaux de la Province du Sud-Kivu notamment à l'Hopital Général de Référence de Kaziba à Kaziba, aux Centres Hospitaliers BIOPHARM à Bukavu, KAKWENDE à Burhinyi, et ORANGE à Twangiza dans l'unité médicale de Gynécologie (image 3.1 ). Ces données sont à caractère confidentiel et pour y avoir accès, nous avons été d'abord formé et informé de la confidentialité des données médicales. Le cas écheant entraine des peines.

Les enregistrements de cette base de données concerne des informations des patientes admises dans le service de Gynécologie dans des hopitaux que nous avons visité. Les données incluent les variables suivantes :

Le tableau 3.1 montre un exemple d'un extrait de la base des données. Par exemple, la premiere ligne présente une patiente habitant à Kakwende âgée de 24 ans où les premières informations diagnostiquées lors de son admission sont : Anémie, Paludisme grave. Les traitements qu'elle a suivi sont une transfusion 450m de sang; ampi3; arthemeter, Gentamiciline 160mg, pendant 19 jours. Sa durée de séjour hospitalier est de 5 jours.

Comme nous pouvons observer dans ce tableau, il ya certaines informations manquantes. Ce qui est normal car le plus souvent la base de données souffre de ceci. Nous allons présenter dans la partie à suivre comment nous nous sommes mis pour faire face à ceci.

Il a été observé dans plusieurs structures sanitaires que les informations sont parfois stockuées d'une manière traditionnelle (c'est-à-dire dans un cahier qui peut soit se perdre

N°	Adresse	Age	Diagnostic	Traitement	DDS
1	KAKWENDE	24	- Anémie - Paludisme grave	Transfusion 450ml de sang Ampi 3, Arthemeter, Genta 160mg/l 9 jours	5
2	MULI	35	Avortement incomplet	10u d'ocytocine dans SG 5% 500ml, ampi 3Xsg	5
3	CIDAHO	-	- Paludisme grave - IU - MAV	vinine 1000mg, puis 500mg, Aceftriaxène sg/5jrs Genta 160mg/5jrs	7
4	BUDAHA	-	Paludisme grave	Arthemeter 160mg , Ampi genta mebenda, letro, vit A 100.000U DU IU	4
5	CIBINDYE	21	- Paludisme grave insufisament trété - UI -- MAV	Quinine 100mg, puis 800mg, ceftriaxène sg/ sjs Genta 160mg / 5js	6

avec toutes les données de l'hopital). C'est ce qui va faire l'objet de cette section.

Nous sommes partie des structures sanitaires. De ces registres manuscrites nous on été données et de ces registres, nous y avons tirés des informations que nous avons jugées bonnes pour ce travail.

Comme indiqué dans le tableau 3.1, certaines informations ne sont pas disponibles. Ceci nous a permis de passer à leur préparation (appelé en anglais data pre-processing).

Certaines variables sont quantitatives et d'autres qualitatives. Nous avons d'abord transformer la variable adresse par la distance entre le domicile et la structure sanitaire que nous avons calculé en utilisant le logiciel Google Earth Pro et ceci en utilisant un milieu connu dans la contrée comme l'église, l'école, etc., les identifiants tels que les noms sont remplacés par les numéros pour nous permettre de garder les données discrètes.

D'après l'hystogramme 3.1, nous constatons que les données proviennent de 4 hopitaux, c'est ainsi que, l'étiquette Hopital de Kaziba a été modifiée par 1, Hopital de Kaziba remplacé par 2, CH Biopharm par 3 et CH Orange par 4. Ceci pour nous permettre d'avoir des données numériques pour cette variable aussi catégorielle Hopital.

Quant à la catégorie Diagnostic qui est catégorielle, pour avoir des données plus manipulables, nous sommes passés à la subdivision des diagnostics en fonction des maladies fréquemment trouvées dans notre base de données (Grossesse, Infection Urinaire, malformation artério-veineuse ou mesure de l'acuité visuelle, Hémoragie, Paludisme Avortement, Infections, Autres ¹). Ce qu'il faudra rétenir ici est que, les avortements qu'ils soient provoqués, volontaires ou des ménaces d'avortement, nous les avons ainsi classés dans cette variable.

Quant à la catégorie Traitement réçu qui est aussi catégorielle, nous avons fait la même chose comme pour le cas précédent, subdiviser les médicaments par classes thérapeutiques. Nous les avons donc regroupé de la sorte. On a donc scindé cette colonne en 12 colonnes [17], [21] : Anti-Bactériens, Anti-palidéens, Ocytociques, Anthelmintiques Intestinaux, Antispasmodique musculotrope, Analgesiques Non Opioides et Ains, Antiallergiques / Antianaphylactiques, Vitamines, Cephalosporines, Antiamibiens et Antigiardiens, Transfusion, Autres.

Malgré cette fusion, nous avons toujours des variables qui n'ont pas assez d'importance dans la prédiction. Nous avons utilisé la la fonction python display_feat_imp_rforest (figure 3.2 ).

Quant à la Durée de Séjour Hospitalier, nous avons pris la Durée de séjour moyenne par hopital. On a l'histogramme (figure 3.3) suivant pour la variable DDS.

En subdivisant nos différentes catégories, nous sommes passé de 6 colonnes à 25 colonnes. Et plusieurs variables sont catégorielles Nous sommes passés pour ce faire de 6

1. Cette colonne conserne uniquement des diagnostiques qui ne sont pas pris en silo

Quant à la gestion des données manquantes, nous avons utilisé la médiane pour les données quantitatives (adresse, âge, ) et la durée de séjour hospitalier nous avons supprimé toutes les lignes qui n'ont pas de DDS. Ceci pour nous permettre de faire une préduction plus ou moins bonne où notre basse de données est passée de 538 lignes à 344 lignes.

Nous avons en suite utilisé la fonction .dropna() de Python pour supprimer des lignes comptenant des données manquantes où notre base de données est passée à 333 lignes. Une base de données parfois contient des enregistrements qui semblent être les mêmes. Nous avons dans ce sens utilisé la fonction .drop_duplicates pour nous permettre de supprimer les lignes qui peuvent être dupliquées.

La standardisation des données, également appelée normalisation, fait référence au processus de transformation des données brutes en une forme standardisée. La plupart du temps, cela implique de procéder à la modification des données afin que ces dernières obtiennent une moyenne de zéro et un écart-type de un. En d'autres termes, la standardisation consiste à trier, organiser et homogénéiser des données suivant certains standards préalablement définis. [5]

Dans ce travail, nous avons utilisé la fonction StandardScaler(). Mathématiquement, la normalisation StandardScaler est :

- ó est l'ecart-type (Standard Deviation) des observations pour cette variable (feature)

Cette transformation a été faite juste dans le cadre de vouloir expirmer nos unités dans la même unité. Comme c'est le cas par exemple de l'âge en année et de la distance en kilomètre.

Dans cette partie nous allons présenter dans le tableau 3.2 les différentes corrélations entre les données en étudiant la moyenne de chaque variable, le maximum, le minimun, l'écart-type (tableau 3.2), ...

Variable	Nombre	moyenne	std	min	25%	50%	75%	max
Adresse(km)	332.0	3.563193	3.995763	0.34	1.41	2.43	4.925	54.0
Age	332.0	26.313253	6.725840	14.00	21.00	25.00	30.000	50.0
Durée de Séjour	332.0	5.539157	4.351786	1.00	2.00	5.00	7.000	28.0
Mean DDSHop	332.0	5.54	0.49	5.0	5.0	6.0	6.0	6.0

Pour éviter d'autres problèmes de surapprentissage, nous avons catégorisé certaines colones en variables catégorielles comme le diagnostique, l'hopital où les données ont été tirées ainsi que le traitement réçu. La corrération de SPEARMAN trouvée pour nos variables est (figure 3.4) :

Selon la figure 3.4, nous constatons que la distance du ménage et la Durée de Séjour Hospitalier ne corrélent pas. Par contre, la Durée de Séjour corrèle avec les autres variables.

Ce chapitre étant consacré à la présentation de la méthode utilisée pour parvenir à avoir les données utilisables dans l'apprentissage de notre base de données. Nous avons fait des descentes au sein des hôpitaux ci-haut énumérés. Les différentes transformations ont été faites dans le cadre d'avoir une base de données plus ou moins manipulable. Le chapitre qui suivra sera consacré à l'apprentissage de la nouvelle base de données avec 332 entrées.

Chapitre 4

Les institutions de santé et toute entreprise qui se veulent émerger cherchent sans doute à produire un travail de qualité tout en minimisant le temps et les coûts. Pour les établissements de soins, ils cherchent aussi à optimiser les fonctionnements de leurs services tout en assurant un travail de soin de qualité (on peut lire la pertinance d'une structure sanitaire à la section 1.5, page 15 ). Le système hospitalier est très complexe car il fait intervenir plusieurs catégories d'agents : les médecins, les infirmiers, les personnels administratifs et les patients. Et toutes ces catégories pourraient avoir un impact solide dans le changement de la structure hospitalière. Prédire la durée de séjour hospitalier est dans ce sens un pas d'avance pour les tructures sanitaires rêvant un épanouissement de grande envergure. La DDS est identifiée comme une variable complexe dépendant de plusieurs facteurs liés au contexte médical du patient, aux conditions de son admission et à l'organisation de l'hôpital ou du service hospitalier [19].

Dans ce chapitre, nous proposons un modèle de prédiction de la durée de séjour hospitalier en nous servant des données de certains hôpitaux de la Province du Sud-Kivu.

Ce modèle se servira des données disponibles lors de l'admission de la patiente à l'hôpital. Nous commençons d'abord par expliquer les méthodes de prédiction de la DDS, le rôle du Machine Learning dans un système hospitalier, surtout dans la prédiction de la durée de séjour, nous expliquons aussi les differents algorithmes qui ont entrainé le modèle avec un score raisonnable pour enfin finir par une conclusion et le choix d'un meilleur algorithme selon nos données.

Le milieu hospitalier est complexe, car regroupant plusieurs acteurs : d'une part, de spécialité médicale tels que les médecins, les infirmiers et les biologistes, d'autre part nous retrouvons les administratifs, les financiers et les logisticiens. Dans ce contexte institutionnel et organisationnel la définition du séjour hospitalier ainsi que la Durée De Séjour hospitalier (DDS) doit prendre en compte cette dynamique et interaction entre plusieurs acteurs [19].

Le périmètre d'étude représente dans ce sens, le secteur où la DDS sera considérée. La définition du périmètre d'étude permet d'identifier l'ensemble des facteurs qui impactent la DDS [19].

Dans le cadre de ce mémoire, le périmètre d'étude concerne l'unité médicale de Gynécologie dans quatre hôpitaux du Sud-Kivu. Dans ce sens, la Durée de Séjour Hospitalier ne sera pas calculée en fonction du nombre d'heures comme c'est le cas dans le service d'urgence ou les soins ambulatoires mais plutôt en jours. Pour nous permettre de faire une généralisation, dans le cadre de ce mémoire nous avons pris quatre structures sanitaires.

D'après la définition 1.4, la durée de séjour hospitalier étant définie comme le séjour pendant lequel un patient peut-être admis dans un ou plusieurs unités médicales. Dans le

cadre de ce travail, nous ne nous focalisons qu'à la seule unité médicale de Gynécologie. Alors, la DDS sera le temps entre l'admission de la patiente et sa sortie dans l'unité médicale de Gynécologie.

Dans la partie suivante, nous montrons les différents paramètres que nous allons utiliser dans la modélisation de la DDS.

Lors de l'admission dans une unité médicale, les données disponibles englobent les données démographiques de la patiente : son nom, son prénom, son identifiant, sa date de naissance, sa situation familiale et son adresse. Puis doivent suivre des plaintes qui l'amène à l'hopital et ainsi, de ces plaintes sortent des diagnostiques de la part des médecins. Et on chute avec une administration des médicaments.

Comme nous l'avons vu dans le chapitre 3, section 3.3.2, les informations à caratère personnel sont labélisées pour rester avec des données distrètes. Nous n'avons pas tenu conte des antécédents médicaux car nous ne les avons pas trouvées dans les tructures sanitaires concernées. La disponibilité de ces données est alors le point de départ dans le processus de prédiction.

A partir des bases de données médicales, l'historique des données est trouvée. Cette étape est suivie par une analyse des données. Ensuite, une phase de pré-traitement de données est réalisée. Elle inclut le nettoyage des données, la sélection de variables, la transformation et l'encodage des données (tout ceci dans le chapitre 3). L'ensemble de données est séparé en 2 sous-ensembles : ensemble d'apprentissage qui compte 80% des données et l'ensemble de test avec 20% de données. L'ensemble d'apprentissage sert à l'apprentissage du modèle et à la validation des résultats et l'ensemble de test pour l'évaluation des résultats obtenus.

Cette section concerne les résultats obtenus suite à l'implémentation des différents processus pour l'apprentissage automatique décrits dans le chapitre 2 et le chapitre 3. Les résultats ici présentés sont issus des données des algorithmes de regression.

4.3.1 Le réseau de neurone dans la prédiction de Durée de Séjour Hospitalier

En prédisant par l'algorithme des réseaux de neurones (Neural Network), nous avons trouvé par rapport à nos données que la prédiction a un score négatif, soit de 78% pris négativement pour les données de test et 97,6% pour les données d'apprentissage. La figure suivante (figure 4.1) est une représentation des valeurs prédites contre les valeurs réelles.

FIGURE 4.1 - Valeurs actuelles contre les valeurs prédites en utilisant le réseau de neurone

4.3.2 Les arbres de décision dans la prédiction de Durée de Séjour Hospitalier

Dans la prédiction de la DDS par la méthode des arbres de decision (decision Tree), le score pour ce modèle est positif et il est évalué à 0.13.

FIGURE 4.2 - Valeurs actuelles contre les valeurs prédites en utilisant les arbres de décision

Nous avons une DDS des données de comptage, ce qui nous permet d'affirmer que nous pouvons utiliser deux distributions : soit la distribution Binomiale ou la distribution de poisson. Dans cette partie, nous allons examiner les deux distributions et tirer une meilleure conclusion.

Ce modèle a été utilisé avec la distribution de poisson et vous avons été satisfait de son score qui est de 97%. Nous nous sommes rendu compte que c'est le vrai dans la prédiction telle que celle ci.

Le resumé du modèle linéaire généralisé est présenté dans le tableau 4.1.

La deuxième colonne du tableau indique les coéfficients du MLG. Etant donné que la confiance du modèle est d'à peu près 97%, le p - value est donc de 0.03. Certains coéfficients sont statistiquement significatifs car, ayant un p - value inférieur à 0.03. Comme c'est le cas par exemple de Adresse, l'âge, la grossesse, lers Inféctions Urinaires, les avortements, les Anti Inféctieux, les Analgésiques, les Vitamines, les céphalo, autres et la moyenne de DDS par hopital. D'après l'équation 2.4, page 30 la DDS prédite est supposée être ij, et la fonction de lien dans ce modèle est la fonction logarithme néperien

Tableau 4.1 - Résumé du modèle linéaire généralisé avec la distribution de poisson

Covariance Type	: coef	nonrobust std err	z	P>\|z\|	[0.025	0.975]
Adresse(km)	-0.0899	0.029	-3.106	0.002	-0.147	-0.033
Age	0.1283	0.028	4.644	0.000	0.074	0.182
Hopital	-0.0342	0.034	-1.008	0.314	-0.101	0.032
Grossesse	0.3048	0.083	3.686	0.000	0.143	0.467
IU	-0.2051	0.089	-2.299	0.022	-0.380	-0.030
MAV	-0.1270	0.085	-1.496	0.135	-0.293	0.039
Anémie	-0.0498	0.082	-0.608	0.543	-0.210	0.111
Paludisme	0.1256	0.093	1.353	0.176	-0.056	0.308
Avortement	-0.4229	0.077	-5.518	0.000	-0.573	-0.273
Infections	0.0844	0.079	1.063	0.288	-0.071	0.240
Autres	0.0872	0.065	1.333	0.183	-0.041	0.215
AB	-0.0349	0.068	-0.514	0.607	-0.168	0.098
AP	-0.0680	0.103	-0.661	0.509	-0.270	0.134
OCYTOCIQUES	-0.0971	0.079	-1.234	0.217	-0.251	0.057
AI	-0.5020	0.235	-2.136	0.033	-0.963	-0.041
ASM	0.0689	0.067	1.024	0.306	-0.063	0.201
ANAL	-0.2039	0.110	-1.856	0.064	-0.419	0.011
AAL	0.3220	0.090	3.598	0.000	0.147	0.497
Vitamine	0.5866	0.133	4.403	0.000	0.326	0.848
Cephalo	0.3184	0.096	3.318	0.001	0.130	0.506
AA	-0.0572	0.130	-0.438	0.661	-0.313	0.199
Transfusion	0.2113	0.169	1.248	0.212	-0.121	0.543
Autre2	0.1285	0.059	2.190	0.028	0.014	0.244
MeanDDSHop	0.2852	0.025	11.414	0.000	0.236	0.334

FIGURE 4.3 - Valeurs actuelles contre les valeurs prédites en utilisant le modèle linéaire généralisé avec la distribution de poisson

('q = log(i)). Avec ,u la moyenne de la durée de séjour. L'équation 2.4 devient donc :

En guide de l'équation 4.1, en utilisant les variables significatives telles que trouvées dans le tableau 4.1, la DDS 'q sera :

- 'q est multipliée par ^e-0.0899lorsque la variable Adresse est augmentée d'une unité. La valeur ^e-0.0899E]0, 1[, la DDS va donc diminuer

- 'q est multipliée par ^e0.1283lorsque la variable Age est augmentée d'une unité. La quantité ^e-0.1283est supérieure à 1, ce qui signifie que plus l'âge augmente, la DDS aussi augmente.

- 'q est multipliée par ^e0.2852lorsque la variable Durée Moyenne de DDS est augmentée d'une unité. La quantité ^e0.2852est supérieure à 1, ce qui signifie que plus l'âge augmente, la DDS aussi augmente.

- pour les variables dichotomiques, on ne fait pas trop de commentaires car on constate qu'elles ne prendrons pas des valeurs au délà de 0 et 1.

On peut donc voir qu'il y a des variables significatives à coéfficients positifs ont tendences à augmenter la DDS d'un patient à l'Hopital.

Par rapport aux données prédites par ce modèle, la variance est de 6.549 et la moyenne est de 5.867. Ceci nous montre que, la différence sur ces deux est d'environs 1.364, où il

Pour cette distribution, nous avons un degré de confiance de 95%. Le tableau 4.2 nous présente le résumé de ce modèle. L'interprétation des coéfficients de ce tableau utilise la même procédure que pour le tableau 4.1. Par contre, nous n'avons qu'une seule variable significative qui est la durée moyenne de DDS par Hopital. Cette variable lorsqu'elle augmente d'une unité, la DDS est multipliée par un facteur de e0.3064.

D'après les analyses des tableaux 4.1 et 4.2 et comme nous avons deux modèles différents, nous allons comparer leurs prédictions par la méthode AIC (Akaike Information Criterion ) de python où le AIC des modèles linéaires généralisés en utilisant respectivement les distributions de poisson et binomiale négative sont : 1569 et 1578.

Il s'en suit donc que la distribution de poisson est celle qui est plus adaptée (car ayant le plus petit AIC) à ces données que l'autre. Ceci était déjà visible par le biais de la signification des variables.

Dans le cadre de cette étude, le modèle des k plus proches voisins a prédit avec un score approximatif qui est de 0.09 soit moins de 10%. La figure 4.4 est une représentation des valeurs prédites contres les séjours réels des malades.

FIGURE 4.4 - Valeurs actuelles contre les valeurs prédites en utilisant le k Plus proches voisins

Tableau 4.2 - Résumé du modèle linéaire généralisé avec la distribution binomiale négative

Covariance Type	: coef	nonrobust std err	z	P>\|z\|	[0.025	0.975]
Adresse(km)	0.0155	0.074	0.210	0.834	-0.129	0.160
Age	0.0509	0.070	0.722	0.470	-0.087	0.189
Hopital	-0.0045	0.079	-0.056	0.955	-0.160	0.151
Grossesse	0.0667	0.191	0.349	0.727	-0.308	0.441
IU	-0.0739	0.208	-0.355	0.723	-0.482	0.334
MAV	-0.1880	0.212	-0.887	0.375	-0.604	0.228
Anémie	-0.1224	0.194	-0.632	0.527	-0.502	0.257
Paludisme	-0.0099	0.229	-0.043	0.965	-0.458	0.438
Avortement	-0.3523	0.183	-1.930	0.054	-0.710	0.005
Infections	-0.1126	0.204	-0.551	0.581	-0.513	0.288
Autres	0.0388	0.168	0.230	0.818	-0.291	0.369
AB	-0.0008	0.171	-0.005	0.996	-0.335	0.334
AP	0.0533	0.227	0.235	0.814	-0.391	0.498
OCYTOCIQUES	-0.0898	0.191	-0.470	0.639	-0.464	0.285
AI	-0.5137	0.540	-0.951	0.341	-1.572	0.545
ASM	0.2355	0.178	1.321	0.186	-0.114	0.585
ANAL	-0.0299	0.232	-0.129	0.898	-0.485	0.425
AAL	0.0568	0.252	0.226	0.821	-0.436	0.550
Vitamine	0.4917	0.385	1.276	0.202	-0.263	1.247
Cephalo	0.1706	0.279	0.612	0.541	-0.376	0.717
AA	0.0415	0.313	0.133	0.894	-0.572	0.655
Transfusion	0.0846	0.316	0.268	0.789	-0.534	0.704
Autre2	0.0038	0.141	0.027	0.978	-0.272	0.280
MeanDDSHop	0.3064	0.061	5.026	0.000	0.187	0.426

Nous avons déjà vu d'après les trois sous-sections précédentes les deux algorithmes de l'apprentissage supervisé en regression que nous avons utilisé sur nos données. Le tableau suivant reprend pour chacun des modèles le score, le F1-score, etc.

Tableau 4.3 - Évaluation du modèle statique de prédiction de DDS : régression

D'après le tableau 4.3, le modèle linéiare généralisé est celui qui approxime la durée de séjour hospitalier en minimisant les erreurs.

Ce chapitre étant concentré sur la modélisation de la prédiction de la durée de séjour hospitalier, nous sommes parti des bases de données décrites dans le chapitre 3, pour faire une prédiction de la DDS. Les méthodes de prédiction de la DDS au moment de l'admission de la patiente sont basées sur des fouilles des données. Nous avons trouvé que le modèle linéaire généralisé est le modèle très fidele dans la prédiction d'un quelconque séjour hospitalier.

Conclusion

Résumé conclusif

Les établissements de soins sont toujours à la quête de l'excellence par le canal d'une amélioration de la qualité des soins et de l'efficacité des services notamment en terme de gestion hospitalière et humaine. La Durée De Séjour hospitalier (DDS) savère un indicateur d'évaluation des performances des hôpitaux. Dans ce mémoire, nous avons passé en revu des différents modèles de prédiction des Durées de Séjour Hospitalier qui se basent sur des données issues de certains hopitaux du Sud-Kivu dans l'unité médicale de gynécologie. Ces données sont exploitées pour prédire la DDS au moment de l'admission de la patiente.

Le grand travail présenté dans ce mémoire est sans doute celui de la proposition d'un modèle de prédiction de DDS. Cette dernière était de prédire la DDS depuis lors que la patiente arrive à l'hopital en se basant à certains diagnostiques des agents de santé et le traitement administré à la patiente. Nous nous sommes basé sur des techniques et méthodes de l'apprentissage automatique et la fouille de données.

La Durée de Sejour hospitalier est un facteur tout à fait complexe du fait qu'elle est facteur de plusieurs acteurs qui doivent conjuguer plusieurs efforts pour rendre meilleure la structure sanitaire. D'abord, nous avons étudié les facteurs pouvant influencer la durée de séjour hospitalier en général, en suite nous avons recolté des données pour les exploiter et en fin faire un algorithme de prédiction de DDS dans une unité médicale de gynécologie.

Définition d'un paramètre d'étude : dans ce mémoire, nous sommes parti d'une seule unité médicale qui est celle de gynécologie.

Modélisation générique de la DDS : une étude minitieuse a été ménée pour savoir les facteurs qui impactent la DDS dans une unité médicale. L'ensemble des facteurs démographiques (l'âge, le sexe, l'adresse) et des facteurs médicaux (motif d'hospitalisation, diagnostics et traitement réçus). Cette modélisation de la DDS est la porte d'entrée aux processus de prédiction. Les processus de prédiction se sont appuyés sur les méthodes d'apprentissage automatique et de fouille de données (où nous avons l'encodage, le traitement de données, ...).

Modèle statique de prédiction de DDS : nous avons présenté un modèle de prédiction de la DDS dans l'unité de gynécologie en nous appuyant aux données disponibles lors de l'admission de la patiente à l'hôpital. Nous avons utilisé des techniques d'apprentissage supervisé (Neural Network, Decision Tree, ... ). Les résultats obtenus ont montré que les algorithmes d'apprentissage automatique sont performants en terme de précision et de taux d'erreurs dans la prédiction des DDS en milieu hospitalier. L'algorithme qui a très bien entrainé nos données est le modèle linéaire généralisé étant donné que son score est positif et minimise les erreurs (avec un score de 97%).

Le domaine de Machine Learning est encore en plein essort surtout dans les pays en voie de développement comme notre pays la RDC où plusieurs entreprises ont encore une gestion manuelle de données. La prédiction de la DDS s'avère un facteur clé d'indication de la fiabilité et de la viabilité d'une structure sanitaire, parvenir à prédire avec moins d'erreur possible est une réponse à une panoplie de questions que les gestionnaires de santé se posent du jour au lendemain. La porte de sortie étant prometeuse par rapport aux différents algorithmes utilisés dans la construction du modèle, mais quelques perspectives peuvent être sorties pour des prochaines recherches :

- quant au périmètre d'étude, il serait plus intéressant de faire part d'autres unités médicales et ainsi, faire une prédiction de DDS dans plusieurs unités médicales et

- par rapport à la modélisation, associer les experts médicaux dans le choix des facteurs influançant la DDS est un atout ;

- Regardant la complexité des données médicales, l'expert médical doit aussi être impliqué dans l'analyse des profils atypiques pour les détecter et les distinguer des données aberrantes.

- Afin d'améliorer les performances des algorithmes d'apprentissage automatique, une piste serait d'enrichir l'ensemble de données utilisé dans l'apprentissage et celui utilisé dans la validation des processus de prédiction [19]. L'ajout des nouvelles données et qui présentent une richesse dans les informations permet aux algorithmes d'apprentissage automatique d'apprendre sur plus de cas et de ce fait, ils aboutissent à des résultats plus précis [19].

La prédiction de DDS s'avère un axe de recherche important dans le domaine médical. Les méthodes que nous avons proposées peuvent avoir des imperfections inhérentes à notre volonté, c'est ainsi que nous resterons receptifs aux suggestions et recommendations de la part de nos lecteurs.

Bibliographie

4.1 Résumé du modèle linéaire généralisé avec la distribution de poisson . . . 56

4.2 Résumé du modèle linéaire généralisé avec la distribution binomiale négative 59

4.3 Évaluation du modèle statique de prédiction de DDS : régression . . . . 60

2.1 Les relations entre l'intelligence artificielle, l'apprentissage automatique et

2.3 Modèle de traitement de données en apprentissage non supervisé [1] . . 26

4.1 Valeurs actuelles contre les valeurs prédites en utilisant le réseau de neurone 54 4.2 Valeurs actuelles contre les valeurs prédites en utilisant les arbres de décision 55 4.3 Valeurs actuelles contre les valeurs prédites en utilisant le modèle linéaire

4.4 Valeurs actuelles contre les valeurs prédites en utilisant le k Plus proches

	Modèles de prédiction en Machine Learning		19
	2.1	Introduction	19
	2.2	Intelligence Artificielle, Machine Learning et
		Apprentissage Profond	19
		2.2.1 Intelligence Artificielle : Artificial Intelligent (AI)	20
		2.2.2 Apprentissage automatique : Machine Learning	21
		2.2.3 Apprentissage des représentations à partir de données	22
	2.3	Les apprentissages en Machine Learning	24
		2.3.1 Introduction	24
		2.3.2 Apprentissage supervisé	24
		2.3.3 Apprentissage non supervisé	25
		2.3.4 Apprentissage semi-supervisé	26
		2.3.5 Apprentissage par renforcement	26
	2.4	Algorithmes de l'apprentissage automatique	27
		2.4.1 Régression linéaire	28
		2.4.2 Les k plus proches voisins	30
		2.4.3 Les arbres de décision	31
		2.4.4 Les forêts aléatoires	34
		2.4.5 Les réseaux de neurones artificiels	36
	2.5	Pertinence d'un modèle de prédiction	40
		2.5.1 Score R², coefficient de détermination	41
		2.5.2 Erreur absolue moyenne	41
		2.5.3 Erreur quadratique moyenne	42
3	Cadre méthodologique		43
	3.1	Introduction	43
	3.2	Type d'informations récuillies	43
	3.3	Récolte et Pré-traitement des données	44
		3.3.1 Récolte de données	45
		3.3.2 Pré-traitement des données	45
		3.3.3 Normalisation et Standardisation des données	48

		3.3.4 Descripition des données 3.3.5 Corrélation entre les données quantitatives	49 49
4	Modélisation de la prédiction de la Durée de Séjour Hospitalier en
	Gynécologie		51
	4.1	Introduction	51
	4.2	Méthode de prédiction de Durée de Séjour
		Hospitalier	52
		4.2.1 Périmètre d'étude	52
		4.2.2 Modélisation et processus de prédiction de la Durée de Séjour . .	53
	4.3	Évaluation des modèles de prédiction de DDS	54

4.3.1 Le réseau de neurone dans la prédiction de Durée de Séjour Hospitalier 54 4.3.2 Les arbres de décision dans la prédiction de Durée de Séjour Hospitalier 54

Annexe

Annexe I : Information de notre base de données

<class 'pandas core frame DataFrame'> Int64Index : 332 entries, 0 to 331 Data columns (total 25 columns) :

#	Column	Non-Null Count	Dtype
0	Adresse(km)	332 non-null	float64
1	Age	332 non-null	float64
2	Hopital	332 non-null	category
3	Grossesse	332 non-null	category
4	IU	332 non-null	category
5	MAV	332 non-null	category
6	Anémie	332 non-null	category
7	Paludisme	332 non-null	category
8	Avortement	332 non-null	category
9	Infections	332 non-null	category
10	Autres	332 non-null	category
11	AB	332 non-null	category
12	AP	332 non-null	category

	OCYTOCIQUES	332 non-null	category
14	AI	332 non-null	category
15	ASM	332 non-null	category
16	ANAL	332 non-null	category
17	AAL	332 non-null	category
18	Vitamine	332 non-null	category
19	Celphalo	332 non-null	category
20	AA	332 non-null	category
21	Transfusion	332 non-null	category
22	Autre2	332 non-null	category
23	MeanDDSHop	332 non-null	float64
24	DDS	332 non-null	int32

dtypes : category(21), float64(3), int32(1) memory usage : 19.6 KB memory usage : 70.4 KB

Annexe II : Subdivision de la base de données

2 data=BASE[ [ ' Adresse (km) ', 'Age ' , ' Hopital ' , ' Grossesse ', 'IU ' , 'MAV' , 'Ané mie' ,

4 'OCYTOCIQUES' , 'AI ' , 'ASM' , 'ANAL' , 'AAL' , ' Vitamine ' , ' Celphalo ' , 'AA' ,

10 x_train , x_test , y_train , y_test= train_test_split (x , y , test_size =0.20)

4 x_train , x_test , y_train , y_test = train_test_split (x , y , test_size =0.20 , random_state=0) # Adjust test_size and random_state as needed

6 from sklearn . metrics import mean_absolute_error , mean_squared_error , r2_score

12 x_train , x_test , y_train , y_test = train_test_split (x , y , test_size =0.20 , random_state=42)

16 MODEL = KNeighborsRegressor ( leaf_size =30000000, metric='minkowski ' , n_neighbors=10, p=4000, weights ='uniform ' )

12 x_train , x_test , y_train , y_test = train_test_split (x , y , test_size =0.20 , random_state=42)