Extraction des connaissance à partir d'un datamart à l'aide de l'arbre de décision application aux données médicales( Télécharger le fichier original )par Richard KANGIAMA LWANGI Université de Kinshasa RDC - Licence 2011 |
A. TABLES FICHE
[69] B .TABLE ACCOUCHEMENT
A.TABLE ANT OBSTRI
[70] 2 .CONCEPTION D'UN DATA MART Etape 1 : Définir le processus à analyser La procédure ou fonction fait référence au sujet de notre mini entrepôt des données Nous déterminons le processus métier de l'hôpital saint joseph concerne par notre étude : Les accouchements. dont voici la modélisation de la base de données de l'entrepôt de données Etape 2 : Déterminer le niveau de granularité des données Choisir le grain signifie décider exactement de ce que représente un enregistrement d'une table de faits.par exemple l'entité accouchement représente les faits relatifs à chaque accouchement et devient la table de faits du schéma en étoile des accouchements. Par conséquent, le grain de la table de faits accouchement est un accouchement réalisé à la maternité. A prés avoir choisi le grain de la table de faits nous allons commencer à identifier les dimensions de la tables de faits . A titre d'illustration, les entités fiche et ant obstetrie serviront de références aux données concernant les accouchements et deviendront les tables de dimensions du schéma en étoile des accouchements. Nous ajoutons aussi le Temps comme dimension principale, car il est toujours présent dans le schéma en étoile. Etape 3 : choisir les dimensions Les dimensions déterminent le contexte dans lequel nous pourrons poser des questions à propos des faits établis dans la table de faits .Un ensemble de dimensions de dimensions bien constitué rend le mini entrepôt de données compréhensible et en simplifie l'utilisation. Nous identifions les dimensions avec suffisance de détails, pour décrire des choses telles que les clients et les propriétés avec granularité correcte. Par exemple, toute personne de la dimension fiche est décrit par les attributs
:NF,NOMPOSTNOM,AGE,ETAT [71] la dimension ant obstetri est décrit par les attributs suivants : NA, GRAVIDA ,PARITE,AVORTEMENT,DECES ,la dimension temps est décrit par les attributs suivants : HEURE ,JOURS ,MOIS et ANNEE . Etape 4 : identifier les métriques(faits) Pou notre cas le fait est accouchement. les métrique sont les données numériques PROVENANCE(CPN), ETATSER,POIDS ,AP GAR. Notons que les autres étapes qui suivent exclusivement pour la construction d'un entrepôt des données mais pour notre travail nous construisons un DataMart donc un sous ensemble d'un entrepôt des données donc nous estimons que nous pouvons nous arrêter ace points. Mesures Dans l'exemple présenté ci-haut ,les mesures sont définies par la table ACCOUCHEMENT et sont les suivantes : PROVENANCE ; ETATSER ; POIDS ; AP GAR. Dimensions Notre veut effectuer des analyses selon divers axes d'observation. Axe temps Année Mois Jours Axe fiche Numéro fiche, Nom post nom, Age, Etat civil, Nationalité, Adresse, Niveau études ; Axe anti obstreti Gravida , [72] Parité, Avortement, Décès 3.SCHEMA EN ETOILE DE L'ENTREPOT SOUS SQL serveur 2008 FIG IV 4:Schéma en étoile des accouchements Etant donné que nous construisons un datamart nous souhaitons nous arrêter à ce étape .pour expliciter, justifiée notre études de cas. 4.MODULE DE DATAMINING[10], Ce module de datamining réalisé avec le logiciel SPAD pour nous facilite l'interprétation .Nous avons importé vers un fichier Excel le résultat d'une requête sur notre DataMart à partir de la nous avons importé ces données vers SPAD pour faire l'ACP. [73] Les Analyses Factorielles Les méthodes factorielles établissent des représentations synthétiques de vastes tableaux de données, en général sous forme de représentations graphiques. Ces méthodes ont pour objet de réduire les dimensions des tableaux de données de façon à représenter les associations entre individus et entre variables dans des espaces de faibles dimensions. Les méthodes d'analyse factorielle consistent à rechercher des sous-espaces de faibles dimensions qui ajustent au mieux le nuage de points des individus et le nuage de points des variables. Les proximités mesurées dans ces sous-espaces doivent refléter au mieux les Proximités réelles. L'espace de représentation obtenu est appelé espace factoriel. Les méthodes diffèrent selon la nature des variables analysées : il peut s'agir de variables continues, de variables nominales ou de catégories dans le cas des tableaux de contingences. Les lignes peuvent être des individus ou des catégories. Pour plus de précisions Analyse en composantes principales L'Analyse en Composantes Principales est une technique de description statistique conduisant à des représentations graphiques approchées (mais en un certain sens optimales) du contenu d'un tableau de données: description simultanée des liaisons entre variables et des similitudes entre individus. C'est aussi un outil de réduction de la dimensionnalité d'un ensemble de variables continues, utilisable comme intermédiaire de calcul en vue d'analyses ultérieures. Dans ce chapitre, nous verrons que l'ACP est un outil exploratoire qui permet de visualiser et de découvrir les phénomènes tels qu'ils sont décrits par les données. [74] TABLEAU DE CONTINGENCE SYNTHETIQUE : FIG IV 5:Vue de l'ensemble des données avec SPAD Description des tranches d'âge par intervalle : Tranche d'âge 1 : de 19 à 21 ans Tranche d'âge 2 : de 21 à 2 3 ans Tranche d'âge 3 : de 23 à 25 ans Tranche d'âge 4 : de 25 à 27 ans Tranche d'âge 5 : de 27 à 29 ans Tranche d'âge 6 : de 29 à 31 ans Tranche d'âge 7 : de 31à 33 ans Tranche d'âge 8:de 33 à 35 ans [75] Tranche d'âge 9 : de 35 à 37 ans Tranche d'âge 10 : de 37 à plus [76] ANALYSE DES DONNEES AVEC SPAD : ANALYSE FACTORIEL DE CORRESPONDANCE
FREQUENCES ACTIVES
[77] ARBRE DE DECISION FIG IV 6:Arbre de décision [78] 5.GRAPHIQUE FIG IV 7:Graphique Pour l'axe 2 : [79] 6. INTERPRETATION DES RESULTATS 1. Détermination des axes ? pour les variables (25%) Pour l'axe 1 La parité de la mère à contribué à 66% à la création de l'axe 1 elle est de coordonnées négative. Pour l'axe 2 La parité de la mère à contribué de 25% à la création de l'axe 2 elle est de coordonnées négative. Le nombre de fois que la maman à accoucher à contribué de 43,6% à la création de l'axe 2 elle est de coordonnées positive. La consultation pré natale à contribué de 31, 1% à la création de l'axe 2 elle est de coordonnées négative. Pour l'axe 3 La consultation pré natale à contribué de 48% à la création de l'axe 3 elle est de coordonnées positive. Le nombre de fois que la maman à accoucher à contribué de 49,6% à la création de l'axe 3 elle est de coordonnées positive. Pour l'axe 4 La gestite a contribué de 99% à la création de l'axe 3 elle est de coordonnées négative. ? pour les individus (10%) Pour l'axe 1 : La tranche d'âge 3 à contribué de 11,4% à la création de l'axe1 elle est de coordonnées positive. La tranche d'âge 6 à contribué de 59,4% à la création de l'axe1 elle est de coordonnées négative. Dans cette tranche 2, d'âge que les mamans ont beaucoup avorté. [80] La tranche d'âge 1 à contribué de 16 ,1% à la création de l'axe 2 elle est de coordonnées positive. La tranche d'âge 2 à contribué de 40,5% à la création de l'axe2 elle est de coordonnées positive. La tranche d'âge 10 à contribué de 18,4% à la création de l'axe2 elle est de coordonnées négative Pour l'axe 3 : La tranche d'âge 1 à contribué de 10,8% à la création de l'axe 3 elle est de coordonnées positive. La tranche d'âge 2 à contribué de 17% à la création de l'axe 3 elle est de coordonnées négative. La tranche d'âge 7 à contribué de 27% à la création de l'axe 3 elle est de coordonnées positive La tranche d'âge 10 à contribué de 20% à la création de l'axe 3 elle est de coordonnées négative Pour l'axe 4 : La tranche d'âge 2 à contribué de 12,7% à la création de l'axe 4 elle est de coordonnées négative. La tranche d'âge 9 à contribué de 55,6% à la création de l'axe 4 elle est de coordonnées positive. 2. Interprétation : La tranche d'âge allant de 29 à 31 est associée à la parité de la mère ou nous pouvons encore dire que la parité explique mieux cette tranche d'âge. La tranche d'âge allant de 29 à 31 est la tranche d'âge dont les femmes ont accouché beaucoup. La tranche d'âge 10 est associe à la CPN, nous pouvons ainsi dire que la majorité de ce femme on fait la CPN. [81] Nous pouvons encore dire dans la tranche d'âge allant de 21à 23 ans ; les jeunes filles sont souvent poussées à faire l'avortement. Dans cette tranche 7, d'âge que la majorité des mamans n'ont pas suivi la CPN.la plupart de ces femmes se croient déjà adulte et négligent la CPN. Dans cette tranche 9, d'âge c'est la tranche d'âge que la majorité de femme on déjà accouche plus d'une fois. [82] IV.2.4 DEVELOPPEMENT DE L'APPLICATION [9] A qui l'application est-elle destinée Notre application est destinée à la direction de la maternité et au service informatique de l'hôpital. Quels sont les problèmes de l'application résoudra-t-elle ? L'application résoudra le problème de la gestion des informations notamment l'archivage et permettra aussi d'automatiser le processus manuel. Comment l'application fonctionnera -t- elle ? Nous adopterons une architecture à trois niveaux pour séparer l'interface utilisateur de la logique de programmation, et la logique de programmation de la base de données. [83] IV.2.4.1 CONCEPTION DE L'APPLICATION DE GESTION DES ACCOUCHEMENTS :1. Diagramme de classe de l'application Les Classe : accouchement ,fiche et antécédent obstétrical (c'est-à-dire le passe de la maman concernant la gestation, parité, avortement et décède)
FIG IV 8:Diagramme de classe 2.Diagramme de cas d'utilisation du système en Général Les acteurs : décideur, administrateur, agent [84] utilisateur Décideur Visualisation des données dimensionnelles Appliquer les Data mining Saisie des information d'un malade Appliquer les opérations OLAP Système Authentification au système « Include » Administrateur FIG IV 9:Diagramme de cas d'utilisation 3.Diagramme de séquencé Authentification système
Afficher interface authentification Saisie des données Afficher formulaire menu FIG IV 10:Diagramme de séquence Opération datamining FIG IV 12:Formulaire de sécurité [85]
Afficher les données Application algorithme Afficher le résultat Fig. IV 9.diagramme de séquence « Opération de datamining». Analyse OLAP
Rafraichir les données Analyse les données Sauvegarder et archivage de données Afficher rapport FIG IV 11:Diagramme de séquence analyse OLAP |
|