WOW !! MUCH LOVE ! SO WORLD PEACE !
Fond bitcoin pour l'amélioration du site: 1memzGeKS7CB3ECNkzSn2qHwxU6NZoJ8o
  Dogecoin (tips/pourboires): DCLoo9Dd4qECqpMLurdgGnaoqbftj16Nvp


Home | Publier un mémoire | Une page au hasard

 > 

Extraction des connaissance à  partir d'un datamart à  l'aide de l'arbre de décision application aux données médicales

( Télécharger le fichier original )
par Richard KANGIAMA LWANGI
Université de Kinshasa RDC - Licence 2011
  

précédent sommaire suivant

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy

CHAPITRE II : LES ENTREPOTS DE DONNEES

[8], [1], [16], [5], [7]

II.1 INTRODUCTION

Les entrepôts des données intègrent les informations en provenance de différentes sources, souvent reparties et hétérogènes ayant pour objectif de fournir une vue globale de l'information aux analystes et aux décideurs.

La construction et la mise en oeuvre d'un entrepôt de données représentent une tache complexe qui se compose de plusieurs étapes.

La première à l'analyse des sources de

données et à l'identification des besoins des utilisateurs, la deuxième correspond à l'organisation des données à l'intérieur de l'entrepôt. Finalement, la troisième sert à établir divers outils d'interrogation, analyse, de fouille de données.

Chaque étape présente des
problématiques spécifiques. Ainsi, par exemple, lors de la première étape, la difficulté principale consiste en l'intégration des données, de manière a qu'elles soient de qualité pour leur stockage .pour l'organisation, il existe plusieurs problèmes comme : la sélection des vues a matérialiser, le rafraichissement de l'entrepôt, la gestion de l'ensemble de données courantes et historisées.

En ce qui concerne le processus d'interrogation, nous avons besoin des outils performants et conviviaux pour l'accès et l'analyse de l'information.

Notre travail se focalise principalement

sur une étape du processus décisionnel, avec une proposition de la définition d'un modèle multidimensionnel, pour boucle par une conclusion.

[18]

II.2.1 DEFINITION CLASSIQUE D'UN ENTREPOT DES DONNEES (5J , (7J

Un entrepôt de données est une collection de données orientées sujet, intégrées, non volatiles et historisées, organisées pour le support d'un processus d'aide a la décision. Nous détaillons ces caractéristiques

Orientées sujet : les données des entrepôts sont organises par sujet plutôt que par application : par exemple, une chaine de magasins d'alimentation organise les données de son entrepôt par rapport aux ventes qui ont été réalisées par produit et par magasin, au cours d'un certain temps.

Intégrées : les données provenant des différentes sources doivent être intégrées, avant leur stockage dans l'entrepôt de données. L'intégration c'est à dire la mise en correspondance des formats, permet d'avoir une cohérence de l'information.

Non volatiles : a la différence des données opérationnelles, celles de l'entrepôt sont permanentes et ne peuvent pas être modifiées .le rafraichissement de l'entrepôt consiste à ajouter de nouvelles données, sans modifier ou perdre celles qui existent. historisées :la prise en compte de l'évolution des données est essentielle pour la prise de décision qui, par exemple, utilise des techniques de prédication en s'appuyant sur les évolutions passées pour prévoir les évolutions futures.

II.2.2 ARCHITECTURE D'UN ENTREPOT DE DONNEES (5J

L'architecture des entrepôts de données repose souvent sur un SGBD séparé du système de production de l'entreprise qui contient les données de l'entrepôt.

Le processus d'extraction des données permet d'alimenter périodiquement ce SGBD. Néanmoins avant d'exécuter ce processus, une phase de transformation est appliquée aux données opérationnelles.

Celle-ci consiste à les préparer (mise en correspondance des formats de données), les nettoyer, les filtrer,..., pour finalement aboutir a leur stockage dans l'entrepôt.

[19]

Dans cette figure II.1, nous présentons une architecture simplifiée d'un entrepôt selon Doucet et Gangarski. Les différents composants ont été intègres dans trois parties : les sources de données, l'entrepôt et les outils existants dans le marche.

Données de production (SGBD ,ODS, système légués)

O U T I L S

Données externes

E T

L

Données légèrement résumées

Données fortement résumées

Entrepôt de données

Données anciennes Archivées

Données de détail

Métadonnées

FIG II. 1:Architecture d'un entrepôt de données

a) les sources : les données de l'entrepôt sont extraites de diverses sources souvent reparties et hétérogènes, et qui doivent être transformées avant leur stockage dans l'entrepôt.

Nous avons deux types de sources des donnes : internes et externes a l'organisation :

Internes : la plupart des données sont saisies à partir des différents systèmes de production qui rassemblent les divers SGBD opérationnels, ainsi que des anciens systèmes de production qui contiennent des données encore exploitées par l'entreprise.

Externes : ils représentent des données externes à l'entreprise et qui sont souvent achetées.

Magasin des données opérationnel (ODS operational data store) : c'est un mini annuaire des données opérationnelles actualisées et

[20]

intégrées aux analyses pour un département spécifique au sein de l'entreprise.

b) Les types de données de l'entrepôt de données : il existe plusieurs types de données dans un entrepôt, qui correspondent a diverses utilisations, comme :

Données de détail courantes : ce sont l'ensemble des données quotidiennes et plus couramment utilisées. Ces données sont généralement stockées sur le disque pour avoir un accès rapide. Par exemple, le détail des ventes de l'année en cours, dans les différents magasins.

Données de détail anciennes : ce sont des données quotidiennes concernant des événements passés, comme par exemple le détail des ventes des deux dernières années. Nous les utilisons pour arriver à l'analyse des tendances ou des requêtes prévisionnelles. Néanmoins ces données sont plus rarement utilisées que les précédentes, et elles sont souvent stockes sur des mémoires d'archives.

Donnes résumées ou agrégées : ce sont des données moins détaillées que les deux premières et elles permettent de réduire le volume des données a stocker. Le type de données, en fonction de leur niveau de détail, permet de les classifier commandes données légèrement ou fortement résumées.

Les métadonnées : ce sont des données essentielles pour parvenir a une exploitation efficace du contenu d'un entrepôt. Elles représentent des informations nécessaires a l'accès et l'exploitation des données dans l'entrepôt comme : la sémantique (leur signification), l'origine (leur provenance), les règles d'agrégation (leur périmètre), le stockage (leur format, par exemple : francs, euro,...) et finalement l'utilisation (par quels programmes sont-elles utilisées).

Données archives et sauvegarder : cette partie de l'entrepôt emmagasine les données détaillées résumées pour le besoins d'archivage et de sauvegarde.les données sont transférées dans des stockages d'archivage tel que des bandes magnétiques ou disques optiques.

d) outils : il existe sur le marché différents outils pour l'aide à la décision, comme les outils de fouille de données ou datamining

[21]

(pour découvrir des liens sémantiques), outils d'analyse en ligne (pour la synthèse et l'analyse des données multidimensionnelles), outils d'interrogation (pour faciliter l'accès aux données en fournissant une interface conviviale au langage de requêtes).

précédent sommaire suivant






Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy








"En amour, en art, en politique, il faut nous arranger pour que notre légèreté pèse lourd dans la balance."   Sacha Guitry