CHAPITRE II : LES ENTREPOTS DE DONNEES
[8], [1], [16], [5], [7]
II.1 INTRODUCTION
Les entrepôts des données intègrent les
informations en provenance de différentes sources, souvent reparties et
hétérogènes ayant pour objectif de fournir une vue globale
de l'information aux analystes et aux décideurs.
La construction et la mise en oeuvre d'un entrepôt de
données représentent une tache complexe qui se compose de
plusieurs étapes.
La première à l'analyse des sources de
données et à l'identification des besoins des
utilisateurs, la deuxième correspond à l'organisation des
données à l'intérieur de l'entrepôt. Finalement, la
troisième sert à établir divers outils d'interrogation,
analyse, de fouille de données.
Chaque étape présente
des problématiques spécifiques. Ainsi, par exemple, lors de la
première étape, la difficulté principale consiste en
l'intégration des données, de manière a qu'elles soient de
qualité pour leur stockage .pour l'organisation, il existe plusieurs
problèmes comme : la sélection des vues a matérialiser, le
rafraichissement de l'entrepôt, la gestion de l'ensemble de
données courantes et historisées.
En ce qui concerne le processus d'interrogation, nous avons
besoin des outils performants et conviviaux pour l'accès et l'analyse de
l'information.
Notre travail se focalise principalement
sur une étape du processus décisionnel, avec une
proposition de la définition d'un modèle multidimensionnel, pour
boucle par une conclusion.
[18]
II.2.1 DEFINITION CLASSIQUE D'UN ENTREPOT DES DONNEES
(5J , (7J
Un entrepôt de données est une collection de
données orientées sujet, intégrées, non volatiles
et historisées, organisées pour le support d'un processus d'aide
a la décision. Nous détaillons ces caractéristiques
Orientées sujet : les données
des entrepôts sont organises par sujet plutôt que par application :
par exemple, une chaine de magasins d'alimentation organise les données
de son entrepôt par rapport aux ventes qui ont été
réalisées par produit et par magasin, au cours d'un certain
temps.
Intégrées : les données
provenant des différentes sources doivent être
intégrées, avant leur stockage dans l'entrepôt de
données. L'intégration c'est à dire la mise en
correspondance des formats, permet d'avoir une cohérence de
l'information.
Non volatiles : a la différence des
données opérationnelles, celles de l'entrepôt sont
permanentes et ne peuvent pas être modifiées .le rafraichissement
de l'entrepôt consiste à ajouter de nouvelles données, sans
modifier ou perdre celles qui existent. historisées :la
prise en compte de l'évolution des données est essentielle pour
la prise de décision qui, par exemple, utilise des techniques de
prédication en s'appuyant sur les évolutions passées pour
prévoir les évolutions futures.
II.2.2 ARCHITECTURE D'UN ENTREPOT DE DONNEES (5J
L'architecture des entrepôts de données repose
souvent sur un SGBD séparé du système de production de
l'entreprise qui contient les données de l'entrepôt.
Le processus d'extraction des données permet
d'alimenter périodiquement ce SGBD. Néanmoins avant
d'exécuter ce processus, une phase de transformation est
appliquée aux données opérationnelles.
Celle-ci consiste à les préparer (mise en
correspondance des formats de données), les nettoyer, les filtrer,...,
pour finalement aboutir a leur stockage dans l'entrepôt.
[19]
Dans cette figure II.1, nous présentons une
architecture simplifiée d'un entrepôt selon Doucet et Gangarski.
Les différents composants ont été intègres dans
trois parties : les sources de données, l'entrepôt et les outils
existants dans le marche.
Données de production (SGBD ,ODS, système
légués)
O U T I L S
Données externes
E T
L
Données légèrement résumées
Données fortement résumées
Entrepôt de données
Données anciennes Archivées
Données de détail
Métadonnées
FIG II. 1:Architecture d'un entrepôt de données
a) les sources : les données de l'entrepôt sont
extraites de diverses sources souvent reparties et
hétérogènes, et qui doivent être transformées
avant leur stockage dans l'entrepôt.
Nous avons deux types de sources des donnes : internes et
externes a l'organisation :
Internes : la plupart des données sont saisies
à partir des différents systèmes de production qui
rassemblent les divers SGBD opérationnels, ainsi que des anciens
systèmes de production qui contiennent des données encore
exploitées par l'entreprise.
Externes : ils représentent des données
externes à l'entreprise et qui sont souvent achetées.
Magasin des données opérationnel (ODS
operational data store) : c'est un mini annuaire des données
opérationnelles actualisées et
[20]
intégrées aux analyses pour un
département spécifique au sein de l'entreprise.
b) Les types de données de l'entrepôt de
données : il existe plusieurs types de données dans un
entrepôt, qui correspondent a diverses utilisations, comme :
Données de détail courantes : ce sont
l'ensemble des données quotidiennes et plus couramment utilisées.
Ces données sont généralement stockées sur le
disque pour avoir un accès rapide. Par exemple, le détail des
ventes de l'année en cours, dans les différents magasins.
Données de détail anciennes : ce sont
des données quotidiennes concernant des événements
passés, comme par exemple le détail des ventes des deux
dernières années. Nous les utilisons pour arriver à
l'analyse des tendances ou des requêtes prévisionnelles.
Néanmoins ces données sont plus rarement utilisées que les
précédentes, et elles sont souvent stockes sur des
mémoires d'archives.
Donnes résumées ou agrégées :
ce sont des données moins détaillées que les deux
premières et elles permettent de réduire le volume des
données a stocker. Le type de données, en fonction de leur niveau
de détail, permet de les classifier commandes données
légèrement ou fortement résumées.
Les métadonnées : ce sont des
données essentielles pour parvenir a une exploitation efficace du
contenu d'un entrepôt. Elles représentent des informations
nécessaires a l'accès et l'exploitation des données dans
l'entrepôt comme : la sémantique (leur signification), l'origine
(leur provenance), les règles d'agrégation (leur
périmètre), le stockage (leur format, par exemple : francs,
euro,...) et finalement l'utilisation (par quels programmes sont-elles
utilisées).
Données archives et sauvegarder : cette partie
de l'entrepôt emmagasine les données détaillées
résumées pour le besoins d'archivage et de sauvegarde.les
données sont transférées dans des stockages d'archivage
tel que des bandes magnétiques ou disques optiques.
d) outils : il existe sur le marché différents
outils pour l'aide à la décision, comme les outils de fouille de
données ou datamining
[21]
(pour découvrir des liens sémantiques), outils
d'analyse en ligne (pour la synthèse et l'analyse des données
multidimensionnelles), outils d'interrogation (pour faciliter l'accès
aux données en fournissant une interface conviviale au langage de
requêtes).
|