2.4 Les Composantes d'un Entrepôt de Données
2.4.1 Objectifs d'un
entrepôt de données
Avant de se plonger dans les détails de composantes
constituant un entrepôt de données. Il convient de s'interroger
sur les objectifs fondamentaux de l'entrepôt de données.
L'atout principal d'une entreprise réside dans la
quantité et qualité d'informations qu'elle possède. Ralph
Kimball, l'un des de précurseur du data warehouse, nous parlent des
objectifs fondamentaux d'un data warehouse, il s'agit de:
Ø Rendre accessibles les informations de
l'entreprise
Le contenu de l'entrepôt doit être
compréhensible et l'utilisateur doit pouvoir y naviguer facilement et
avec rapidité. Ces exigences n'ont ni frontières, ni limites.
Ø Rendre cohérente l'information de
l'entreprise
Les informations provenant d'une branche de l'entreprise
peuvent être mises en corrélation avec celles d'une autre branche.
Si deux unités de mesure portent le même nom, elles doivent alors
signifier la même chose. A I' inverse, deux unités ne signifiant
pas la même chose doivent être définies
différemment.Une information cohérente suppose une information de
grande qualité. Cela veut dire que l'Information est prise en compte et
qu'elle est complète.
Ø Constituer une source d'information souple et
adaptable
L'entrepôt de données est conçu dans la
perspective de modifications perpétuelles. L'arrivée de questions
nouvelles ne doit bouleverser ni les données existantes ni les
technologies.
Ø Représenter un bastion sécurisé
qui protège la valeur de l'information
L'entrepôt de données ne contrôle pas
seulement l'accès aux données, mais il offre à ses
gestionnaires une bonne visibilité des Utilisateurs.
Ø Constituer la base décisionnelle de
l'entreprise
L'entrepôt de données recèle en son sein
les Informations propres à faciliter la prise de décisions. Il
n'y a qu'un seul véritable résultat concret à attendre du
data warehouse : les décisions prises grâce aux données
obtenues.
2.4.2
Composantes
Il est d'une importance primordiale de bien comprendre
séparément les éléments constituant l'environnement
d'un entrepôt de données avant de penser les réunir pour
constituer un entrepôt de données. Toute confusion entre ces
différents éléments peut engendrer un échec certain
de l'ensemble.
L'environnement de l'entrepôt de données comporte
quatre parties différentes :
Ø Les applications opérationnelles
sources ;
Ø La préparation des données ;
Ø La présentation des données ;
Ø les outils d'accès aux données.
2.4.2.1 Les applications opérationnelles
sources
La fonction principale des applications opérationnelles
sources est de permettre les captures des transactions au sein de l'entreprise.
Les principales priorités de ces applications sources sont la
performance des traitements et la disponibilité. Nous devons les
considérer comme extérieur à l'entrepôt de
données, car nous n'avons vraisemblablement guère ou pas du tout
de moyens d'influencer le contenu ou le format des données qu'ils
traitent.
Ce sont les différentes origines d'informations de
divers formats, structurées et non structurées. Il peut s'agir de
base de données, de fichiers plats,...Les sources de données sont
nombreuses, variées, distribuées et autonomes.
2.4.2.2 La préparation des données
C'est ensemble de processus permettant la formalisation de
données en vue de leur intégration puis de leur exploitation au
sein du data warehouse. La préparation inclut tout ce qu'il y a entre
les applications opérationnelles source et la présentation des
données.
En résumé c'est une zone ou le processus de
nettoyage, transformation, combinaison, archivage, suppression des doublons
s'effectue avant leur intégration dans l'entrepôt de
données à l'aide des outils ETL que nous présentons au
point 2.6.
2.4.2.3 La présentation des données
Cette zone de présentation de données est
l'emplacement ou les données sont organisées, stockées et
ouvert aux requêtes des utilisateurs, aux logiciels de reporting. La zone
de présentation est l'entrepôt de données, tel qu'il est
perçu par les utilisateurs.
Il est à noter que la majorité d'entrepôt
de données sont implémentés sur des bases de
données relationnelles, ce qui explique le pourquoi, de
l'omniprésence de principe des bases de données relationnelles.
2.4.2.4 Terminologie
Data mart
Sous-ensemble logique d'un data warehouse. Au-delà de
cette définition relativement simple, on considère souvent le
data mart comme la réduction de l'entrepôt de données
à un seul processus ou à un groupe de processus ciblant un groupe
métier spécifique.
OLAP (Online
AnalyticProcessing)
Activité global de requêtage et de
présentation de données textuelles et numériques contenues
dans l'entrepôt de données ; style d'interrogation et de
présentation spécifiquement dimensionnel. La technologie OLAP est
non relationnelle et presque toujours basée sur un cube de
données multidimensionnelles explicites. Les bases de données
OLAP sont également connues sous le terme de bases de données
multidimensionnelles.
ROLAP (relational
OLAP)
Ensemble d'interfaces utilisateur et d'applications qui
donnent une vision dimensionnelle des bases de données
relationnelles.
MOLAP (Multidimensional
OLAP)
Ensemble d'interfaces utilisateur, d'applications et de
technologies de base de données propriétaires dont l'aspect
dimensionnel est prépondérant.
2.4.2.5 Les outils d'accès aux
données
C'est un ensemble de moyens fournis aux utilisateurs pour
exploiter la zone de présentation en vue de prendre des décisions
basées sur des analyses.
Il est constitué :
Ø D'un outil d'accès aux
données ;
Ø D'un tableur ;
Ø D'un logiciel graphique ;
Ø D'un service d'interface utilisateur.
Systèmes sources
Systèmes opérationnls
ZONE DE PREPARATION DES DONNEES
SERVEURS DE PRESENTATION DU DATA WAREHOUSE
Figure 5 : Composants de base d'un data
warehouse
Stockage
Fichiers plats, SGBDR, Autres.
Traitement
Nettoyage, Transformation, Combinaison, Suppression des doublons,
Purge, Standardisation, Mise en conformité des dimensions.
Stockage temporaire.
(Attente de réplication) Archivage, Exportation vers les
data marts.
Pas de service de requêtage utilisateur
DATA MART N°1
Services de requêtage OLAP (ROLAP et/ou MOLAP)
Dimensionnel
Orienté sujet Implanté localement
Dédié à un groupe d'utilisateurs
Peut stocker des données atomiques Peut être
rafraichi régulièrement Conforme au bus du data warehouse
DATA MART N°2
DATA MART N°3
Outils de requêtage ad hoc
Générateurs d'états
Application utilisateur
Application de modélisation
Prévisions Scoring
Affectation budgétaire
Data miningAutres systèmes à flux descendants
Autres paramètres
Interfaces utilisateurs spécifique
Extraire
Peupler
Répliqur
Récupér
Extraire
Extraire
Alimenter
Alimenter
Alimenter
Alimenter
Peupler
Répliquer
Récupérer
Peupler
Répliquer
Récupérer
Bus décisionnel
Bus décisionnel
Dimensions conformes
Faits conformes
Dimensions conformes
Faits conformes
PORTAIL DE RESTITUTION
Chargement des résultats du modèle
Chargement des dimensions nettoyées
2.4.3 Architecture d'un
entrepôt de données
2.4.3.1 Approche théorique
Dans ce domaine d'entrepôt de données deux
auteurs ont défini deux philosophies sur le plan architectural
différente, il s'agit de : Bill Inmon et Ralph Kimball. Deux
philosophies tout à fait différentes mais qui convergent bien.
Ø L'architecture de haut en bas: selon Bill Inmon,
l'entrepôt de données est une base de données au niveau
détail, consistant en un référentiel global et
centralisé de l'entreprise. En cela, il se distingue du DataMart, qui
regroupe, agrège et cible fonctionnellement les données.
Ø L'architecture de bas en haut: Pour Ralph Kimball,
l'entrepôt de données est constitué peu à peu par
les Data Mart de l'entreprise, regroupant ainsi différents niveaux
d'agrégation et d'historisation de données au sein d'une
même base.
Approche de Bill Inmon
251599872
Figure 6Approche architecturale de Bill Inmon
Approche de Ralph Kimball
251600896
Figure 7 Approche architecturale de Ralph Kimball
|
Ralph Kimball
|
Bill Inmon
|
Processus
|
Bottom-Up
|
Top-Down
|
Organisation
|
Data Mart
|
Data Warehouse
|
schématisation
|
Etoile
|
Flocon
|
Tableau 1 Tableau comparatif de deux philosophies
actuelles
L'architecture d'un ED, représentée dans la
figure 1, s'articule autour de trois phases : l'intégration, la
restructuration, et l'exploitation.
2.4.3.2 Approche pratique
L'architecture d'un entrepôt de données,
représentée dans la figure 7, s'articule autour de trois phases :
l'intégration, la restructuration, et l'exploitation
251601920
Figure 8 Architecture d'un entrepôt de
données
Intégration
Cette première étape, est assez délicate,
car elle consiste à extraire et regrouper les données, provenant
de sources multiples, et hétérogènes. Un certain nombre de
problèmes est à résoudre à ce niveau : les
données doivent être filtrées, triées,
homogénéisées et nettoyées.
Structuration
Cette étape consiste à réorganiser les
données, dans des magasins afin de supporter efficacement les processus
d'analyse et d'interrogation, et d'offrir aux différents utilisateurs,
des vues appropriées à leurs besoins.
Interrogation et Analyse
L'exploitation de l'entrepôt, pour l'aide à la
décision peut se faire de différentes façons, dont :
Ø l'interrogation à travers un langage de
requêtes,
Ø La connexion à des composants de report, pour
des représentations graphiques et tabulaires,
Ø L'utilisation des techniques OLAP
(OnLineAnalyticalProcess ),
Ø L'utilisation des techniques de fouille de
données (Data Mining).
|