3.1.1 Différences entre Entrepôts et bases
de données
Le tableau 3.1 résume ces différences entre les
systèmes de gestion de bases de données et les entrepôts de
données [DG01].
Objectifs
|
SGBD
Gestion et production
|
Entrepôts de données Consultation et analyse
|
Utilisateurs
|
Gestionnaires de production
|
Décideurs, analystes
|
Taille de la base
|
Plusieurs gigaoctets
|
Plusieurs teraoctets
|
Organisation des données
|
Par traitement
|
Par métier
|
Type de données
|
Données de gestion (courantes)
|
Données d'analyse (résumées,
historisées)
|
Requêtes
|
Simples, prédéterminées, données
détaillées
|
Complexes, spécifiques, agrégations et group
by
|
Transactions
|
Courtes et nombreuses, temps réel
|
Longues, peu nombreuses
|
Tableau 3.1: Différences
entre SGBD et entrepôts de données
3.1.2 Dimensions et hiérarchies
Les dimensions représentent les axes de l'analyse
multidimensionnelle. Elles sont organisées en schémas
hiérarchiques. Un schéma de hiérarchie, composé par
plusieurs niveaux, représente différentes granularités ou
degrés de précision de l'information. Un exemple de dimension
peut être la dimension temporelle qui organise le temps grâce
à une hiérarchie des niveaux jour, mois, années, ou encore
une dimension représentant une classification de pays décrite par
une hiérarchie avec les niveaux « pays » et « wilaya
» (Figure 3.1a). L'instance d'une dimension est un ensemble de
membres. Ces membres sont connectés par des liens hiérarchiques
en accord avec le schéma hiérarchique. Nous supposons que chaque
hiérarchie contient un niveau (All), avec un seul membre. Un exemple
d'une instance de la hiérarchie des pays est montré en Figure
3.1b, où par exemple les wilayas « w1 » et « w2
», appartenant au «niveau1», sont liés au membre «
Algérie » du «niveau2».
Chaque niveau de la dimension peut présenter des
attributs [Hüsemann et al. 2000] qui ne sont pas utilisées pour la
définition du schéma hiérarchique, par exemple un produit
peut présenter un attribut représentant, le prix, la couleur,
etc. Ces attributs peuvent être utilisés dans l'analyse
multidimensionnelle.
Niveau 3
Niveau 2
Niveau 1 ...
...
Figure 3.1: Hiérarchie des
produits a) Schéma b) Instance.
Entrepôt de données & Entrepôt
de données Spatiales
3.1.3 Faits et mesures
Un fait est un concept relevant du processus
décisionnel et, typiquement, modélise un ensemble
d'événements d'une organisation. Un fait est décrit par
plusieurs mesures. Les mesures représentent usuellement des valeurs
numériques qui fournissent une description quantitative du fait. Un fait
est associé à une ou plusieurs combinaisons de membres des
dimensions. Enfin, certaines mesures peuvent être calculées
à partir d'autres mesures ou propriétés de membres. Elles
sont appelées mesures dérivées [Blaschka et al. 1998].
Ainsi, une analyse multidimensionnelle portant sur un fait
« ventes » d'un ensemble de magasins pourra être
réalisée en définissant comme mesures « le volume des
produits vendus », « le montant de la vente », et la mesure
dérivée « profit », et comme dimensions « le temps
», « les magasins », et « les produits » vendus. La
Figure 3.2a représente le schéma de cette application
grâce au modèle conceptuel multidimensionnel
présenté dans [Malinowski et Zimányi, 2004]. Ce
modèle permet d'examiner le volume et le montant totaux des produits
vendus pour chaque mois et chaque année dans chaque magasin et dans
chaque ville.
Produits
Temps
jan 04
2004
fev 04
mar 04
12 5 2
28 35 8 12
200 150 120 80
Paris
Micros
...
2
Lyon
Carebim 7
50
23
200
Upim Standa
7 20
45
4 1
210
1
15
11
12 9
150
90 120
...
...
GS
25
140
...
14
5
48
...
50
67
54
400
135
468
...
« Combien de produits ont été vendus au
total ? »
« Combien de produits ont été vendus en
Février 2004 ? »
(a) (b)
Localisation
« Combien de Alc 54 ont été
vendus par
Standa en Mars
2004 ? »
Figure 3.2 : Application
multidimensionnelle a) Schéma b) Hypercube. [Malinowski et
Zimányi, 2004]
A chaque combinaison des niveaux des dimensions correspond un
niveau différent de détail des mesures. Dans les niveaux moins
détaillés des dimensions les mesures sont agrégées
en utilisant les fonctions d'agrégations. Les fonctions classiques pour
agréger les mesures sont les mêmes que les opérations SQL
"COUNT", "SUM", "MIN", "MAX" et "AVG".
Il est fondamental dans un modèle multidimensionnel de
contrôler que le processus d'agrégation soit correct, afin de
garantir une analyse multidimensionnelle exacte. Dans les systèmes OLAP,
l'opérateur d'agrégation le plus utilisé est la somme. La
précision de l'agrégation dépend de la sémantique
de la mesure et de la structure de l'application multidimensionnelle. Par
exemple, sommer des concentrations de pollution n'a pas de sens, en revanche le
maximum est significatif. Il est possible de sommer la population des villes
d'un pays, mais sommer la population d'une ville dans le temps est
erroné, car les mêmes habitants seront comptés plusieurs
fois. Cette problématique est connue dans l'OLAP sous le nom de
problème d' « additivité » [Kimball, 1996]. Une mesure
est dite :
- Additive si l'on peut lui appliquer la somme sur toutes les
dimensions.
- Semi-additive si la somme a du sens seulement sur certaines
dimensions. - Non-additive si elle n'est sommable sur aucune dimension.
Notons que la mesure peut être prise en compte plusieurs
fois dans le processus d'agrégation, peut dépendre du type de
hiérarchie, par exemple lorsque le modèle présente de
hiérarchies non strictes ou multiples [Horner et al. 2004]. Dans les
bases de données statistiques, cette problématique est
appelée « summarizability » [Lenz et Shoshani, 1997]. La
« summarizability » représente la situation dans laquelle le
résultat d'une agrégation pouvait être calculé en
utilisant les agrégations précédentes.
Une agrégation correcte implique :
- Eviter de prendre en compte plusieurs fois la même
mesure
- Respecter la sémantique de l'agrégation : il
s'agit de fournir un contrôle sur le type d'agréation en prenant
en compte la sémantique de la mesure.
Entrepôt de données & Entrepôt
de données Spatiales
|