WOW !! MUCH LOVE ! SO WORLD PEACE !
Fond bitcoin pour l'amélioration du site: 1memzGeKS7CB3ECNkzSn2qHwxU6NZoJ8o
  Dogecoin (tips/pourboires): DCLoo9Dd4qECqpMLurdgGnaoqbftj16Nvp


Home | Publier un mémoire | Une page au hasard

 > 

Un système d'information d'aide à  la décision pour la régulation du trafic routier

( Télécharger le fichier original )
par Mohamed el Habib Maicha
Université Amar thelidji Laghouat - Ingénieur d'etat en informatique 2011
  

précédent sommaire suivant

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy

3.1.1 Différences entre Entrepôts et bases de données

Le tableau 3.1 résume ces différences entre les systèmes de gestion de bases de données et les entrepôts de données [DG01].

Objectifs

SGBD

Gestion et production

Entrepôts de données
Consultation et analyse

Utilisateurs

Gestionnaires de production

Décideurs, analystes

Taille de la base

Plusieurs gigaoctets

Plusieurs teraoctets

Organisation des données

Par traitement

Par métier

Type de données

Données de gestion (courantes)

Données d'analyse (résumées, historisées)

Requêtes

Simples, prédéterminées, données détaillées

Complexes, spécifiques, agrégations et group by

Transactions

Courtes et nombreuses, temps réel

Longues, peu nombreuses

Tableau 3.1: Différences entre SGBD et entrepôts de données

 

18

 
 
 
 

3.1.2 Dimensions et hiérarchies

Les dimensions représentent les axes de l'analyse multidimensionnelle. Elles sont organisées en schémas hiérarchiques. Un schéma de hiérarchie, composé par plusieurs niveaux, représente différentes granularités ou degrés de précision de l'information. Un exemple de dimension peut être la dimension temporelle qui organise le temps grâce à une hiérarchie des niveaux jour, mois, années, ou encore une dimension représentant une classification de pays décrite par une hiérarchie avec les niveaux « pays » et « wilaya » (Figure 3.1a). L'instance d'une dimension est un ensemble de membres. Ces membres sont connectés par des liens hiérarchiques en accord avec le schéma hiérarchique. Nous supposons que chaque hiérarchie contient un niveau (All), avec un seul membre. Un exemple d'une instance de la hiérarchie des pays est montré en Figure 3.1b, où par exemple les wilayas « w1 » et « w2 », appartenant au «niveau1», sont liés au membre « Algérie » du «niveau2».

Chaque niveau de la dimension peut présenter des attributs [Hüsemann et al. 2000] qui ne sont pas utilisées pour la définition du schéma hiérarchique, par exemple un produit peut présenter un attribut représentant, le prix, la couleur, etc. Ces attributs peuvent être utilisés dans l'analyse multidimensionnelle.

Niveau 3

Niveau 2

Niveau 1 ...

...

Figure 3.1: Hiérarchie des produits a) Schéma b) Instance.

 

19

 
 
 
 

Entrepôt de données & Entrepôt de données Spatiales

3.1.3 Faits et mesures

Un fait est un concept relevant du processus décisionnel et, typiquement, modélise un ensemble d'événements d'une organisation. Un fait est décrit par plusieurs mesures. Les mesures représentent usuellement des valeurs numériques qui fournissent une description quantitative du fait. Un fait est associé à une ou plusieurs combinaisons de membres des dimensions. Enfin, certaines mesures peuvent être calculées à partir d'autres mesures ou propriétés de membres. Elles sont appelées mesures dérivées [Blaschka et al. 1998].

Ainsi, une analyse multidimensionnelle portant sur un fait « ventes » d'un ensemble de magasins pourra être réalisée en définissant comme mesures « le volume des produits vendus », « le montant de la vente », et la mesure dérivée « profit », et comme dimensions « le temps », « les magasins », et « les produits » vendus. La Figure 3.2a représente le schéma de cette application grâce au modèle conceptuel multidimensionnel présenté dans [Malinowski et Zimányi, 2004]. Ce modèle permet d'examiner le volume et le montant totaux des produits vendus pour chaque mois et chaque année dans chaque magasin et dans chaque ville.

Produits

Temps

jan 04

2004

fev 04

mar 04

12 5 2

28 35 8 12

200 150 120 80

Paris

Micros

...

2

Lyon

Carebim 7

50

23

200

Upim Standa

7 20

45

4 1

210

1

15

11

12 9

150

90 120

...

...

GS

25

140

...

14

5

48

...

50

67

54

400

135

468

...

« Combien de produits ont été vendus au total ? »

« Combien de produits ont été vendus en Février 2004 ? »

(a) (b)

Localisation

« Combien de Alc 54 ont été vendus par

Standa en Mars

2004 ? »

Figure 3.2 : Application multidimensionnelle a) Schéma b) Hypercube.
[Malinowski et Zimányi, 2004]

 

20

 
 
 
 

A chaque combinaison des niveaux des dimensions correspond un niveau différent de détail des mesures. Dans les niveaux moins détaillés des dimensions les mesures sont agrégées en utilisant les fonctions d'agrégations. Les fonctions classiques pour agréger les mesures sont les mêmes que les opérations SQL "COUNT", "SUM", "MIN", "MAX" et "AVG".

Il est fondamental dans un modèle multidimensionnel de contrôler que le processus d'agrégation soit correct, afin de garantir une analyse multidimensionnelle exacte. Dans les systèmes OLAP, l'opérateur d'agrégation le plus utilisé est la somme. La précision de l'agrégation dépend de la sémantique de la mesure et de la structure de l'application multidimensionnelle. Par exemple, sommer des concentrations de pollution n'a pas de sens, en revanche le maximum est significatif. Il est possible de sommer la population des villes d'un pays, mais sommer la population d'une ville dans le temps est erroné, car les mêmes habitants seront comptés plusieurs fois. Cette problématique est connue dans l'OLAP sous le nom de problème d' « additivité » [Kimball, 1996]. Une mesure est dite :

- Additive si l'on peut lui appliquer la somme sur toutes les dimensions.

- Semi-additive si la somme a du sens seulement sur certaines dimensions. - Non-additive si elle n'est sommable sur aucune dimension.

Notons que la mesure peut être prise en compte plusieurs fois dans le processus d'agrégation, peut dépendre du type de hiérarchie, par exemple lorsque le modèle présente de hiérarchies non strictes ou multiples [Horner et al. 2004]. Dans les bases de données statistiques, cette problématique est appelée « summarizability » [Lenz et Shoshani, 1997]. La « summarizability » représente la situation dans laquelle le résultat d'une agrégation pouvait être calculé en utilisant les agrégations précédentes.

Une agrégation correcte implique :

- Eviter de prendre en compte plusieurs fois la même mesure

- Respecter la sémantique de l'agrégation : il s'agit de fournir un contrôle sur le type d'agréation en prenant en compte la sémantique de la mesure.

 

21

 
 
 
 

Entrepôt de données & Entrepôt de données Spatiales

précédent sommaire suivant






Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy








"Nous voulons explorer la bonté contrée énorme où tout se tait"   Appolinaire