2.3.2. La phase d'alimentation
Elle se compose des zones de sources de données et
d'extraction, de transformation et de chargement des données.
? La zone des sources de données :
L'entrepôt de données est composé de
différentes tables qu'il va falloir remplir avec des données
provenant souvent de sources diverses et hétérogènes.
C'est ainsi que dans une organisation ou entreprise, les
informations peuvent être stockées sous différentes formes
: soit dans une base de données, dans un fichier, dans un tableau,
etc.
Il existe donc plusieurs sources de données pour alimenter
un entrepôt de données. Les sources de données peuvent
être constituées des différentes bases de données
(MYSQL, Oracle, Access ...), des fichiers Excel, des fichiers textes, pages
web, etc.
? La zone d'extraction, de transformation et de chargement des
données (ETL ou Extract Transform and Load)
Pour alimenter l'entrepôt de données, on utilise
un ETL. Cet outil peut être conçu manuellement. Il peut aussi
s'agir de logiciels propriétaires ou open source (code source ouvert et
sans licence) conçus spécialement à cet effet.
Il extrait les données à partir de leur source,
procède aux transformations nécessaires et effectue le chargement
de celles-ci dans l'entrepôt de données. Ainsi il permet de
manière cohérente d'agréger, de classifier, de normaliser,
de qualifier, de nettoyer et de consolider les données extraites.
|