Mise en place d'un data warehouse et d'une application de webmapping pour la gestion du réseau routier. Cas de la république démocratique du Congo.( Télécharger le fichier original )par HENRYS KASEREKA BIRAMBOVOTE Université de Kinshasa - Licence 2012 |
2.6 Les outils de chargement2.6.1 Le concept ETL (Extract-Transform-Load) Extract-Transform-Load est connu sous le terme ETL. Il s'agit d'une technologie informatique intergicielle ( logiciel tiers qui crée un réseau d'échange d'informations entre différentes applications informatiques) permettant d'effectuer des synchronisations massives d'information d'une base de données vers une autre. Selon le contexte, on est amené à exploiter différentes fonctions, souvent combinées entre elles : « extraction », « transformation », « constitution » ou « conversion », « alimentation ». Elle repose sur des connecteurs servant à exporter ou importer les données dans les applications (ex : connecteur Oracle ou SAP...), des transformateurs qui manipulent les données(agrégations, filtres, conversions...), et des mises en correspondance (mappages). L'objectif est l'intégration ou la réexploitation de données d'un réservoir source dans un réservoir cible. À l'origine, les solutions d'ETL sont apparues pour le chargement régulier de données agrégées dans les entrepôts de données (ou datawarehouse), avant de se diversifier vers les autres domaines logiciels. Ces solutions sont largement utilisées dans le monde bancaire et financier, ainsi que dans l'industrie, au vu de la multiplication des nombreuses interfaces. Des technologies complémentaires sont apparues par la suite : l' Intégration d'applications d'entreprise (EAI), puis l' ESB (Enterprise Service Bus). 2.6.2 Les qualités d'un bon ETL Les qualités qui caractérisent un bon ETL sont: Ø Qu'il accélère le travail de développement des flux de données : Permet le découpage d'un flux d'alimentation en une multitude de petites tâches de transformation de données distinctes et ordonnancées. L'amélioration de la productivité vient du fait qu'il est plus facile de traiter une multitude de problèmes très simples, plutôt que de traiter un grand problème très compliqué. Ø Qu'il offre une vision claire et maintenable des flux réalisés : Les règles de transformation pouvant être parfois très compliquées, il est important qu'elles puissent être représentées simplement afin que n'importe quel informaticien, disposant d'une formation ETL, puisse lire et comprendre le déroulement d'un flux de données. Ø Qu'il puisse se connecter et travailler avec de nombreuses sources hétérogènes: Le propre d'un ETL est d'être ouvert et pouvoir disposer d'une certaine universalité de connexion. Ø Qu'il soit performant : Un ETL dispose souvent de fenêtres de traitement très courtes pour se connecter à un système source et pour charger l'entrepôt de données. Il faut alors que l'outil traite de très gros volumes, très rapidement. Le secret de la performance des outils d'ETL réside généralement dans leur capacité à travailler et faire les transformations sur les données en mémoire vive. Ø Qu'il dispose de nombreuses fonctionnalités de transformation de données : En ce qui concerne la lettre T de ETL, proposer de nombreuses tâches de transformation : calcul, contrôle, mise en cohérence des données, conversion, pivotement, union, jointure, nettoyage, regroupement, échantillonnage... Ø Qu'il puisse se déployer facilement : Tout se passe au sein de fichiers de configuration qui peuvent être de natures diverses (XML, base de données...). Les flux se lancent et se planifient, soit par le biais de l'agent SQL, soit par le biais d'une ligne de commande exécutable, si vous disposez de votre propre ordonnanceur d'entreprise. 2.6.3 Les catégories d'outil ETL Actuellement il existe trois catégories d'outils ETL : Ø Engine-based : les transformations sont exécutées sur un serveur ETL, disposant en général d'un référentiel. Ce genre d'outilsdisposent d'un moteur de transformation ; Ø Database-embedded : les transformations sont intégrées dans la BD ; Ø Code-generators : les transformations sont conçues et un code est généré. Ce code est déployablé indépendamment de la base de données
2.6.4 Architecture d'un outil ETL
Figure 11 Exemple d'architecture d'un outil ETL moderne Extraction Les données appropriées sont obtenues à partir des sources dans la phase d'extraction. On peut employer l'extraction statique quand un entrepôt de données a besoin d'être chargé pour la première fois. Conceptuellement parlant, ceci ressemble à un chargement instantané des données opérationnelles. L'extraction par accroissement, employée pour mettre à jour des entrepôts de données régulièrement, saisit les changements appliqués aux données de base depuis la dernière extraction. L'extraction par accroissement est souvent basée sur la notation maintenue par le système de gestion de bases de données opérationnel. Transformation A chaque table de la base décisionnelle correspond une table tampon qui contient : Ø Les colonnes de la table de dimension ou de faits correspondantes. Ø Les clés naturelles et les clés de substitution. Ø Une colonne Valide de type oui ou non qui dira si le membre existe déjà ou non. Chargement Comme les données sont chargées dans la base décisionnelle qui est muni d'un schéma relationnel, il faut charger ses tables dans cet ordre : Ø D'abord les tables qui ne contiennent aucune clé étrangère. Ø Ensuite les tables qui ne contiennent que des clés étrangères vers des tables déjà chargées. Ø Ensuite, pour chaque table, le chargement se décompose en deux requêtes: · Une pour les nouveaux membres ou faits. · Et un pour les membres ou faits modifiés. |
|