Intégration de sources de données hétérogènes dans les entrepôts de données

par Sara Djebrit
Université de Ghardaia - Master Systèmes Intelligents pour l’Extraction de Connaissances 2019

précédent sommaire suivant

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy

CHAPITRE 3. CONSTRUCTION D'UN SYSTÈME D'INTÉGRATION DE DONNÉES

duire les problèmes de Mapping entre le schéma global et les sources de données, il propose des processus d'une manière organisée pour suivent tous les étapes de manipulation de requête et détectent l'erreur précisément grâce à ses fonctions qui ont été posées.

ce chapitre consacre comme suit : Dans la première tâche nous implémentons l'architecture de médiation selon l'approche LAV, en utilisant les algorithmes de rapprochement sur des sources de données des employeurs du types XML, HTML, JSON, SQL, et nous appliquons les techniques de fusion. nous réalisons les wrappers pour chaque source pour extraire les données, stocker, et poser des dictionnaires de données. Dans la deuxième tâche nous utilisons les processus d'architecture VISS accompagnés avec les techniques de recherche d'informations pour réalisons un traitement de requêtes efficace. L'implémentation du système d'intégration se fait en langage de programmation JAVA sous l'IDE d'Éclipse en Linux.

3.2 Construction de médiation selon l'approche LAV

L'approche LAV consiste à regrouper tous les sources de données hétérogènes dans un schéma global homogène unifie.

Le problème général étudié par mon travail de mémoire est le regroupement de données prévenant de sources hétérogènes et faisant fusionner dans un seul schéma accessible via une interface unique et conviviale.

L'objectif de notre travail c'est réaliser un système d'intégration de donnes qui fournir une vue globale contient tous les différents sources des données.

Cette partie se focalise sur l'implémentation de l'approche LAV en prend le compte de réaliser tous ses composants : le médiateur, le wrapper; cette approche contient des implémentations des algorithmes du technique de rapprochement ainsi de réaliser les étapes de processus ETL (Extract, Transform, Load), dernièrement on analyse et évalue le schéma globe résulté, en utilisant les calculs des performances et la matrice de confusion.

3.2.1 Préparation de sources de données

Dans ce contexte, nous proposons des sources de données réelles d'une entreprise d'assurance des États-Unis Américaine, ces données des employeurs sont dans des endroits différents par les filières localisées dans les états : Mechegan, Los Angeles, New York, Seattle.[3]

Les sources de données qu'on a utilisées, sont hétérogènes, les notions sémantiques de ces sources sont dispersé selon leurs endroits, nous basons sur la diversité des formats pour qu'on sélectionne quatre sources différents, tels que les sources sont structurées et non structurées. On a : une source du type SQL, du type HTML, du type XML, du type JSON.

précédent sommaire suivant

Changeons ce systeme injuste, Soyez votre propre syndic

"Il faudrait pour le bonheur des états que les philosophes fussent roi ou que les rois fussent philosophes" Platon