CHAPITRE 3. CONSTRUCTION D'UN SYSTÈME
D'INTÉGRATION DE DONNÉES
duire les problèmes de Mapping entre le schéma
global et les sources de données, il propose des processus d'une
manière organisée pour suivent tous les étapes de
manipulation de requête et détectent l'erreur
précisément grâce à ses fonctions qui ont
été posées.
ce chapitre consacre comme suit : Dans la première
tâche nous implémentons l'architecture de médiation selon
l'approche LAV, en utilisant les algorithmes de rapprochement sur des sources
de données des employeurs du types XML, HTML, JSON, SQL, et nous
appliquons les techniques de fusion. nous réalisons les wrappers pour
chaque source pour extraire les données, stocker, et poser des
dictionnaires de données. Dans la deuxième tâche nous
utilisons les processus d'architecture VISS accompagnés avec les
techniques de recherche d'informations pour réalisons un traitement de
requêtes efficace. L'implémentation du système
d'intégration se fait en langage de programmation JAVA sous l'IDE
d'Éclipse en Linux.
3.2 Construction de médiation selon l'approche
LAV
L'approche LAV consiste à regrouper tous les sources de
données hétérogènes dans un schéma global
homogène unifie.
Le problème général étudié
par mon travail de mémoire est le regroupement de données
prévenant de sources hétérogènes et faisant
fusionner dans un seul schéma accessible via une interface unique et
conviviale.
L'objectif de notre travail c'est réaliser un
système d'intégration de donnes qui fournir une vue globale
contient tous les différents sources des données.
Cette partie se focalise sur l'implémentation de
l'approche LAV en prend le compte de réaliser tous ses composants : le
médiateur, le wrapper; cette approche contient des
implémentations des algorithmes du technique de rapprochement ainsi de
réaliser les étapes de processus ETL (Extract, Transform, Load),
dernièrement on analyse et évalue le schéma globe
résulté, en utilisant les calculs des performances et la matrice
de confusion.
3.2.1 Préparation de sources de données
Dans ce contexte, nous proposons des sources de données
réelles d'une entreprise d'assurance des États-Unis
Américaine, ces données des employeurs sont dans des endroits
différents par les filières localisées dans les
états : Mechegan, Los Angeles, New York, Seattle.[3]
Les sources de données qu'on a utilisées, sont
hétérogènes, les notions sémantiques de ces sources
sont dispersé selon leurs endroits, nous basons sur la diversité
des formats pour qu'on sélectionne quatre sources différents,
tels que les sources sont structurées et non structurées. On a :
une source du type SQL, du type HTML, du type XML, du type JSON.
|