CHAPITRE 3. CONSTRUCTION D'UN SYSTÈME
D'INTÉGRATION DE DONNÉES
d'intégration selon l'approche LAV qui permet de
réaliser des fonctions pour regrouper les sources de données
hétérogènes dans l'aspect sémantique, telque nous
réalisons la structure médiation par trois fonctions de processus
ETL, chaque fonction représente un processus d'une structure incluse
dans cette médiation, la première structure c'est le wrapper
celui qui fait l'extraction des données selon les sources que nous
choisissons, dans ce contexte nous réalisons quatre wrappers depuis les
sources que nous les sélectionnons nous avons ces quatre wrappers :
Xwrapper, Hwrapper; Jwrapper, Swrapper pour nos sources de données
suivantes : XML, HTML, JSON, SQL. une autre structure c'est le médiateur
qui permet de transformer les données depuis des sources
hétérogènes via un schéma XML global telque il
collecte toutes les données de ces sources, nous implémentons le
médiateur par réaliser l'algorithme de fusion qui utilise
l'algorithme de rapprochement : Wrinkler-Jaro ainsi nous utilisons un
dictionnaire de donnés dans le but de trouver les attributs de
données qui sont synonymes. Par ailleurs nous implémentons un
moteur de recherche a l'aide d'architecture VISS et les techniques de recherche
d'information dans le but d'interroger le schéma global XML et obtient
les informations pertinentes.
55
Dans le domaine d'intégration des sources des
données hétérogènes, il existe plusieurs
méthodes de l'intelligence artificielle pour valider un système
complet et il vérifie les concepts d'une bonne combinaison de ces
sources.
les projets qui valident des systèmes
d'intégration des sources de données étudient deux majors
problématiques
~ proposer une tâche d'intégration de
données hétérogènes via un schéma
global unique ,
~ proposer une approche d'interroguation des requêtes en
accédant vers le schéma global. Dans ce mémoire on a
introduit les conceptions d'intégration de sources de données
hétérogènes auxquelles on a les utilise pour
réaliser une tâche d'intégration, qui est : les sources de
données hétérogènes en détaillant sur les
aspects d'hétérogénéité : aspect
sémantique et l'aspect structurel, les wrappers, le médiateur,
l'entrepôt de données, les types de mappings : GAV, LAV, BGLAV.
Ensuite, on a prévenu les fonctions principales de
traitement de requêtes qui sont : le répondeur de requête et
la réécriture des requêtes dont le but d'optimiser le
contexte de requête et faciliter d'obtenir l'information pertinente.
nous avons implémenté un médiation selon
l'approche LAV, sur quatre sources de données
hétérogènes qui ayant des formats différentes :
XML, HTML, JSON, SQL. Ce médiation réalisé par
l'implémentation des quatre wrappers et un médiateur, parmi les
algorithmes de rapprochement que nous avons implémenté, nous
trouvons Wrinkler-Jarro et LCS acompagné avec le
dictionnaire de données que nous avons le validé selon
l'ontologie de source de données et WORDNET dont le but de
programmer un algorithme qui fusionner entre les sources de données en
basant sur la mesure de similarité. Enfin, nous avons
implénenté un moteur de recherche à l'aide de
l'architecture VISS supporté par les techniques de recherche
d'informations, pour interroger le schéma global xml.
56
|