CHAPITRE 3. CONSTRUCTION D'UN SYSTÈME
D'INTÉGRATION DE DONNÉES
Algorithm 7 Algorithme de fusion
wrappers = Xwrapper, Jwrapper, Hwrapper, Swrapper
distance ? un réel.
attribut_G ? une chaîne de
caractère pour poser la chaîne de caractère résultat
de comparaison.
Noeuds ? les listes des attributs pour créer un XML
fichier. valeur_G ? les valeurs
d'attribut_G.
éléments ? contient valeur_Global
référencer par Ntuds.
w ? 0
while wrapper[w] < le nombre de wrappers
do
for i ? 0 (le nombre de attributs
de wrappers[w] ou wrappers[w + 1]) do
distance ? Wrinkler - Jarro(attribut de
wrapper[w], attribut de wrapper[w + 1]) if
distance>80.70 and max(distance) then
attribut_G ? LCS(attribut de
wrapper[w],attribut de wrapper[w + 1]); valeur_G?attribut de
wrapper[w] · valeurs ? attribut de wrapper[w + 1]
·
valeurs; end if
else
synonymes1 ? dictionnaire· (attribut
de wrapper[w]);
synonymes2 ? dictionnaire· (attribut
de wrapper[w + 1]);
if synonymes1==synonymes2
then
attribut_G ?attribut de wrapper[w];
valeur_G ?attribut de wrapper[w] · valeurs
?attribut de wrapper[w + 1]·
valeurs; end if
|
else attribut
|
G?attributidewrapper[w];
|
attribut_G ?attribut dewrapper[w +
1];
valeur_G ?attributidewrapper[w] ·
valeurs;
valeur_G ?attributidewrapper[w + 1]
· valeurs; end else end else
end For
end While
Noeuds ? attribut_G;
elements ? valeur_G;
Création XML fichier Global selon les noms de liste
noeuds c'est Noeuds, et les valeurs contenant dans ces Noeuds
c'est éléments.
42
CHAPITRE 3. CONSTRUCTION D'UN SYSTÈME
D'INTÉGRATION DE DONNÉES
L'exécution d'algorithme de médiateur donne un
schéma global qui représente par un XML fichier contient tous les
valeurs et les informations avec les attributs nouveaux résultats par le
rapprochement entre deux attributs.
FIGURE 3.5 - Une partie de fichier global en
XML
La médiation LAV se focalise de réaliser un
ensemble de processus qui permet de poser les étapes dans le but de
traiter les données par implémenter un wrapper pour chaque source
de données.
Ces précidentes étapes évaluent par
utiliser le processus d'ETL(Extract, Transform, Load) qui permet se contient un
ensemble de processus pour intégrer des sources de données
hétérogènes de différents formats et de
différentes sémantiques.
dans cette partie nous réalisons une médiation
LAV par implémenter des algorithmes concernés par le processus
ETL tel que: nous avons quatre sources de données : XML fichier, HTML
fichier, JSON fichier, SQL fichier.
Nous créons quatre wrappers pour chaque source de
données, chaque wrapper stocker les données extraites depuis un
source de données.
Pour valider un médiateur nous utilisons les
algorithmes de rapprochement Jarro-Wrinkler et LCS et le dictionnaire de
données construit a l'aide de WordNet pour ayant les synonymes avec les
attributs de notre source de données.
L'implémentation de wrappers et de médiateur
résulte un schéma global représenté par un XML
fichier qui contient tous les données extraites depuis les sources
référencées par les attributs nouveaux qui
disposées par les algorithmes de rapprochement.
43
|