Abstract
Many of applications realize with data intégration
methods including the information of companies manager, medicals data domains,
Geo-graphical informations systems and E-Commerce application.
Data integration system provide technics to manipulate
transparently data source with efficient way.
there are few of tryings to get perfect global format with
data intégration system which base into dozens of data sources for
extract the information in height quality and satisfy the knowledge need. The
aim of this research is to study the problem of combining heterogeneous data
sources wish its différent in semantic content and it's not in the same
places, so we realize dataintégration systems by merge a few of data
sources have a différent formats and structures into one global format,
and try to treated the queries that extract informations from this format to
agent interface.
The subject of this report will be a previous study followed
by an implementation of mediator by local as view approach, and use the ETL
processes , the query treatment on the global format is about extract the
information and optimize queries effects in this case we unplug the VISS
architecture with the technicals of informations retrieval,we compute the
accuracy of used algorithms in our aim and we find as general value 70% wish
present the validation and efficient case in proposed methods.
Key Words:
data intégration, data intégration system,
mediator, ELT(EXtract,Transform,Load), LAV(Local As View), rapprochement
algorithm, data warehouse.
vi
Liste des figures ix
Listes de tables x
Introduction 2
1 Intégration de données 3
1.1 Introduction 3
1.2 Intégration de données 4
1.3 Hétérogénéité des
données 5
1.4 Entrepôt de données 5
1.5 Médiation 6
1.6 Mapping (Correspondance) 7
1.6.1 Types de mappings 7
1.7 Traitement des requêtes dans l'intégration de
données 8
1.7.1 Préliminaire 8
1.7.2 Répondeur de requête(Query Answering) 9
1.7.3 Réécriture de requêtes 9
1.8 Exemples de projets d'intégration de données
10
1.8.1 Le projet TSIMMIS 10
1.8.2 Le système MOMIS (Mediator Environnement for
Multiple Information Sources) 11
1.8.3 Le système HERMES 12
1.8.4 Information manifold 12
1.8.5 Infomaster 13
vii
1.9 Conclusion 14
2 Etat de l'art d'intégration de données
15
2.1 Introduction 15
2.2 Grille informatique :Rapprochement de données 16
2.2.1 Techniques de comparaison 16
2.2.2 Méthodes évoluées de comparaisons de
chaînes de caractères 16
2.2.3 Expérimentation sur données 17
2.3 Système d'intégration de BDBOs(Base de
Données de Base Ontologiques) 18
2.3.1 Scénarii d'intégration de données
19
2.4 Validation d'architecture VISS
(Virtual Integration Support System) 23
2.4.1 Architecture VISS 23
2.4.2 Implémentation de VISS 25
2.5 Conclusion 27
3 Construction d'un système d'intégration
de données 28
3.1 Introduction 28
3.2 Construction de médiation selon l'approche LAV 29
3.2.1 Préparation de sources de données 29
3.2.2 Validation de processus ETL (Extract, Transform, Load)
31
3.2.3 Validation de médiateur 36
3.2.4 Implémentation de Médiateur 38
3.3 Traitement de Requêtes dans le médiation LAV
43
3.3.1 Implémentation de Moteur de recherche par VISS
43
3.4 Expériment de résultats 46
3.4.1 Évaluation d'algorithme de fusion dans le
médiateur 47
3.4.2 Discussion 50
3.5 Conclusion 53
Conclusion 56
Bibliographie 58
viii
1.1 L'architecture générale d'un système
d'intégration 4
1.2 Architecture d'un entrepôt de données 6
1.3 Architecture d'une médiation 7
1.4 Architecture générale de TSIMMIS 11
1.5 Architecture générale de MOMIS 11
1.6 Architecture général de système HERMS
12
1.7 Architecture Information manifold 13
1.8 Architecture général de Infomaster 14
2.1 Résultats bruts de data linkage[1] 17
2.2 Résultats combinés de data linkage[1]
17
2.3 Résultat de comparaison en fonction du seuil [1]
18
2.4 Architecture général de BDBOs [2] 19
2.5 Exemple d'intégration par le scénario de
FragmentOnto [2] 21
2.6 Exemple d'intégration par le scénarii
ProjOnto [2] 22
2.7 Exemple d'intégration par le scénarii
ExtendOnto [2] 23
2.8 Architecture général de VISS 25
2.9 Exemple d'output d'un schéma XML aprés
l'intégration 25
2.10 Implémentation de VISS 26
3.1 Sources de données [3] 30
3.2 Implémentation de Xwrapper 33
3.3 Implémentation de Hwrapper 34
3.4 Implémentation de Jwrapper 35
3.5 Une partie de fichier global en XML 42
ix
3.6 Schéma XML global sous forme d'arbre par
l'Analyseur DOM 44
3.7 Interface d'utilisateur pour fait la recherche 46
3.8 Exemple de résultat d'une requête 46
3.9 Résultats de la matrice de confusion par R
49
3.10 Matrice de confusion des comparaisons avec dictionnaire
de données 50
3.11 Matrice de confusion 1 d'algorithme de fusion(Logiciel
R) 51
3.12 Matrice de confusion 2 d'algorithme de fusion(Logiciel
R) 51
3.13 Matrice de confusion global d'algorithme fusion 52
3.14 Le temps d'exécution en ms depuis les nombres de
données 53
x
3.1 Les valeurs de similarite par wrinkler-jarro 48
3.3 Table de temps d'exécution selon le nombres de
données 53
1
Dans ces jours-là domaine d'informatique ayant le
besoin d'accéder, procéder, traiter et spécialement
d'intégrer des données dans les sources diverses et variantes.
Plusieurs systèmes d'intégration ont été
proposés dans la littérature de gestionnaire de données,
en citant : TSIMMIS développé au département de
l'informatique à l'Université de Stanford, Picsel
développé par l'Université Paris Sud, MOMIS
développées dans l'université de Modena et Reggio Emilia
et l'Université de Milan, etc. Le principe de l'intégration des
données, est, d'unifier et com- biner ses différents formats et
structures de sources, qui s'appellent les données
hétérogènes dans un schéma global qui donne une
seule interface. L'hétérogénéité de
données fournit des problèmes pour l'intégration des
données qui peut classer en deux parties : l'intégration de
données hétérogènes, manipulation des
requêtes. L'issue de sources hétérogènes produit
l'objectif de fournir une vue globale de l'information, qui étant
donné les entrepôts de données ou `datawarehouse' en
utilisant les concepts et le tech- niques de base pour unifier les
différents formats de données et optimiser les requêtes
d'extraire les informations. Ce travail étudie le sujet
d'intégration de sources hétérogènes dans
l'entrepôt de données, qui permet de réaliser un
système d'intégration de données ayant des
différents formats et structures, via une vue globale
présentée par les entrepôts des données, et fournit
une interface pour manipuler les requêtes. On a réalisé une
médiation avec l'approche LAV en utilisant les techniques de rap-
prochement pour analyser les similarités des informations de sources. En
cas de traiter les requêtes nous utilisons les techniques qui constater
au l'état de l'art. L'organisation de ce mémoire est comme suit :
Le premier chapitre s'intéresse aux définitions et concepts qui
relie aux l'intégrations des données, avec des exemples de
modèles qui réaliser les systèmes d'intégration. Le
deuxième chapitre donne une description sur l'évaluation de
requêtes au système d'intégration, et les conditions qu'il
faut vérifier pour la robustesse des requêtes. Le troisième
chapitre contient des études historiques consernés avec notre
sujet , en posant les résul- tats,et les grands lignes de ces
études. Dans le dernier chapitre nous présentons notre travaux,
qui permet de réaliser un système d'intégration, en
implémentant les algorithmes de rapprochements et le processus de ETL,
ainsi la construction d'un moteur de recherche à l'aide des tâches
d'ar- chitecture VISS, pour évaluer
2
les requêtes sur l'entrepôt de données
résult. Enfin, nous évaluons notre réslultats, par
étudier la performance des méthodes utlisées.
Finalement,ce mémoire termine par une conclusion.
1
INTÉGRATION DE DONNÉES
3
|