WOW !! MUCH LOVE ! SO WORLD PEACE !
Fond bitcoin pour l'amélioration du site: 1memzGeKS7CB3ECNkzSn2qHwxU6NZoJ8o
  Dogecoin (tips/pourboires): DCLoo9Dd4qECqpMLurdgGnaoqbftj16Nvp


Home | Publier un mémoire | Une page au hasard

 > 

Intégration de sources de données hétérogènes dans les entrepôts de données


par Sara Djebrit
Université de Ghardaia - Master Systèmes Intelligents pour l’Extraction de Connaissances 2019
  

précédent sommaire suivant

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy

Abstract

Many of applications realize with data intégration methods including the information of companies manager, medicals data domains, Geo-graphical informations systems and E-Commerce application.

Data integration system provide technics to manipulate transparently data source with efficient way.

there are few of tryings to get perfect global format with data intégration system which base into dozens of data sources for extract the information in height quality and satisfy the knowledge need. The aim of this research is to study the problem of combining heterogeneous data sources wish its différent in semantic content and it's not in the same places, so we realize dataintégration systems by merge a few of data sources have a différent formats and structures into one global format, and try to treated the queries that extract informations from this format to agent interface.

The subject of this report will be a previous study followed by an implementation of mediator by local as view approach, and use the ETL processes , the query treatment on the global format is about extract the information and optimize queries effects in this case we unplug the VISS architecture with the technicals of informations retrieval,we compute the accuracy of used algorithms in our aim and we find as general value 70% wish present the validation and efficient case in proposed methods.

Key Words:

data intégration, data intégration system, mediator, ELT(EXtract,Transform,Load), LAV(Local As View), rapprochement algorithm, data warehouse.

TABLE DES MATIÈRES

vi

Liste des figures ix

Listes de tables x

Introduction 2

1 Intégration de données 3

1.1 Introduction 3

1.2 Intégration de données 4

1.3 Hétérogénéité des données 5

1.4 Entrepôt de données 5

1.5 Médiation 6

1.6 Mapping (Correspondance) 7

1.6.1 Types de mappings 7

1.7 Traitement des requêtes dans l'intégration de données 8

1.7.1 Préliminaire 8

1.7.2 Répondeur de requête(Query Answering) 9

1.7.3 Réécriture de requêtes 9

1.8 Exemples de projets d'intégration de données 10

1.8.1 Le projet TSIMMIS 10

1.8.2 Le système MOMIS (Mediator Environnement for Multiple Information Sources) 11

1.8.3 Le système HERMES 12

1.8.4 Information manifold 12

1.8.5 Infomaster 13

vii

1.9 Conclusion 14

2 Etat de l'art d'intégration de données 15

2.1 Introduction 15

2.2 Grille informatique :Rapprochement de données 16

2.2.1 Techniques de comparaison 16

2.2.2 Méthodes évoluées de comparaisons de chaînes de caractères 16

2.2.3 Expérimentation sur données 17

2.3 Système d'intégration de BDBOs(Base de Données de Base Ontologiques) 18

2.3.1 Scénarii d'intégration de données 19

2.4 Validation d'architecture VISS

(Virtual Integration Support System) 23

2.4.1 Architecture VISS 23

2.4.2 Implémentation de VISS 25

2.5 Conclusion 27

3 Construction d'un système d'intégration de données 28

3.1 Introduction 28

3.2 Construction de médiation selon l'approche LAV 29

3.2.1 Préparation de sources de données 29

3.2.2 Validation de processus ETL (Extract, Transform, Load) 31

3.2.3 Validation de médiateur 36

3.2.4 Implémentation de Médiateur 38

3.3 Traitement de Requêtes dans le médiation LAV 43

3.3.1 Implémentation de Moteur de recherche par VISS 43

3.4 Expériment de résultats 46

3.4.1 Évaluation d'algorithme de fusion dans le médiateur 47

3.4.2 Discussion 50

3.5 Conclusion 53

Conclusion 56

Bibliographie 58

TABLE DES FIGURES

viii

1.1 L'architecture générale d'un système d'intégration 4

1.2 Architecture d'un entrepôt de données 6

1.3 Architecture d'une médiation 7

1.4 Architecture générale de TSIMMIS 11

1.5 Architecture générale de MOMIS 11

1.6 Architecture général de système HERMS 12

1.7 Architecture Information manifold 13

1.8 Architecture général de Infomaster 14

2.1 Résultats bruts de data linkage[1] 17

2.2 Résultats combinés de data linkage[1] 17

2.3 Résultat de comparaison en fonction du seuil [1] 18

2.4 Architecture général de BDBOs [2] 19

2.5 Exemple d'intégration par le scénario de FragmentOnto [2] 21

2.6 Exemple d'intégration par le scénarii ProjOnto [2] 22

2.7 Exemple d'intégration par le scénarii ExtendOnto [2] 23

2.8 Architecture général de VISS 25

2.9 Exemple d'output d'un schéma XML aprés l'intégration 25

2.10 Implémentation de VISS 26

3.1 Sources de données [3] 30

3.2 Implémentation de Xwrapper 33

3.3 Implémentation de Hwrapper 34

3.4 Implémentation de Jwrapper 35

3.5 Une partie de fichier global en XML 42

ix

3.6 Schéma XML global sous forme d'arbre par l'Analyseur DOM 44

3.7 Interface d'utilisateur pour fait la recherche 46

3.8 Exemple de résultat d'une requête 46

3.9 Résultats de la matrice de confusion par R 49

3.10 Matrice de confusion des comparaisons avec dictionnaire de données 50

3.11 Matrice de confusion 1 d'algorithme de fusion(Logiciel R) 51

3.12 Matrice de confusion 2 d'algorithme de fusion(Logiciel R) 51

3.13 Matrice de confusion global d'algorithme fusion 52

3.14 Le temps d'exécution en ms depuis les nombres de données 53

LISTE DES TABLEAUX

x

3.1 Les valeurs de similarite par wrinkler-jarro 48

3.3 Table de temps d'exécution selon le nombres de données 53

INTRODUCTION

1

Dans ces jours-là domaine d'informatique ayant le besoin d'accéder, procéder, traiter et spécialement d'intégrer des données dans les sources diverses et variantes. Plusieurs systèmes d'intégration ont été proposés dans la littérature de gestionnaire de données, en citant : TSIMMIS développé au département de l'informatique à l'Université de Stanford, Picsel développé par l'Université Paris Sud, MOMIS développées dans l'université de Modena et Reggio Emilia et l'Université de Milan, etc. Le principe de l'intégration des données, est, d'unifier et com- biner ses différents formats et structures de sources, qui s'appellent les données hétérogènes dans un schéma global qui donne une seule interface. L'hétérogénéité de données fournit des problèmes pour l'intégration des données qui peut classer en deux parties : l'intégration de données hétérogènes, manipulation des requêtes. L'issue de sources hétérogènes produit l'objectif de fournir une vue globale de l'information, qui étant donné les entrepôts de données ou `datawarehouse' en utilisant les concepts et le tech- niques de base pour unifier les différents formats de données et optimiser les requêtes d'extraire les informations. Ce travail étudie le sujet d'intégration de sources hétérogènes dans l'entrepôt de données, qui permet de réaliser un système d'intégration de données ayant des différents formats et structures, via une vue globale présentée par les entrepôts des données, et fournit une interface pour manipuler les requêtes. On a réalisé une médiation avec l'approche LAV en utilisant les techniques de rap- prochement pour analyser les similarités des informations de sources. En cas de traiter les requêtes nous utilisons les techniques qui constater au l'état de l'art. L'organisation de ce mémoire est comme suit : Le premier chapitre s'intéresse aux définitions et concepts qui relie aux l'intégrations des données, avec des exemples de modèles qui réaliser les systèmes d'intégration. Le deuxième chapitre donne une description sur l'évaluation de requêtes au système d'intégration, et les conditions qu'il faut vérifier pour la robustesse des requêtes. Le troisième chapitre contient des études historiques consernés avec notre sujet , en posant les résul- tats,et les grands lignes de ces études. Dans le dernier chapitre nous présentons notre travaux, qui permet de réaliser un système d'intégration, en implémentant les algorithmes de rapprochements et le processus de ETL, ainsi la construction d'un moteur de recherche à l'aide des tâches d'ar- chitecture VISS, pour évaluer

2

les requêtes sur l'entrepôt de données résult. Enfin, nous évaluons notre réslultats, par étudier la performance des méthodes utlisées. Finalement,ce mémoire termine par une conclusion.

1

INTÉGRATION DE DONNÉES

3

précédent sommaire suivant






Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy








"Qui vit sans folie n'est pas si sage qu'il croit."   La Rochefoucault