CHAPITRE 3. CONSTRUCTION D'UN SYSTÈME
D'INTÉGRATION DE DONNÉES
L'amélioration de ce formule se fait par Winkler tel que
il prise en compte le nombre N de caractères communs au début des
deux chaînes pour réduire le taux de comparaisons.
Jaro - Winkler(S1, S2) = Jaro(S1, S2) + N 10(1
- Jaro(S1, S2)) Utilisation d'ontologie
nous utilisons les concepts d'ontologie pour augmenter les
performances de calcul de similarité, les techniques de rapprochement
que nous les utilisons ne supportent pas les cas d'existence des synonymes
ayant des termes différents, donc dans ce contexte nous utilisons un
dictionnaire de données pour chaque source de données en
représentant les attributs comme des termes avec ses synonymes, nous
implémentons la comparaison entre les dictionnaires et les attributs
pour obtiennent la similarité.
Dictionnaire de données
C'est une structure qui contient des termes compagne avec les
synonymes, ces termes répré-sentent les attributs de chaque
source de données référencées par des mots
similaires. Dans notre travail nous proposons un dictionnaire creé d'une
façon manuelle qui contient un en- semble des attributs
référencés par ses synonymes, a l'aide de Word Net, nous
pose pour chaque attribut des quatre sources un ensemble de trois synonymes
obtient de Word Net.[19]
WordNet
Est un base de données lexicales. Les termes y sont
organisés sous formes d'ensembles de synonymes, les synsets. Chaque
synset est un concept lexicalisé. Ces concepts lexicalisés sont
reliés par des relations linguistiques. WORDNET est un énorme
dictionnaire hypermédia de l'anglais-américain (plus de 100 000
synsets). Sa richesse et sa facilité d'accès le positionnent
comme un intéressant outil pour la recherche d'information ou d'autres
tâches comme le traitement du langage naturel mais ce n'est pas un
ontologie car les relations ne sont en aucun cas formelles. L'utiliser tel
quel, dans un système formel est donc voué à
l'échec. Sa seule utilisation dans le cadre de l'intégration ne
peut donc être que d'assister un expert humain.[20]
3.2.4 Implémentation de Médiateur
La réalisation de médiateur est d'effectuer les
deux fonctions principales de processus ETL : transformation
pour rassembler les sources de données participées et
charger le schéma global XML résulte dans
l'entrepôt de données.
Notre travail est de valider un algorithme qui suit les
principes de la fonction de transformation, nous utilisons les techniques de
rapprochement et le dictionnaire de données.
|