CHAPITRE 2. ETAT DE L'ART D'INTÉGRATION DE
DONNÉES
et l'algorithme de Jaro-Winkler qui calcule la
distance de caractères communes dans les deux chaînes de
caractères.
-- les algorithmes phonétiques, s'appuyant sur la
prononciation des mots, on utlise dans ce cas l'algoritme
Soundex.
2.2.3 Expérimentation sur données
On a mener le test d'algorithme de rapprochement sur les
champs d'un enregistrement de données :Nom, Prénom, Adresse .
Résultat brut
On présente le résultat qui indiquer pour chaque
champ des données par le taux de vrais positifs (VP), faux
négatifs (FN) et faux positifs (FP).Enfin on calcule la Précision
qui correspond les performances des méthodes,tel que
Précision=V P/(V P +FP),en présentant sur la figure
suivante:

FIGURE 2.1 - Résultats bruts de data linkage[1]
dans un autre cas on ajoute les études sur les
données avec l'insertion des biais, plusieurs types
des biais qui sont :
-- suppression / ajout de caractère;
-- inversion de caractères;
-- substitution de caractères.
De cette manière, on présente les résultats
de rapprochement des champs de données en montrant
tous les cas possibles :

FIGURE 2.2 - Résultats combinés de data
linkage[1]
On présente les performances des 3 champs :Nom,
Prénom, Adresse, parmi la robustesse de algorithmes Pattern
Matshing et les algorithmes phonétique.
18
|