CHAPITRE 3. CONSTRUCTION D'UN SYSTÈME
D'INTÉGRATION DE DONNÉES
Schéma de SQL
Schéma de HTML
Schéma de XML
Schéma de JSON
30
FIGURE 3.1 - Sources de données [3]
31
CHAPITRE 3. CONSTRUCTION D'UN SYSTÈME
D'INTÉGRATION DE DONNÉES
3.2.2 Validation de processus ETL (Extract, Transform,
Load)
Le processus d'ETL(Extract, Transform, Load) consacre de
passer les données dans le cas d'extraire depuis ses sources vers se
transformer les reformulations des formats, des types, des structures de ces
sources pour une meilleure présentation via le chargement de ces
données épurées dans une vue globale. Danc cette partie
nous réalisons les trois fonctions (Extract, Transform; Load) dans notre
architecture LAV proposée telle que chaque composante de l'approche LAV
fait une seule fonction d'ETL[10]
Validation des wrappers
Le wrapper (adaptateur) est un composant intermédiaire
entre les sources de données et le schéma global, d'abord il
extrait les données depuis les sources proposées, et il stocke
ces données pour l'utilisation dans le cas d'interrogation parmi le
schéma global.[18]
dans ce contexte nous créons quatre plateformes qui
nous présentons les wrappers selon les quatre sources que nous
proposons, ces plateformes effectuent la première fonction de processus
ETL c'est: Extraction qui fait extrait les attributs avec ces
valeurs et les stockent les quatre plateformes que nous avons utilisé,
c'est du type Hash Map, nous avons implémenté la
fonction d'extraction dans quatre manières différentes selon les
structures de sources.
Wrapper de source XML
Le wrapper de source XML où Xwrapper fait la fonction
d'extraction en basant sur des outils spéciaux, pour lire le contenant
de XML et d'obtention les informations. Pour implémenter la fonction
d'extraction de ce wrapper nous utilisons l'outil DOM qui permet d'analyser un
source XML d'une façon arborisante.
Outil DOM( Document Object Model)
DOM (pour modèle objet de document) est une interface
de programmation pour les documents HTML, XML et SVG. Elle fournit une
représentation structurée du document sous forme d'un arbre et
définit la façon, dont la structure peut être
manipulée par les programmes, en matière de style et de contenu.
Le DOM représente le document comme un ensemble de noeuds et d'objets
possèdent des propriétés et des méthodes. Quelques
fonctions d'Outil DOM utilisées dans notre travail(en donnant les codes
JAVA) :
~ La lecture de fichier XML comme un Document :
DocumentBuilderFactory dbFactory =
DocumentBuilderFactory.newInstance();
DocumentBuilder dBuilder =
dbFactory.newDocumentBuilder();,
~ analyse les contenents de cette fichier(detecter les Tags,
et les information entre eux) : Document doc = dBuilder.parse(notre XML
fichier(Employee.xml));
|