La mise en oeuvre d'un système SOLAP nécessite
toute une panoplie d'outils allant de l'ETL à l'analyse SOLAP.
Les extracteurs des données aussi appelés ETL
(Extract, Transform and Load) sont des logiciels destinés à
extraire les informations des différentes sources, les transformer et
les charger dans l'entrepôt de données. Ils servent aussi de lien
entre l'entrepôt de données et les sources de données
hétérogènes. Il existe trois catégories d'outils
ETL :
GeoKettle est une version «géo-capable»
issue de l'outil ETL Kettle (Pentaho
Data Integration, PDI). C'est une solution open source que
nous allons utiliser pour notre mise en oeuvre.
En effet, PDI est un outil ETL puissant de
catégorie Engine-based, dédié à
l'intégration de différentes sources d'information au sein
d'entrepôts de données. PDI embarque à cet effet la
totalité du code nécessaire dans son noyau et ne traite ainsi que
les flux de données. Ainsi, un traitement Kettle peut être
stocké sous forme de fichier plat (XML, CSV...) ou bien dans un SGBD
("Kettle repository"), ce dernier servant également de
référentiel de travail partagé. Un des attraits de PDI est
son niveau d'intégration avec la plate-forme OSBI Pentaho. Kettle peut
ainsi servir de source de données au moteur de reporting de Pentaho et
même permettre l'élaboration de vues d'analyses
multidimensionnelles avec le concept "Agile BI" et l'outil Pentaho Analyzer.
Kettle est intégré à pentaho depuis 2006, distribué
sous Mozilla public licence ; il dispose d'une interface graphique, un
très bon niveau de packaging et il est multiplateforme. Le niveau de
sécurité est sûrement le meilleur des ETL que nous avons
étudiés. La mise en place d'une console d'administration permet
un niveau de sécurité important, tant au niveau de l'accès
aux métadonnées que sur celui de la création de
scénarios et même sur leur mise à jour. De plus, une
gestion automatisée des logs ainsi que des systèmes de test et de
debugging est prise en charge.
GeoKettle est développé par l'équipe GeoSoa
de Dr Badard de l'université
canadienne Laval au Québec. Il agit comme une surcouche
permettant la manipulation
38
Bassirou Mohamet
Chapitre III : Les EDS et outils de mise en oeuvre
des données géographiques. En effet, il permet
l'intégration de différentes sources de données spatiales
pour la constitution et la mise à jour d'entrepôts de
données géospatiales. De ce fait, GeoKettle permet l'extraction
des données de multiples sources, la transformation ces dernières
afin de corriger d'éventuelles erreurs, leur nettoyage afin de les
homogénéiser, le changement de la structure de celles-ci pour les
rendre conformes aux standards définis, ainsi que de permettre le
chargement (Loading) des données transformées dans un SGBD, un
fichier SIG ou un service Web géospatial.
GeoKettle bénéficie aussi des capacités
géospatiales des librairies Open Source
robustes, matures et bien connus comme JTS, GeoTools,
deegree, OGR. La figure ci-dessous illustre les différentes tâches
que GeoKettle peut nous permettre d'effectuer.
![](Mise-en-oeuvre-d-applications-geo-decisionnelles-Implementation-d-un-systeme-ETl-avec-geokettle21.png)
Figure III. 4 : Processus ETL de
GeoKettle
GeoKettle pourrait donc se résumer de la
manière suivante: GeoKettle = Kettle + Extensions spatiales. GeoKettle
permet alors :
· La manipulation des données de type
géométrique (basés sur JTS) ;
· L'accès aux objets de la géométrie
avec JavaScript ;
· La définition des étapes faites sur
commande de transformation par l'utilisateur ;
· La manipulation des attributs topologiques (intersection,
croisement, etc.) ;
· La définition et transformation de Système
de Référence Spatiale (SRS) ;
· L'entrée-sortie avec un certains SGBD spatiales
;
· La communication avec Oracle, PostGIS et MySQL ;
· Une possibilité d'intégration avec MS
SQL Server 2008, Ingres et IBM DB2, sous réserve d'apporter quelques
retouches.
39
Bassirou Mohamet
Chapitre III : Les EDS et outils de mise en oeuvre
GeoKettle 2.5 est la version communautaire que nous avons
étudiée. Il est dédié à l'intégration
de données géospatiales dans des systèmes
opérationnels (SIG, SDI, ...) ou des systèmes décisionnels
(GéoBI, SOLAP, ...). Cette version est plus puissante, évolutive,
rapide et conforme aux normes de l'industrie (WFS, WPS, CSW,
...)8.
Les principales nouveautés sont:
· WFS (Web Feature Service de l'OGC): étape
d'entrée pour la récupération de données
géospatiales directement à partir d'un service WFS;
· CSW (Service de catalogue OGC pour le Web):
étapes en entrée et sortie, désormais en mesure de lire
des services Web CSW de Deegree et MDWeb. L'étape de sortie CSW prend
désormais en charge les opérations d'insertion, suppression et
mise à jour de métadonnées, testée avec Deegree et
GeoNetwork;
· WPS (Web Processing Service de l'OGC): une
étape côté client a été ajoutée pour
invoquer des géotraitements distants exposés en WPS et ainsi
bénéficier de nouvelles et inédites capacités de
traitement, testée avec différentes implantations comme Deegree,
GeoServer, PyWPS, 52North WPS et Zoo WPS;
· Utilisation de la nouvelle version (1.9.1) de GDAL/OGR
pour plus de puissances avec les étapes OGR en entrée et
sortie;
· Utilisation de la nouvelle version (1.13) de la
bibliothèque JTS pour de meilleures performances et la correction de
bogues;
· Des nouvelles fonctions de conversion ajoutées
à l'étape «Calcul» (plus de capacités pour la
création et la transformation de fichiers/données WKT, GeoJSON,
GML, KML, ...);
· Mise à jour de la base de données de
projections EPSG (la définition d'une projection sur mesure introduite
dans la version 2.0 reste possible);
· Nouveaux installateurs dédiés selon l'OS
pour Windows, Linux / Debian ou Linux / Red Hat, Macintosh (une version en
fichier .zip est toujours disponible);
· Module Sextante: Ajoute des fonctionnalités
avancées de géotraitements vectoriel basé sur la
bibliothèque Sextante.
GeoKettle est disponible en téléchargement
libre, et selon le type de la plateforme, sur le site
http://www.spatialytics.org/fr/projets/GeoKettle
ou sur le site du projet :
https://www.geokettle.org.
Avant de l'installer, JRE (Java Runtime Environment) doit être
installé sur le système. Si l'on a
téléchargé le .exe, il suffit de faire un double-
8 Source :
www.georezo.net/forum
Chapitre III : Les EDS et outils de mise en oeuvre
clic et poursuivre le processus d'installation. Mais si c'est
l'archive qu'on a téléchargé, il faut le
désarchiver (selon votre version de SE) dans un répertoire de
votre choix (
C:\GeoKettle ou /home par exemple). Il faut
exécuter ensuite spoon.bat pour Windows ou
spoon.sh
pour une distribution Linux. La fenêtre d'accueil
ci-dessous apparaît et nous pouvons créer notre première
transformation.
![](Mise-en-oeuvre-d-applications-geo-decisionnelles-Implementation-d-un-systeme-ETl-avec-geokettle22.png)
Figure III. 5: Fenêtre d'accueil de
GeoKettle