b. Préparer les
données pour l'analyse
Après le travail de repérage et
d'identification décrit dans l'étape précédente, il
faut préparer les données pour l'analyse. Cette étape est
de loin la plus importante car la qualité des résultats obtenus
est très fortement liée à la qualité de cette
préparation.
On distinguera plusieurs étapes dans cette
préparation : regrouper les données et les transformer. Enfin,
distribuer les donnée
1°) Regrouper les
données et les transformer
C'est la première étape qui consiste à
regrouper, rapatrier, transcoder, transformer les données. Il faut faire
face aux incompatibilités entre les différents systèmes
informatiques de l'entreprise, importer les données externes, regrouper
l'ensemble dans un format propice à l'exploitation par une application
de data mining.
Parfois, on souhaitera agréger les données ou
les regrouper.
Enfin, il est souvent utile de rajouter des champs
supplémentaires, issus de résultats de calculs ou transformations
depuis des champs existants. Ceci est particulièrement vrai si l'on
cherche des relations entre champs ou pour suivre des évolutions dans le
temps. A titre d'exemple, on pourrait citer :
-Index d'obésité = taille ² / poids
-Densité = population / surface
Ces travaux sont prévus voire automatisés dans
le cadre de la mise en oeuvre d'un data warehouse.
2°) Distribuer les
données
Une fois les données obtenues, il va falloir les
distribuer en trois parties :
-Ensemble d'apprentissage
-Ensemble de test
-Ensemble d'évaluation
Ces trois ensembles devront être distincts (n'avoir
aucun enregistrement en commun)
L'ensemble d'apprentissage est utilisé pour construire
le modèle initial. C'est depuis cet ensemble que le système va
calculer ses différents paramètres.
Une fois les paramètres calculés, il faut
vérifier comment ils se comportent sur l'ensemble de test. Celui-ci va
permettre d'ajuster les valeurs trouvées à l'étape
précédente et les rendre moins sensibles à l'ensemble
d'apprentissage.
Enfin, les paramètres seront testés sur
l'ensemble d'évaluation. Si les résultats obtenus sont proches de
ceux attendus, on pourra alors valider le système. Dans le cas
contraire, il faudra analyser les raisons de cette différence. Pour
mesurer la validité des résultats obtenus, on utilisera les
outils statistiques traditionnels (le khi2 par exemple).
Il faut cependant respecter quelques règles :
Dans une analyse statistique traditionnelle, il est
fréquent de choisir les variables à analyser pour tenter par
exemple de déterminer la corrélation de l'une par rapport
à une autre. De même, on supprime souvent certains champs trop
complexes ou insuffisamment alimentés (valeurs absentes). Dans une
approche de data mining, il est préférable de soumettre
l'ensemble des données et laisser l'outil déterminer
lui-même les données utiles car les champs absents ou complexes
peuvent déboucher sur des connaissances importantes.
|