4.2 Chaîne d'extraction des connaissances
L'extraction des connaissances a pour principal objectif
d'extraire dans des grands volumes de données « des
éléments de connaissances non triviaux et nouveaux pouvant avoir
un sens et un intérêt pour être réutilisés
». Elle est composée de plusieurs étapes (figure 4.1)
dont la principale est la fouille de données.[1][17][20]
1. Phase de consolidation de données
La consolidation de données est une étape de
l'extraction de connaissance qui consiste à collecter les
données. Ces données n'ont pas toujours le même format et
la même structure. On peut avoir des textes, des pages web, des
images, etc. La phase de consolidation cible ainsi l'espace de
données qui va être exploré.
43
Le specialiste du data mining agit un peu à
l'image du géologue qui définit aussi des zones de prospection
étant persuadé que certaines régions seront probablement
vite abandonnées car elles ne recèlent ou ne contiennent aucun ou
peu de minerais. Ainsi cette étape met en oeuvre des requêtes
ad hoc ou appropriée afin de recueillir des données
potentiellement utiles selon le point de vue du spécialiste.
A l'issue de la phase de consolidation, l'analyste est en
possession d'un stock de données contenant potentiellement l'information
ou la connaissance recher-chée.F1]F14]F11]
2. La phase de pré-traitement de
données
Les données issues des entrepôts ne sont pas
nécessairement toutes exploitables par des techniques de fouille de
données parce que la plupart des techniques utilisées ne traitent
que des tableaux de données numériques. Ces tableaux associent
à un objet(en ligne) un ensemble de valeurs
d'attributs(en colonne). Des vocabulaires peuvent se
différencier selon les domaines : Un objet peut également
être appelé enregistrement, individu, observation,...
alors qu'un attribut peut se dénommer caracteristique, champ,
descripteur, etc.
Le pré-traitement permet de présenter les
données de manière adaptée à la méthode de
fouille de données qu'on devra utiliser. Elle regroupe
différentes étapes :
- Integration de données Cette étape
consiste à regrouper et à uniformiser les données
provenant de plusieurs sources.
- Le nettoyage : Cette étape s'occupe de la
gestion des doublons ainsi que des erreurs de saisie.
- Le traitement des valeurs maquantes ou
aberrantes
Certaines données peuvent être absentes ou
encore absurdes et peuvent ainsi gêner l'analyse. Cette étape
permet donc de définir certaines régles ou principes afin de
gérer ou même remplacer ces données maquantes ou
illogiques.
- L'enrichissement des données :
Dépassé l'étape de traitement des valeurs maquantes, il
peut s'averer que certains attributs ne figurent toujours pas parmi les
informations recherchées. Ainsi vient l'étape d'enrichessement
qui consiste à ajouter des nouveaux attributs par combinaison
d'attributs existants. Notons cependant que le processus d'extraction des
connaissances n'est pas linéaire car il arrive aussi que l'on revienne,
après analyse, rechercher des nouvelles données.
- Traitement de données complexes : Toutes
les étapes ou méthodes de pré-traitement citées
ci-haut, opèrent sur des tableaux de données lignes/colonnes.
Or il peut arriver que les données sous études ne soient pas
structurées de cette manière là. Par exemple, en fouille
de texte, nous pouvons disposer d'un ensemble de textes de longueurs
variées que nous devons ramener sous forme tabulaire. L'une des
techniques consiste à recenser l'ensemble des mots de tout le corpus et
d'en calculer la fréquence de chacun d'eux. On obtiendra ainsi un
tableau codé. Mais le codage des textes fait généralement
appel à des procedures plus élaborées s'appuyant sur la
linguistique ou l'ontologie du domaine.F14]F11]
3. Phase de fouille de données
La fouille de données concerne le data mining
dans son sens restreint et se situe au coeur même de l'extraction
des connaissances. Elle est définie comme étant
44
un processus qui utilise une variété de
méthodes d'analyse de données afin d'extraire des informations
intéressantes et appropriées à partir de données.
La classification des méthodes de fouille de données
dépend d'une part, du but poursuivi dans l'analyse et d'autre part, de
la nature et de la quantité de données considérées.
En conséquence, elles sont groupées en deux classes principales
:
- Méthodes prédictives : Ces
méthodes ont pour objectif de rechercher à partir de
données disponibles un modèle explicatif ou prédictif
entre, d'une part, un attribut particulier à prédire et de
l'autre, des attributs prédictifs. Il s'agira donc de prédire de
nouvelles informations à partir de données, ou plus
précisément de prédire les valeurs d'un attribut en
fonction des autres attributs.
- Méthodes descriptives : L'objectif de ces
méthodes est de permettre à l'ana-lyste d'avoir une
compréhension synthétique de l'ensemble de ses données. Il
s'agira de : décrire au mieux les données dans le but de les
réduire ou de les résumer pour une meilleure manipulation; mettre
en valeur des informations présentes mais cachées; décrire
les associations entre attributs sous forme de règles; rassembler tous
les objets similaires.[1][14][11]
La phase d'interprétation et d'evaluation des
résultats fait appel aux techniques de visualisation permettant
d'afficher les résultats d'une manière compréhensible par
l'être humain.
En effet, on remarque un intérêt grandissant pour
les méthodes de découverte de connaissances à partir des
données généralement formalisées sous forme de
règles d'associations. Ces méthodes issues, pour la plupart, de
l'Analyse Formelle de Concepts et proposées en fouille de
données, sont développées dans un objectif de
prédic-tion(méthodes prédictives) ou de
description(méthodes descriptives) et exploitent la structure
du treillis de concepts, ou bien les règles d'associations qui les
décrivent, et qui ont pour caractéristique commune de s'appliquer
sur des données binaires. Par conséquent, la section suivante
sera consacrée à l'Analyse Formelle de Concepts qui est une
approche à la représentation des connaissances et qui
définit le treillis de concepts(section 2.4.1) à partir des
données binaires du types Objets× attri-buts.[14][11]
|