Chapitre 6
Conclusion et perspectives
Des travaux de recherche relativement récents dans le
domaine de la prospection de données, plus particulièrement dans
le processus de fouille de données textuelles, ont
démontré l'intérêt des règles d'association.
La découverte des règles d'associa-tions se fait en deux
étapes : (i) la détermination de l'ensemble des motifs
fréquents (c'est-à-dire ceux dont le support dépasse un
seuil déterminé) à partir d'un contexte formel sur lequel
une connexion de Galois est définie, puis (ii) la
génération des règles d'association à partir de ces
motifs. Cependant, l'interprétation de ces règles et
l'évaluation de leur qualité par des indices statistiques restent
difficiles à maîtriser. Le nombre de règles extrait ne
permet pas une vue globale, précise et une exploitation efficace des
régularités et d'éventuelles connaissances qui
émergent d'un grand corpus de textes. Notons cependant que face à
cette éventualité, il a été important de recourir
encore aux « maths » avec une théorie
inéluctable pour une étude qui se veut sérieuse dans le
domaine de fouille de données et la représentation des
connaissances. Les treillis de concepts formels sont une structure
mathématique permettant de représenter et d'organiser
l'information concernant des classes d'objets possédant des
propriétés communes; ainsi ces concepts sont construits à
partir de l'Analyse Formelle de Concepts. Etant une approche à la
représentation des connaissances, l'AFC est une méthode qui
répose sur la structure de treillis et est utilisée dans la
structuration des connaissances.
Pour arriver à nos fins, nous avons eu à diviser
notre travail de la manière que voici:
Le premier chapitre a été consacré
à l'introduction afin de présenter le travail de manière
sommaire. Le deuxieme chapitre a traité de la structure de treillis qui
constitue même la théorie mathématique sur laquelle a
porté notre étude. Le souci de rendre cette étude plus
sérieuse nous ayant animé, afin d'attirer aussi les «
non boréliens » ou les « non matheux »,
nous avons jugé utile de présenter un aspect algorithmique
des treillis. Tel a été l'objet du troisième chapitre.
Les structures mathématiques, y compris les treillis,
étant, cependant, des notions non concrètes, il s'est
averé important de les utiliser dans un domaine concret afin de les
rendre plus « palpables ». C'est ainsi que, l'exploration
des données connue aussi sous le nom de fouille de données ou
data mining a fait parti de notre domaine d'étude et nous y
avons consacré tout un chapitre que nous avons intitulé
Fouille de données et navigation dans un treillis.
Le data mining est cet art d'extraire des
connaissances à partir de données, lesquelles
connaissances auront besoin d'être traitées mais aussi
représentées à des fins soit de
prédiction, soit de description. En effet, pour manipuler ces
connaissances, les notions sur les modèles de représentation des
connaissances reposant essentiellement
79
sur des théories issues de la logique sont
nécessaires. C'est dans ce cadre que, dans notre cinquième
chapitre, nous avons eu à appliquer les structures vues au
deuxième chapitre dans la représentation de ces connaissances et
la recherche d'information.
Cependant, notre objectif étant d'étudier
l'impact de ces structures dans le domaine de fouille de données afin de
représenter les connaissances qui en seront extraites, nous avons
jugé utile de les appliquer dans le domaine de fouille de données
textuelles. Nous avons élaboré un corpus de 43 livres sous format
électronique dont la plupart développe un thème axé
sur l'intelligence artificielle et nous avons constitué un contexte
d'extraction formé en colonne des livres et en ligne des mots
clés qui en sont issus. Nous avons fixé un seuil minimum et
à partir de cela nous avons extrait des motifs ainsi que des
règles valides. A partir de ces règles nous avons tiré nos
conclusions en nous basant sur l'intérêt et la
dépendance qui sont des indices qui nous ont permis de tirer des
règles interprétables.
Notre objectif en abordant ce sujet, n'était pas
seulement de nous limiter à une application montrant l'importance de la
structure de treillis dans le domaine de fouille de données et la
représentation des connaissances, mais aussi de concevoir un outil
pouvant nous aider à extraire et à représenter ces
connaissances d'une manière automatique.
Etant dans une province qui regorge d'énormes gisements
miniers, nous souhaiterions, comme perspective, poursuivre cette étude
en thèse et appliquer les structures de treillis dans ce domaine afin de
répondre aux objectifs d'une science qui se veut pratique.
80
|