5.2 Extraction d'informations
L'extraction d'information est une technique qui consiste
à extraire des connaissances à partir de différents
documents en utilisant entre autres des techniques lin-guistiques.[52]
La Recherche d'Informations(RI) et le Traitement Automatique de
la Langue(TAL) sont deux techniques incontournables dès lors qu'il
s'agit d'extraire des elements de sens à partir des textes. Une question
reste alors pendante : pourquoi seulement les textes?
En effet, la province du Katanga est une province qui dispose
d'un potentiel important de ressources minières. les gîtes des
substances minières sont localisés dans presque tout le Katanga.
Jusqu'à ce jour, certains gisements demeurent encore
59
FIGURE 5.3 - Schéma général de la
recherche d'information
inéxploités. Le Katanga et par delà la
RDC est devenu un immense chantier. Alors pourquoi ne pas appliquer nos
méthodes dans le domaine minière afin de rendre notre
étude plus intéressantes?
L'exploration minière est l'un des domaines où
la géophysique est très souvent appliquée comme outil de
détection directe. Une bonne connaissance dans ce domaine ainsi que les
différentes phases d'un projet minier(Prospection, construction de
routes d'accès, préparation et déblaiement du site,...)
est requise afin d'y appliquer par la suite nos connaissances
mathématiques. Le temps nous faisant défaut, cela fera l'objet de
nos travaux ultérieurs.[47]
En effet, les données textuelles contiennent des
informations et des connaissances utiles et parfois critiques pour la gestion
et la prise de décision dans les entreprises. Une bonne étude des
techniques de fouilles de ces données se revèle donc primordiale
afin de fournir un outil important au décideur.
Ainsi, nous vous présenterons dans la suite de ce
paragraphe les fondements de la recherche d'information(section 5.2.1) et le
traitement automatique de la langue(section 5.2.2) qui constituent les deux
ailes dont requièrent les données textuelles pour nous emmener
vers l'extraction d'informations qu'elles renferment.[11]
5.2.1 Recherche d'informations
La recherche d'information (RI) se définit par un
ensemble de méthodes et d'ou-tils qui permettent à un utilisateur
de formuler une requête et qui selectionnent dans un fond documentaire
les documents répondant à ces critères. Les documents sont
au préalable indéxés : chaque mot de chaque
document est répertorié dans une table inverse, avec ou sans
consérvation des positions des mots dans le texte d'ori-gine.
L'appariement entre la requête et l'index va déterminer les
documents qui sont considérés comme repondant le mieux au besoin
informationnel initial.[11]
Une extension de ce schéma permet d'effectuer de la
recherche d'information interlangue : le sujet de recherche est
formulé dans une langue (par exemple français)
différente de celle des documents (par exemple anglais). Dans
ce cas le système de RI inclut une étape de traduction du sujet
en une requête dans la langue cible. Les documents trouvés peuvent
en retour être également traduits dans la langue source.
La recherche d'information passe par plusieurs étapes
dont voici les principales [11] :
60
Simplification de documents
La simplification de documents consiste à rendre plus
pertinent et plus efficace le processus d'appariement entre requête et
index. Elle s'effectue selon les étapes suivantes :
- Suppressions des « mots stop » ou des mots
fréquents;
- Racination : Elle consiste à reduire les mots de la
même famille morphologique à une racine commune;
- Transformation du texte en un sac ou ensemble de
mots.
Indexations
L'indexation peut se faire sur des mots simples ou sur des
syntagmes. Dans ce dernier cas, des groupes de mots constituent des index du
document. Ces syntagmes peuvent être obtenus par des techniques
symboliques (par étiquetage,...), ou encore des techniques statistiques
(en étudiant les mots cooccurents dans des documents).
Traitement et appariement des requêtes
Le traitement et l'appariement des requêtes se base sur
deux principes :
- En raison de leurs tailles : Les requêtes sont
analysées par procedures plus lentes et plus complexes;
- En raison de leurs syntaxes : Elles sont analysées
par des procedures symboliques aux contraintes syntaxiques lâches.
Une fois traitées, les requêtes sont
appariées avec l'index des documents. Il s'en suit alors trois types
d'approches :
1. Le modèle booléen : Ce
modèle suit une approche du type base de données : les documents
sont recherchés sur la base d'une formule logique sur les descripteurs,
et les réponses sont de la forme Oui/Non. C'est le
modèle classique en recherche bibliographique où l'on interroge
sur le contenu des champs :Auteur, Titre, etc;
2. Le modèle vectoriel : Ce
modèle se base sur le principe suivant; plus un document partage des
descripteur avec la requête, meilleur il est. Les reponses sont
qualifiées par un pourcentage exprimant leur pertinence;
3. Le modèle probabiliste : Il
complète le modèle vectoriel en calculant la pertinence de chaque
index pour un document en fonction des documents répondant à des
requêtes sur une base documentaire comparable. Un pourcentage qualifie la
pertinence des réponses.[11]
|