L’intelligence artificielle. Outil de la gestion des connaissances.

par Jamal ELMAHDALI
Ecole de Management de Grenoble - Mastère spécialisé en management des systèmes d'informations 2018

précédent sommaire suivant

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy

3.3 La classification de documents

Figure 10 - La classification, à la croisée des chemins de l'IA

Parmi la multitude d'applications de l'intelligence artificielle, la classification de documents consiste à regrouper les documents en catégories en fonction de leur contenu. La classification des documents joue un rôle essentiel dans diverses

applications d'intelligence artificielle
traitant de l'organisation, de la classification et de la recherche de quantités importantes de données textuelles. La classification de documents est une discipline étudiée de longue date dans les disciplines de la recherche d'information (Power, et al., 2010) (Patra & Singh, 2013). C'est aussi une des tâches de la fouille de texte qui utilise les techniques et méthodes du TALN et le Machine Learning (figure 10).

3.4 Le traitement automatique du langage naturel

Le TALN (NLP en anglais) ou TAL est le domaine de l'intelligence artificielle qui s'intéresse à l'analyse et à la compréhension des langues naturelles. Bien que cette discipline ait plus de soixante ans, ce n'est qu'à partir des années 90 qu'elle se développe, grâce aux progrès de l'informatique qui a permis le traitement du texte au format numérique. Les techniques utilisées aujourd'hui sont issues de l'informatique, de la linguistique et du Machine Learning (Tellier, 2010).

Il existe deux approches distinctes, l'approche linguistique et l'approche syntaxique (aussi appelée stochastique), cette dernière s'appuie sur les méthodes numériques, principalement statistiques et probabilistes, elle ne cherche pas à comprendre le texte mais à étudier les corrélations présentes dans celui-ci. Depuis que les chercheurs se sont tournés vers ces nouvelles méthodes de l'intelligence

¹² Traitement automatique de la langue naturelle

¹³ Natural language Processing

26

artificielle, le TALN a connu une avancée remarquable, parmi les applications que le grand public utilise, il y a la correction orthographique des logiciels de traitement de textes, la reconnaissance de caractère, et plus récemment la traduction automatique et la reconnaissance vocale.

Nous ferons un focus sur ces méthodes appliquées à la classification textuelle qui sont principalement issues du Machine Learning.

3.5 Le Machine Learning

Comme toutes les branches de l'intelligence artificielle, les domaines du Machine Learning et du TALN partagent l'objectif de douer les machines de certaines capacités humaines (Tellier, 2010), comme nous l'avons vu plus haut le TALN utilise les méthodes du Machine Learning en particulier dans les tâches de fouille de textes et de recherche d'informations. Le Machine Learning est un domaine vaste et complexe, nous nous limiterons aux aspects qui s'appliquent à notre sujet.

Le Machine Learning est la voie qui donne aujourd'hui les meilleurs résultats dans les applications d'intelligence artificielle. Cette discipline étudie, développe des techniques et méthodes qui permettent à un algorithme d'apprendre à partir d'exemples. C'est une démarche empirique qui tient plus de l'observation que de la logique mathématique.

Parmi les nombreuses définitions du Machine Learning celle-ci résume assez bien le but du Machine Learning : « une machine¹⁴ est censée apprendre, si à partir d'une expérience E en respectant les classes de la tâche T et en mesurant la performance P sa performance à exécuter la tâche T mesuré par P s'améliore avec l'expérience E » (Mitchell & al., 1997), en d'autres termes il s'agit d'améliorer la performance d'un algorithme à réaliser la tâche en utilisant un ensemble d'exercices d'apprentissage.

Figure 11 - Les deux phases de l'apprentissage automatique (Chaouche, 2018)

Rappelons que la plupart des applications de Machine Learning ont pour objectif d'automatiser, tout ou partie, des tâches complexes accessibles seulement à l'être humain. Le ML¹⁵ répond ainsi aux problématiques non résolues par les systèmes basés sur l'approche symbolique traditionnelle de l'intelligence artificielle. Ceux-ci ne peuvent être modélisés et configurés que par des spécialistes, cette approche devient problématique lorsque la complexité augmente et limite le

champ d'application de

l'intelligence artificielle. Au
contraire, le ML qui se base principalement sur une approche

analogiste va limiter

14 « Machine » est pris au sens informatique, autrement dit c'est un programme

¹⁵ Machine Learning

l'intervention d'experts, ce système utilise des exemples déjà vus pour prendre des décisions. Dans une première phase, il va rechercher des corrélations à partir d'un jeu de données en entrée pour créer une règle, puis le but est de généraliser cette règle apprise à de nouvelles données dans une deuxième phase (figure 11).

3.5.1 Les modes d'apprentissage et les types de problèmes à résoudre

Il existe plusieurs techniques de Machine Learning (Russell & Norvig, 2010) :

· L'apprentissage supervisé : Un expert labelise une partie des données qui va servir à l'apprentissage. L'algorithme va alors apprendre la tâche de classification en se basant sur les données labelisées.

· L'apprentissage non supervisé : L'algorithme doit découvrir de lui-même les ressemblances et différences dans les données fournies pour apprendre la tâche.

· L'apprentissage semi-supervisé : Les algorithmes fonctionnent comme pour l'apprentissage supervisé mais acceptent en plus des données non labelisées pendant la phase d'apprentissage.

· L'apprentissage par renforcement : L'algorithme doit apprendre les actions à partir d'expériences, de façon à gagner une récompense et à éviter un gage.

Il existe deux types de problèmes bien distincts pour lesquels le ML propose une solution, la classification et la régression.

· Classification : Un problème d'apprentissage supervisé où la réponse à apprendre est celle d'un nombre infini de valeurs possibles. C'est un type de tâche qui va chercher à catégoriser des éléments à partir d'autres. Quand il n'y a que deux valeurs possibles, on dit que c'est un problème de classification binaire, s'il y en a plus on parle de classification multi-classes.

· Régression : Un problème d'apprentissage supervisé où la réponse à apprendre est une valeur continue. L'algorithme va chercher à prédire un chiffre.

La tâche à traiter dans notre contexte relève de la classification supervisée, nous ne nous intéresserons pas aux autres cas dans la suite de ce chapitre. Le modèle de classification supervisée à construire est communément appelé « classifieur » (Boucheron, et al., 2005).

précédent sommaire suivant

Changeons ce systeme injuste, Soyez votre propre syndic

"Là où il n'y a pas d'espoir, nous devons l'inventer" Albert Camus