L'intelligence artificielle : outil de la
gestion
des connaissances
Thèse professionnelle
Comment automatiser la classification d'une
base documentaire grâce au Machine Learning ?
Jamal EL MAHDALI
MASTERE SPECIALISÉ
MANAGEMENT DES SYSTEMES D'INFORMATION
DÉCEMBRE 2018
|
|
1
Remerciements
La réalisation de ce mémoire a été
possible grâce au concours de plusieurs personnes à qui je
voudrais témoigner toute ma reconnaissance.
Je remercie bien sûr mon tuteur école, Alain RIVET,
pour ses conseils dans l'approche de cette étude.
Le sujet de l'étude a été proposé par
TCS et je tiens à remercier Hervé LEBEL, Manager, et Charles
SIMILIA, Directeur de projets pour leur participation.
Mes remerciements vont aussi à tous les professionnels qui
ont accepté de partager leur expérience.
Enfin, je suis reconnaissant envers ma famille et mes proches qui
m'ont encouragé et soutenu dans cette entreprise. Et je tiens à
remercier particulièrement mon épouse pour son soutien et sa
patience sans lesquels ce travail n'aurait pu aboutir.
2
Résumé
Cette étude a pour objectif de proposer une
série de recommandations dans le cadre d'un projet pilote, pour
automatiser la classification d'une masse importante de documents textuels. Les
méthodes utilisées dans ce mémoire sont classiques,
à savoir une revue de littérature complétée par une
série d'entretiens avec des professionnels.
A l'époque de l'économie de la connaissance,
l'enjeu de la gestion des connaissances et en particulier de la gestion
d'information est crucial pour les entreprises. L'accès aux documents,
support de la connaissance explicite, est de plus en plus difficile pour les
utilisateurs, eu égard à l'infobésité galopante et
à la structure hiérarchique des bases documentaires
étouffées par les strates accumulées au fil des
années.
Certaines entreprises profitent des opportunités
offertes par la transformation digitale pour basculer leurs bases
documentaires, importante partie de leur patrimoine informationnel, vers des
solutions cloud de type ECM afin de mieux les gérer. Ces nouveaux outils
issus du web 2.0 apportent une multitude de fonctionnalités qui
permettent d'accroître la productivité des utilisateurs, en
facilitant le transfert des connaissances. L'accès aux informations sur
ces outils est facilité par une organisation de la connaissance
basée sur l'étiquetage des documents, via la méthode des
métadonnées. Ces nouveautés apportent leur lot de
changements d'usage qu'il faut gérer avec une stratégie de
conduite du changement.
Une autre problématique, plus technique, empêche
la faisabilité du projet. D'une part, l'étiquetage de documents
est difficilement automatisable, car la complexité de la tâche
requiert un système de règles dont le coût ne serait pas
justifié. D'autre part, la quantité astronomique de documents
à étiqueter n'est pas réalisable manuellement, ce qui
mène le projet à une impasse.
Une discipline, très médiatisée ces
derniers temps, propose des solutions à ce type de problème,
c'est le Machine Learning. Ce domaine a connu des progrès spectaculaires
ces vingt dernières années, grâce aux progrès des
capacités de calcul et à l'explosion des données
disponibles. Ces méthodes sont totalement différentes des
solutions classiques, car elles se basent sur une démarche empirique qui
consiste à construire une solution qui imite le processus cognitif
humain simplement à partir d'exemples.
La littérature est relativement fournie à ce
sujet, surtout sur les aspects techniques. Nous avons pu y relever un certain
nombre de spécificités propres au traitement de données
textuelles, ainsi que d'autres comme l'implication des métiers au point
de le faire participer aux tâches de construction de la solution.
Le retour d'expérience des professionnels valide en
grande partie les informations issues de la littérature, et
complète celle-ci par certaines informations concernant les aspects
organisationnels à appliquer dans le cadre de cette démarche.
Nous n'avons pas relevé de contradictions dans cette
étude entre la littérature et le monde professionnel, ce qui a
facilité la rédaction des recommandations. Ces dernières
font un focus sur les méthodes et techniques à privilégier
dans le cadre de la modélisation d'une solution de classification
automatique de documents.
3
|