Liste des tableaux
TABLEAU 1 - REPRESENTATION DES DONNEES SOUS FORME D'UNE MATRICE
(BIERNAT & LUTZ, 2015) 30
TABLEAU 2 - EXEMPLES D'ALGORITHMES (BIERNAT & LUTZ, 2015)
31
TABLEAU 3 - MATRICE DE CONFUSION 34
TABLEAU 4 - MATRICE DOCUMENT-TERMES 39
6
1 INTRODUCTION GENERALE
La maxime "Scientia potentia est"1 est plus
pertinente que jamais dans le monde d'aujourd'hui. Ce qu'une entreprise sait
est souvent plus important que ce qu'elle produit. La bonne gestion des
connaissances au sein des organisations est une question stratégique,
plus encore pour le domaine de l'informatique, car marqué par une
rotation des employés et des technologies. Dans ce secteur, le
patrimoine informationnel doit être maintenu pour garantir sa
qualité et en faciliter sa circulation. Malheureusement encore trop
d'entreprises stockent leurs documents sur des serveurs bureautique, se coupant
ainsi de l'apport des technologies du web 2.0, connues pour faciliter
l'échange informationnel et la collaboration.
Une grande entreprise consciente de l'enjeux a
décidé d'actionner ce levier. La DSI2 de cette
organisation a pris la décision de basculer ses bases documentaires vers
la solution cloud SharePoint Online. Pour bénéficier des
fonctionnalités de recherche de SharePoint, les documents doivent tous
être taggués (étiquetés) avec leur(s)
catégorie(s) en utilisant les métadonnées. Pour valider la
faisabilité de ce projet, une opération pilote sur les bases
documentaires du département EUS3 de la DSI doit être
effectuée. Cette opération ne peut pas être
effectuée manuellement, car le corpus compte plusieurs dizaines de
milliers de documents, il faut donc automatiser cette tâche.
Avec l'arrivée de l'intelligence artificielle,
l'automatisation n'est plus confinée aux seules tâches courantes,
les progrès rapides dans ce domaine annoncent le remplacement d'un plus
grand nombre d'activités par des machines. Ainsi elle ouvre
d'innombrables perspectives aux entreprises en termes de productivité.
Des spécialistes de renom proposent d'explorer ces opportunités
pour améliorer la performance de la gestion des connaissances. Parmi ces
solutions, le Machine Learning est la discipline qui se distingue le plus. Elle
s'est considérablement développée au cours des quinze
dernières années en raison de la croissance de la puissance de
calcul disponible ainsi que des progrès réalisés dans la
conception d'algorithmes.
Il nous parait nécessaire d'explorer cette
méthode pour savoir si elle peut solutionner notre problème, et
si oui, comment ?
Nous commencerons par une revue de littérature qui va
porter dans un premier temps, sur l'enjeu pour les entreprises de gérer
efficacement leur capital informationnel, ensuite nous étudierons le
rôle que joue la classification dans la gestion d'information. Dans un
deuxième temps, nous essayerons de comprendre ce qu'est l'intelligence
artificielle avant de passer au coeur de la partie théorique,
c-à-d rechercher les méthodes du Machine Learning applicables au
domaine de la gestion documentaire, et plus particulièrement à la
classification de documents.
Nous compléterons la revue de littérature par
une série d'entretiens auprès de professionnels du secteur pour
collecter des retours d'expériences, qui ne sont pas légion dans
ce domaine.
Enfin, l'analyse des résultats de cette recherche
permettra de proposer des recommandations.
1 Le savoir est pouvoir
2 Direction des systèmes d'information
3 End User Services : support aux utilisateurs
7
1.1 Contexte de l'étude
Dans le cadre d'un projet de transformation digitale,
l'entreprise TCS4 recherche une solution pour préparer la
migration des bases documentaires d'une grande entreprise française vers
le cloud. Le premier objectif est l'identification et la classification des
bases de connaissances, le deuxième est l'implémentation d'un
outil pour aider l'utilisateur à mieux classer les nouveaux documents.
Afin d'atteindre cet objectif, TCS souhaite intégrer une solution de
classification automatique basée sur l'intelligence artificielle. Cette
étude a pour objectif d'éclairer le sujet à travers une
série de recommandations.
1.1.1 Etat des lieux
La DSI du groupe a décidé de transférer
une partie de son patrimoine informationnel, composé de nombreuses bases
documentaires actuellement stockées sur ses serveurs, vers le cloud,
plus précisément vers la solution ECM5 de Microsoft :
SharePoint Online. Le but est de promouvoir un usage des informations contenues
dans les documents qui soit plus intuitif et collaboratif. La
problématique principale consiste à préparer cette
migration, en effet, les bases documentaires ne sont pas
systématiquement structurées de façon hiérarchique,
c-à-d que les documents sont éparpillés sur
différents dossiers partagés. Il faut trouver une solution pour
classifier ces documents avant de les transférer sur le cloud. Une autre
problématique concerne l'implémentation d'une solution
d'assistance « en ligne » complétement automatisée, qui
aidera les utilisateurs à mieux classer leurs nouveaux documents sur le
cloud, ce deuxième point ne sera pas abordé dans cette
étude.
La contrainte principale est le temps nécessaire pour
classer manuellement les éléments de ces bases documentaires, car
d'une part, le nombre de fichiers à classer est important et d'autre
part, la tâche de classification manuelle prend du temps eu égard
au processus cognitif nécessaire pour classer un document dans la bonne
catégorie. Or, l'entreprise n'a ni le temps ni le budget suffisant pour
préparer les bases documentaires manuellement.
|