3.7 Outils
Figure 19 - Comparaison des MLaaS de AWS, MS, Google et IBM
(AltexSoft, 2018)
Pour développer une solution basée sur le
Machine Learning, il faut disposer d'un toolkit. Il en existe en open-source
à installer sur son ordinateur comme Knime ou Weka (Tellier, 2010). Mais
la tendance est l'utilisation de toolkit disponible sur le cloud, cette
solution permet de disposer immédiatement d'outils avec des ressources
de calculs et de mémoires bien supérieurs au poste de travail
traditionnel. Ce sont principalement les géants de l'internet
(GAFAMI18) qui
fournissent ces solutions d'Machine Learning,
nommées MLaaS19 (Yao, 2017). Ils ont mis à disposition
l'ensemble des « briques de base » en open source (Caseau, 2018), et
permettent l'interopérabilité avec les outils de certaines
plateformes comme on peut le voir sur la figure 19 (AltexSoft, 2018).
Un autre avantage de ces plateformes propose des outils
entièrement automatisés qui optimisent les classifieurs en
utilisant des tests internes (Yao, 2017) comme nous l'avons vu
précédemment pour la technique du Grid Search.
Enfin, il y a deux façons de créer un
pipeline20 sur ces plateformes, soit en scriptant avec un langage
comme python soit en utilisant une interface graphique (figure 20) qui ne
nécessite aucune expertise technique.
Figure 20 - Azure ML text classification workflow
(Abdel-Hady, 2015)
18 Google, Amazon, Facebook, Apple, Microsoft, IBM
19 Machine Learning as a Service
20 Suite de brique séquentielle qui compose le
modèle
41
3.8 Conclusion
Parmi les branches de l'intelligence le domaine du Machine
Learning est le plus d'avancées. Cette méthode est celle qui est
la plus adaptée à l'automatisation de la classification de
documents, à travers la modélisation d'un classifieur
supervisé. C'est une démarche empirique qui se résume
à une succession de choix et d'expérimentations pour arriver
à construire le modèle qui répondra correctement aux
besoins du problème posé. Ceci répond donc à la
deuxième question de recherche.
Ces deux derniers chapitres nous ont permis de comprendre le
point de vue théorique du sujet, voyons maintenant quelles sont les
meilleures pratiques utilisées par les professionnels du secteur.
42
|