L’informatique décisionnelle appliquée à l’agriculture.par Abdoulahi Mariko Pôle Paris Alternance - Mastère Ingénieur d'affaires en solutions technologiques complexes 2018 |
II. Le Big DataLes chiffres clés du monde numérique en 2017 se présentent comme suit : Une population mondiale d'environ 7,5 milliards de personnes, 3,8 milliards de personnes connectées à internet soit 51 % environ de la population mondiale, 5 milliards de téléphones mobiles et 2,9 milliards d'utilisateurs des réseaux sociaux. Ces chiffres sont vertigineux et ne cessent d'augmenter, par exemple, c'est deux-cent-mille (200 000) vidéos qui sont chaque jour ajouté sur YouTube et il faut 600 ans soit 6 siècles pour visionner toutes les vidéos actuellement en ligne sur YouTube1. Face à cette masse de données, la nécessité de développer des outils puissants pour permettre leur traitement rapide et efficient, c'est vite posée. Une des difficultés du traitement de ces données est qu'elles arrivent de tous les horizons, elles ne sont donc pas structurées de la même façon et elles sont extrêmement volumineuses. Il est donc quasi impossible de les passer par le filtre des bases de données relationnelles qui ne savent que traiter des données structurées de la même manière et provenant d'une source identique standard. Ainsi, nous avons assisté à l'apparition de nouvelles méthodes de manipulation et de traitement de la donnée lié au Big data. Il faut noter que ce n'est pas la masse de la donnée qui fait le Big data, mais plutôt l'origine diversifiée des données. 28 1. Laurent Maisonnave, CEO de Seevibes - http://zelaurent.com « 10 chiffres impressionnants sur YouTube ». 29 Ainsi, une masse de données aussi grandes soit -elle que nous pouvons traiter sur Excel n'est pas du Big Data (même structure de données) ; par contre, un volume de donnée que nous ne pouvons pas stocker et traiter dans des bases de données traditionnelles se révèlera être du Big Data, par exemple l'analyse des données transactionnelles d'une entreprise de grande distribution (flux de données varié : caisses, carte de fidélités, temps passé, profils des acheteurs, etc.). Le Big Data repose sur trois piliers ou sur trois « V », on parle alors de Vélocité, de Volume et de Variété. En effet, nous savons aujourd'hui rapidement analyser de manière instantanée des quantités de données, nous sommes donc dans la Vélocité. Ce traitement rapide se fait sur des données extrêmement variées et de quantité importante, on aborde alors la question du Volume. Ces données de provenance variée et en grande quantité ne sont cependant pas structurées de la même manière, elles sont inorganisées et répondent à des standards différents, on parle alors de maitrise de la Variété des données. Tous ces traitements font appel à de nouvelles compétences qui se situent à la frontière des mathématiques et de l'informatique, avec le Big data nous avons constaté l'apparition d'un nouveau métier celui de « data-scientist ». Le rôle du data-scientist est de mettre au point des algorithmes capables d'analyser la masse de données stockées en vue de créer de la valeur ajoutée. Un algorithme est un procédé de calcul constitué d'une suite d'opérations selon la définition du Larousse poche 2015. De manière plus claire, l'algorithme est le fait de décrire dans les moindres détails comment s'y prendre pour faire quelque chose. Le but ici est d'autonomiser la machine et exclure une intervention humaine dans le traitement des données. Cette notion de conception d'algorithme est très importante à saisir, car elle donne toute son importance au Big data. Posséder une mine de données, si nous ne savons pas les exploiter de façons pertinentes ne sert strictement à rien. 30 A. Hadoop l'outil principal du Big DataHadoop est un environnement complet installé sur une seule plateforme capable d'intégrer un volume important et varié de données, tout en assurant une vitesse de traitement de ces données1. En effet, Hadoop est capable de stocker et d'analyser n'importe quel type de données structurées ou non structurées afin d'acquérir de la connaissance et de la compréhension pour mieux répondre aux enjeux stratégiques de l'entreprise et créer de la valeur. Le système Hadoop est conçu sur la base de la gestion des données en mode fichier et non sur un mode de base de données. Ce système est appelé le HDFS (Hadoop Distributed File System). Autour du HDFS sont développés plusieurs outils qui constituent la base technique de Hadoop : MapReduce : Permet de rechercher et de traiter les informations en parallélisant au maximum l'activité, il assure ainsi une performance et rapidité au niveau du traitement de la donnée. HBase : Permets le stockage de grandes tables de données. Zookeeper : permets la gestion et la configuration des tables de donnée. Hive : Pour analyser les données. D'autres solutions telles que MongoDB, Pig, GoogleBigTable ou encore Amazon Dynamo existe sur le marché pour l'analyse des données. Le potentiel du Big Data est aujourd'hui exploité dans plusieurs domaines tels que l'analyse prédictive, l'analyse en temps réel de données et leur visualisation, la gouvernance des entreprises, etc. 1. Talend sité par le CIGREF dans son rapport « Valorisation des données des grandes entreprises » Novembre 2016. |
|