Administration d'un big data sous mongodb et extraction de connaissance par réseau de neurones.par Destin CUBAKA BENI Université Pédagogique Nationale (UPN) - Licence 2019 |
I.4. OBJECTIFSLe Big Data est une nouvelle technologie qui poursuit plusieurs objectifs, parmi lesquels: v L'objectif de ces solutions d'intégration et de traitement de données est de gérer un très grand volume de données structurées et non structurées sur une variété de terminaux (PC, smartphones, tablettes, objets communicants, etc.), produits ou non en temps réel depuis n'importe quelle zone géographique du monde ; v Un autre objectif réside dans la capacité de gérer en temps réel un volume de données de plus en plus important et en constante évolution. v Le Big Data vise à améliorer les services existants, c'est-à-dire que leur apparence ne signifie pas la fin des entrepôts de données, mais vise à les compléter en fonction de besoins spécifiques de l'entreprise en proposant des alternatives pour adapter le fonctionnement des bases de données relationnelles à des besoins spécifiques ; v Cette solution est conçue pour offrir également un accès en temps réel aux bases de données géantes. I.5. CARACTERISTIQUESÀ l'origine, le Big Data était caractérisé par la problématique du 3V4(*), à savoir Volume, Vitesse, Variété. Alors que le concept et la technologie se répandaient rapidement dans de nombreux secteurs industriels et économiques et occupaient une place prépondérante, les chercheurs dans ce domaine ont encore poussé plus loin les caractéristiques du Big Data en valorisant les données pour obtenir un 4ème V puis rechercher leur véracité pour constituer son 5ème V. Vous êtes confronté à un problème de gestion de données correspondant à ces trois critères, à savoir Volume, Vitesse et Variété ou plus simplement, vous ne savez pas comment gérer ces données avec les architectures traditionnelles, vous avez alors un problème de type Big Data. Il faut en effet penser à collecter les données, les stocker puis les analyser de manière à ne plus pouvoir être traitées par une approche traditionnelle permettant de satisfaire les 4ème et 5ème V qui sont la Valorisation et la Véracité des données. Ces 5 V du Big Data peuvent se définir ou s'expliquer de la manière suivante : · Volume (Volume) : représente la quantité de données générées, stockées et utilisées dans le SI. L'augmentation du volume dans le SI s'explique par l'augmentation de la quantité de données générées et stockées, mais aussi et surtout par la nécessité d'exploiter des données qui, jusqu'à présent, ne l'étaient pas. L'unité principal pour mesurer le volume de données étant l'octet. Pour rappel, 1 mégaoctet = 106 octets ; 1 gigaoctet = 109 octets ; 1 téraoctet = 1012 octets ; 1 pétaocte = 1015 octets ; 1 exaoctet = 1018 octets ; 1 zettaoctet = 1021 octets ; 1 yottaoctet = 1024 octets. En effet, aujourd'hui, les données sont d'ordre de zetta ou même yottaoctets. · Varieté (Variety) : représente la démultiplication des types de données gérés par un SI, nous parlons ici de type de données au sens fonctionnel du terme et pas seulement au sens technique. En fait, les données traitées sont des tweets, des vidéos, des photos, des textes, des audios, etc. La démultiplication implique également la complexification5(*) des liens et des types de lien entre ces données. · Vélocité (Velocity) : représente la fréquence à laquelle les données sont générées, capturées et partagées. Les données arrivent par flux et doivent être analysées en temps réel pour répondre aux besoins des processus chrono-sensibles, donc urgents. · Valeur (Value) : représente la capacité de disséminer rapidement des informations au sein de l'organisation pour leur permettre d'être reflétées dans les processus métier. · Véracité (Veracity) : représente la résistance à laquelle se heurte l'organisation pour explorer, exploiter les données disponibles au sein des processus métier. Ainsi, aux trois V de base, à savoir Volume, Variété, Vélocité, les acteurs du marché ont également ajouté d'autres V, qui sont la Valeur des données pour ce qu'ils sont susceptibles de contenir sous forme de signaux ou en référence au fait qu'ils sont commercialisables, et Véracité d'insister sur la qualité nécessaire des données. Figure 1.2:Les 5V du Big Data.[Évolution du Big Data] * 4Pour la paternité des 3V et les nombreux prétendants à leur invention, voir l'article de Doug Laney : « Deja VVVu: Others Claiming Gartner's Construct for Big Data » : http://blogs.gartner.com/doug-laney/deja-vvvue-others-claiming-gartners-volume-velocity-variety-construct-for-big-data * 5Il est à noter cependant que des progrès notables restent à faire dans le domaine de l'exploitation de ces données multimédia. |
|