1.14. BIGDATA
Il est appel grosses données ou méga
données (recommandé), parfois appelées données
massives, qui désignent des ensembles de données devenus si
volumineux qu'ils dépassent l'intuition et les capacités humaines
d'analyse et même celles des outils informatiques classiques de gestion
de base de données ou de l'information.
Big Data, inventées par les géants du web, ces
solutions sont dessinées pour offrir un accès en temps
réel à des bases de données géantes. Face à
l'explosion du volume d'informations, le Big Data vise à proposer une
alternative aux solutions traditionnelles de bases de données et
d'analyse (serveur SQL, plateforme de Business Intelligence...).
Confrontés très tôt à des problématiques de
très gros volumes, les géants du web, au premier rang desquels
Yahoo, Google et Facebook ont été les premiers à
déployer ce type de technologies.
Le Big Data a quatre dimensions :
? Volume : les entreprises sont submergées de volumes
de données croissants de tous types, qui se comptent en
téraoctets, voire en pétaoctets. Transformer les 12
téraoctets de Tweets créés quotidiennement en analyse
poussée des opinions sur un produit. Convertir les 350 milliards de
relevés annuels de compteurs afin de mieux prédire la
consommation d'énergie.
? Vélocité : parfois, 2 minutes c'est trop pour
les processus chrono sensibles tels que la détection de fraudes, le Big
Data doit être utilisé au fil de l'eau, à mesure que les
données sont collectées par votre entreprise afin d'en tirer le
maximum de valeur.
? Variété : le Big Data se présente sous
la forme de données structurées ou non structurées (texte,
données de capteurs, son, vidéo, données sur le parcours,
fichiers journaux, etc.). De nouvelles connaissances sont issues de l'analyse
collective de ces données. Utiliser les centaines de flux vidéo
des caméras de surveillance pour
Page | 26
contrôler les points d'intérêt. Tirer parti
de la croissance de 80 % du volume de données image, vidéo et
documentaires pour améliorer la satisfaction client.
? Véracité : 1 décideur sur 3 ne fait pas
confiance aux données sur lesquelles il se base pour prendre ses
décisions. Comment pouvez-vous vous appuyer sur l'information si vous
n'avez pas confiance en elle. Etablir la confiance dans les Big Data
représente un défi d'autant plus important que la
variété et le nombre de sources augmentent.
Big Data va bien au-delà de la seule notion de volume :
il constitue une opportunité d'obtenir des connaissances sur des types
de données et de contenus nouveaux. Aujourd'hui, la plateforme Big Data
d'IBM a recours aux technologies les plus pointues et à des solutions
d'analyse brevetées, afin d'ouvrir la porte à de nouvelles
possibilités.
Les principales technologies de Big Data, elles sont
nombreuses pour optimiser les temps de traitement sur des bases de
données géantes, plusieurs solutions peuvent entrer en jeu :
? Des bases de données NoSQL (comme MongoDB, Cassandra
ou Redis) qui implémentent des systèmes de stockage
considérés comme plus performants que le traditionnel SQL pour
l'analyse de données en masse (orienté clé/valeur,
document, colonne ou graphe).
? Des infrastructures de serveurs pour distribuer les
traitements sur des dizaines, centaines, voire milliers de noeuds. C'est ce
qu'on appelle le traitement massivement parallèle. Le framework Hadoop
est sans doute le plus connu d'entre eux. Il combine le système de
fichiers distribué HDFS, la base NoSQL HBase et l'algorithme MapReduce.
D'autres technologies visant à tendre vers des traitements plus "temps
réel" ont émergé dans la foulée (c'est le cas
d'Apache Spark).
? Le stockage des données en mémoire (Memtables)
permet d'accélérer les temps de traitement des requêtes.
Page | 27
|