Big data (rapport de stage)( Télécharger le fichier original )par Angeline KONE INSA Lyon - Mastère spécialisé SI 2013 |
V.7.2 StockageLe premier élément structurant dans le contexte Big Data est le socle de stockage des données. Anciennement, la solution était les DatawareHouse (entrepôts de données), qui ont évolué pour supporter de plus grandes quantités de données et faire porter par le stockage, une capacité de traitement étendue. Les solutions de DatawareHouse ont toutes en commun un modèle de données profondément structuré (schéma, base de données, tables, types, vues, etc) et un langage de requête SQL. Le Big Data vient rompre cette approche ; l'approche du Big Data consiste en 2 grands principes. Premièrement, le principe de la scalabilité (horizontale) des clusters de traitement. Puis deuxièmement, on peut s'affranchir de certaines contraintes inhérentes aux bases de données relationnelles traditionnelles et qui ne sont pas forcément nécessaires pour le Big Data. C'est le cas de l'ACIDité (Atomicité, Cohérence, Isolation et Durabilité). (Mathieu Millet, 2013) Pour mettre en oeuvre cette approche avec une infrastructure simple, scalable (mot utilisé pour indiquer à quel point un système matériel ou logiciel parvient à répondre à une demande grandissante de la part des utilisateurs, il traduit aussi la capacité de montée en charge), du matériel à bas coût, le framework Hadoop est utilisé pour la gestion du cluster, l'organisation et la manière de développer. La solution la plus emblématique de cette approche est Hadoop et son écosystème. V.7.3 AnalyseC'est bien de pouvoir stocker les données, mais faut-il pouvoir également les rechercher, les retrouver et les exploiter : c'est l'analyse des données. Elle est naturellement l'autre volet majeur du paysage technologique du Big Data. En la matière, une technologie qui s'impose, Hadoop. Ce projet applicatif fait l'unanimité même s'il est loin d'être stable et mature dans ses développements. Hadoop utilise MapReduce pour le traitement distribué. MapReduce est un patron d'architecture de développement informatique introduit par Google qui permet de réaliser des calculs parallèles de données volumineuses (supérieures à 1 téraoctet). Les calculs peuvent être distribués sur plusieurs machines ce qui permet de répartir les charges de travail et d'ajuster facilement le nombre de serveurs suivant les besoins. Plusieurs implémentations de MapReduce existent dont les plus connues sont l'implémentation réalisée par Google nommée Google MapReduce et l'implémentation Apache MapReduce. L'implémentation de Google est propriétaire alors qu'Apache MapReduce est open source. Apache MapReduce est un des deux composants majeurs du framework open source Apache Hadoop qui permet la gestion des Big Data. |
|