Stratégies d'optimisation de requêtes SQL dans un écosystème Hadoop

( Télécharger le fichier original )
par Sébastien Frackowiak
Université de Technologie de COmpiègne - Master 2 2017

précédent sommaire suivant

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy

7 BIBLIOGRAPHIE

Sanjay Ghemawat, Howard Gobioff, and Shun-Tak Leung (2003). The Google File System

https://research.google.com/archive/gfs.html

Jeffrey Dean and Sanjay Ghemawat (2004).MapReduce: Simplified Data Processing on Large Clusters

https://research.google.com/archive/mapreduce.html

Tom White (2015). Hadoop: The definitive guide

Ashish Thusoo (2009). Hive - A Petabyte Scale Data Warehouse using Hadoop

https://fr-fr.facebook.com/notes/facebook-engineering/hive-a-petabyte-scale-data-warehouse-using-hadoop/89508453919/

Lefty Leverenz (2015). Hive Design

https://cwiki.apache.org/confluence/display/Hive/Design#Design-HiveArchitecture

Arun Murthy (2013). Tez: Accelerating processing of data stored in HDFS

https://fr.hortonworks.com/blog/introducing-tez-faster-hadoop-processing/

BikasSaha (2013). Accelerating Hadoop Query Processing

https://www.slideshare.net/hortonworks/apache-tez-accelerating-hadoop-query-processing

BikasSaha (2016). How initial task parallelism works

https://cwiki.apache.org/confluence/display/TEZ/How+initial+task+parallelism+works

Hao Zhu (2014).How to control the file numbers of hive table after inserting data on MapR-FS

http://www.openkb.info/2014/12/how-to-control-file-numbers-of-hive.html

Hao Zhu (2015).Hive did not start small file merge if the source table has .deflate files

https://issues.apache.org/jira/browse/HIVE-9398

Lefty Leverenz (2017).LanguageManualJoinOptimization https://cwiki.apache.org/confluence/display/Hive/LanguageManual+JoinOptimization

Hao Zhu (2016). Difference between hive.mapjoin.smalltable.filesize and hive.auto.convert.join.noconditionaltask.size

http://www.openkb.info/2016/01/difference-between-hivemapjoinsmalltabl.html

Nadeem Moidu (2015).Skewed Join Optimization

https://cwiki.apache.org/confluence/display/Hive/Skewed+Join+Optimization

8 ANNEXES

8.1 Hadoop

8.1.1 Partition & Sort détaillé

Le fichier local au Mapper qui contient les données partitionnées et triées par clé, est conçu en détail par le processus suivant (Tom White, 2015) :

- le Mapper envoie ses données dans un tampon circulaire, en mémoire (100MB par défaut)

- à chaque fois que ce tampon est chargé à plus de 80% :

o ses données sont divisées en partitions

o chaque partition est triée par clé

o chaque partition triée par clé est déversée dans un fichier du disque local du Mapper

o le Mapper continue d'envoyer ses données dans le tampon circulaire

- à la fin du traitement Map du Mapper, tous les fichiers générés sont fusionnés par partition puis retriés par clé

Figure 22 : traitement MapReduce détaillant le « Partition & Sort »

8.1.2 Définition de la distance entre deux noeuds

Hadoop assimile son infrastructure à un arbre (Tom White, 2015).

Les niveaux d'un arbre sont définis par le datacenter, le rack et enfin, le noeud.

La distance entre deux noeuds est la somme de leur distance au plus proche ancêtre commun.

Ainsi, le noeud le plus proche sera ainsi prioritairement :

- le même noeud

- un autre noeud sur le même rack

- un autre noeud sur le même datacenter

précédent sommaire suivant

"Et il n'est rien de plus beau que l'instant qui précède le voyage, l'instant ou l'horizon de demain vient nous rendre visite et nous dire ses promesses" Milan Kundera