Stratégies d'optimisation de requêtes SQL dans un écosystème Hadoop

( Télécharger le fichier original )
par Sébastien Frackowiak
Université de Technologie de COmpiègne - Master 2 2017

8.3 Optimisation du SQL sur Hadoop

Voici le lien vers le code source d'un exemple « WordCount » pour Tez :

Voici une illustration d'une table contenant beaucoup de petits fichiers.

hdfsdfs -ls /apps/hive/warehouse/z_database1.db/table1 | grep wc -l13102

L'usage de Tez, permettra de constituer un ensemble de splits pointant chacun vers un ensemble de bloc.

Dans cet exemple, deux containers ont pu être créés au lieu des 13102.

--------------------------------------------------------------------------------

VERTICES STATUS TOTAL COMPLETED RUNNING PENDING FAILED KILLED

--------------------------------------------------------------------------------

Map 1 RUNNING 2 0 2 0 0 0

Reducer 2 INITED 1 0 0 1 0 0

Reducer 3 INITED 1 0 0 1 0 0

--------------------------------------------------------------------------------

VERTICES: 00/03 [>>--------------------------] 0% ELAPSED TIME: xx.xx s

--------------------------------------------------------------------------------

Changeons ce systeme injuste, Soyez votre propre syndic

"Il ne faut pas de tout pour faire un monde. Il faut du bonheur et rien d'autre" Paul Eluard