Plan du cours

Section 1 : Gestion des données dans HDFS

  • Divers formats de données (JSON / Avro / Parquet)
  • Schémas de compression
  • Masquage des données
  • Laboratoires : Analyse de différents formats de données ; activation de la compression

Section 2 : Pig avancé

  • Fonctions définies par l'utilisateur
  • Introduction aux bibliothèques Pig (ElephantBird / Data-Fu)
  • Chargement de données structurées complexes avec Pig
  • Ajustement de Pig
  • Laboratoires : scriptage avancé en Pig, analyse de types de données complexes

Section 3 : Hive avancé

  • Fonctions définies par l'utilisateur
  • Tables compressées
  • Ajustement des performances de Hive
  • Laboratoires : création de tables compressées, évaluation des formats et configurations de table

Section 4 : HBase avancé

  • Modélisation de schémas avancés
  • Compression
  • Ingestion massive de données
  • Comparaison des tables larges et hautes
  • HBase et Pig
  • HBase et Hive
  • Ajustement des performances d'HBase
  • Laboratoires : ajustement d'HBase ; accès aux données HBase depuis Pig & Hive ; Utilisation de Phoenix pour la modélisation des données

Pré requis

  • être à l'aise avec le langage de programmation Java (la plupart des exercices de programmation sont en Java)
  • être à l'aise dans un environnement Linux (être capable de naviguer sur la ligne de commande Linux, d'éditer des fichiers avec vi / nano)
  • avoir une connaissance fonctionnelle de Hadoop.

Environnement de laboratoire

Installation zéro : Il n'est pas nécessaire d'installer le logiciel Hadoop sur les machines des étudiants ! Un cluster Hadoop fonctionnel sera fourni aux étudiants.

Les étudiants auront besoin de ce qui suit

 21 Heures

Nombre de participants


Prix ​​par Participant

Nos clients témoignent (5)

Cours à venir

Catégories Similaires