Plan du cours

Section 1 : Introduction à Hadoop

  • Historique de Hadoop, concepts
  • écosystème
  • distributions
  • architecture de haut niveau
  • mифы о Hadoop (mythes sur Hadoop)
  • defis liés à Hadoop
  • matériel / logiciel
  • laboratoire : première prise en main de Hadoop

Section 2 : HDFS

  • Conception et architecture
  • concepts (mise à l'échelle horizontale, réplication, localité des données, sensibilisation au rack)
  • Démons : Namenode, Secondary namenode, Data node
  • communications / battements de cœur (heart-beats)
  • intégrité des données
  • chemin d'écriture et de lecture
  • Haut niveau de disponibilité du Namenode (HA), Fédération
  • laboratoires : Interaction avec HDFS

Section 3 : MapReduce

  • concepts et architecture
  • démons (MRV1) : jobtracker / tasktracker
  • phases : pilote, mappeur, tri/répartition, réducteur
  • MapReduce Version 1 et Version 2 (YARN)
  • Fonctionnement interne de MapReduce
  • Introduction au programme Java MapReduce
  • laboratoires : Exécution d'un exemple de programme MapReduce

Section 4 : Pig

  • Pig vs map reduce en Java
  • flux des tâches Pig
  • langage Pig Latin
  • Traitement ETL avec Pig
  • Transformations et jointures
  • Fonctions définies par l'utilisateur (UDF)
  • laboratoires : Écriture de scripts Pig pour analyser des données

Section 5 : Hive

  • architecture et conception
  • types de données
  • soutien SQL dans Hive
  • Création de tables Hive et requêtage
  • partitions
  • jointures
  • traitement du texte
  • laboratoires : Diverses expériences de traitement des données avec Hive

Section 6 : HBase

  • concepts et architecture
  • HBase vs RDBMS vs Cassandra
  • API Java HBase
  • Données de série temporelle sur HBase
  • conception du schéma
  • laboratoires : Interaction avec HBase à l'aide de la console ; programmation en API Java HBase ; exercice de conception de schéma

Pré requis

  • maîtrise du langage de programmation Java (la plupart des exercices de programmation sont en Java)
  • à l'aise dans un environnement Linux (capable de naviguer sur la ligne de commande Linux, d'éditer des fichiers avec vi / nano)

Environnement de laboratoire

Installation zéro : Il n'est pas nécessaire d'installer le logiciel Hadoop sur les machines des étudiants ! Un cluster Hadoop opérationnel sera mis à disposition des étudiants.

Les étudiants auront besoin de ce qui suit

  • un client SSH (Linux et Mac disposent déjà de clients SSH, Putty est recommandé pour Windows)
  • un navigateur pour accéder au cluster, Firefox recommandé
 28 Heures

Nombre de participants


Prix ​​par Participant

Nos clients témoignent (5)

Cours à venir

Catégories Similaires