Plan du cours

Section 1 : Introduction à Hadoop

  • Histoire et concepts de Hadoop
  • Écosystème
  • Distributions
  • Architecture de haut niveau
  • Mythes concernant Hadoop
  • Défis de Hadoop
  • Materiel / logiciel
  • lab : première approche de Hadoop

Section 2 : HDFS

  • Conception et architecture
  • Concepts (échelle horizontale, réplication, localité des données, prise en compte du rack)
  • Dæmons : Namenode, Secondary namenode, Data node
  • Communications / battements de cœur
  • Intégrité des données
  • Chemin de lecture/écriture
  • Namenode High Availability (HA), Federation
  • labs : Interaction avec HDFS

Section 3 : Map Reduce

  • Concepts et architecture
  • Dæmons (MRV1) : jobtracker / tasktracker
  • Phases : driver, mapper, shuffle/sort, reducer
  • Map Reduce Version 1 et Version 2 (YARN)
  • Fonctionnement interne de Map Reduce
  • Introduction à Java Map Reduce program
  • labs : Exécution d'un programme MapReduce échantillon

Section 4 : Pig

  • Pig vs java map reduce
  • Déroulement du travail Pig
  • Langage pig latin
  • ETL avec Pig
  • Transformations et Joins
  • Fonctions définies par l'utilisateur (UDF)
  • labs : rédaction de scripts Pig pour analyser des données

Section 5: Hive

  • Architecture et conception
  • Types de données
  • Support de SQL dans Hive
  • Création de tables Hive et interrogez-les
  • Partitions
  • Joins
  • Traitement des textes
  • labs : divers laboratoires sur le traitement des données avec Hive

Section 6: HBase

  • Concepts et architecture
  • HBase vs RDBMS vs Cassandra
  • HBase Java API
  • Données en série temporelle sur HBase
  • Conception de schéma
  • labs : Interaction avec HBase à l'aide du shell ; programmation dans HBase Java API ; Exercices de conception de schéma

Pré requis

  • à l'aise avec le langage de programmation Java (la plupart des exercices de programmation sont en Java)
  • familier avec l'environnement Linux (être capable de naviguer dans la ligne de commande Linux, d'éditer des fichiers utilisant vi / nano)

Environnement de laboratoire

Aucun téléchargement nécessaire : Il n'est pas nécessaire d'installer le logiciel Hadoop sur les machines des étudiants ! Un cluster fonctionnel Hadoop sera fourni pour les étudiants.

Les étudiants auront besoin de :

  • un client SSH (Linux et Mac ont déjà des clients SSH, pour Windows, Putty est recommandé)
  • un navigateur pour accéder au cluster, Firefox est recommandé
 28 Heures

Nombre de participants


Prix ​​par Participant

Nos clients témoignent (5)

Cours à venir

Catégories Similaires