Plan du cours

Introduction

Comprendre l'architecture et les concepts clés de Hadoop

Comprendre le système de fichiers distribués Hadoop (HDFS)

    Présentation de HDFS et de sa conception architecturale Interaction avec HDFS Exécution d'opérations de base sur les fichiers sur HDFS Présentation de la référence des commandes HDFS Présentation de Snakebite Installation de Snakebite à l'aide de la bibliothèque client Snakebite à l'aide du client CLI

Apprendre le modèle de programmation MapReduce avec Python

    Présentation du modèle MapReduce Programming Comprendre le flux de données dans le framework MapReduce Map Shuffle et Sort Reduction
Utilisation de l'utilitaire de streaming Hadoop Comprendre le fonctionnement de l'utilitaire de streaming Hadoop
  • Démo : implémentation de l'application WordCount sur Python
  • Utilisation de la bibliothèque mrjob Présentation de mrjob
  • Installation de Mrjob
  • Démo : implémentation de l'algorithme WordCount à l'aide de mrjob
  • Comprendre le fonctionnement d'un travail MapReduce écrit avec la bibliothèque mrjob
  • Exécuter une application MapReduce avec mrjob
  • Pratique : calculer les meilleurs salaires à l'aide de mrjob
  • Apprendre le cochon avec Python
  • Présentation de la démo Pig : implémentation de l'algorithme WordCount dans Pig Configuration et exécution de scripts Pig et d'instructions Pig Utilisation des modes d'exécution Pig Utilisation du mode interactif Pig Utilisation du mode Pic Batch
  • Comprendre les concepts de base de la langue latine porcine à l'aide d'instructions

      Chargement des données
    Transformer les données
  • Stocker des données
  • Extension des fonctionnalités de Pig avec Python UDF Enregistrement d'un Python fichier UDF
  • Démo : un simple Python UDF
  • Démo : Manipulation de chaînes à l'aide de Python UDF
  • Pratique : Calcul des 10 films les plus récents à l'aide de Python UDF
  • Utiliser Spark et PySpark
  • Présentation de la démo Spark : implémentation de l'algorithme WordCount dans PySpark Présentation de PySpark à l'aide d'un shell interactif implémentant des applications autonomes
  • Travailler avec des ensembles de données distribués résilients (RDD) Création de RDD à partir d'une collection Python
  • Création de RDD à partir de fichiers
  • Implémentation des transformations RDD

      Mise en œuvre des actions RDD
    Pratique : implémentation d'un programme Text Search pour les titres de films avec PySpark
  • Gestion du flux de travail avec Python
  • Présentation d'Apache Oozie et de Luigi Installation de Luigi Comprendre les concepts du flux de travail de Luigi Tâches Cibles Paramètres
  • Démo : examen d'un flux de travail qui implémente l'algorithme WordCount
  • Travailler avec Hadoop workflows qui contrôlent les tâches MapReduce et Pig à l'aide des fichiers de configuration de Luigi
  • Travailler avec MapReduce dans Luigi
  • Travailler avec Pig dans Luigi
  • Sommaire et conclusion

    Pré requis

    • Expérience de la programmation Python
    • Familiarité de base avec Hadoop
     28 heures

    Nombre de participants



    Prix par participant

    Nos Clients témoignent (3)

    Cours Similaires

    Catégories Similaires