Plan du cours

Introduction

  • Introduction au Cloud Computing et aux solutions Big Data
  • Vue d'ensemble des fonctionnalités et de l'architecture d'Apache Hadoop

Mise en place Hadoop

  • Planification d'un cluster Hadoop (sur site, dans le nuage, etc.)
  • Sélection du système d'exploitation et de la distribution Hadoop
  • Provisionnement des ressources (matériel, réseau, etc.)
  • Téléchargement et installation du logiciel
  • Dimensionner le cluster pour plus de flexibilité

Travailler avec HDFS

  • Comprendre le Hadoop système de fichiers distribués (HDFS)
  • Vue d'ensemble de la référence des commandes HDFS
  • Accéder à HDFS
  • Effectuer des opérations de base sur les fichiers dans HDFS
  • Utiliser S3 en complément de HDFS

Vue d'ensemble de MapReduce

  • Comprendre le flux de données dans le cadre MapReduce
  • Cartographier, mélanger, trier et réduire
  • Démonstration : Calcul des salaires les plus élevés

Travailler avec YARN

  • Comprendre la gestion des ressources dans Hadoop
  • Travailler avec ResourceManager, NodeManager, Application Master
  • Planification des tâches sous YARN
  • Ordonnancement pour un grand nombre de nœuds et de clusters
  • Démonstration : Planification des tâches

Intégrer Hadoop à Spark

  • Configurer le stockage pour Spark (HDFS, Amazon, S3, NoSQL, etc.)
  • Comprendre les ensembles de données distribuées résilientes (RDD)
  • Créer un RDD
  • Implémentation des transformations RDD
  • Démonstration : Implémentation d'un programme de recherche textuelle de titres de films

Gestion d'un Hadoop cluster

  • Surveillance Hadoop
  • Sécurisation d'un cluster Hadoop
  • Ajouter et supprimer des nœuds
  • Exécution d'un test de performance
  • Optimisation des performances d'un cluster Hadoop
  • Sauvegarde, récupération et planification de la continuité des activités
  • Assurer la haute disponibilité (HA)

Mise à niveau et migration d'un Hadoop cluster

  • Évaluer les besoins en charge de travail
  • Mise à niveau Hadoop
  • Passer d'un système sur site à un système en nuage et vice-versa
  • Récupération des défaillances

Dépannage

Résumé et conclusion

Pré requis

  • Expérience de l'administration de systèmes
  • Expérience de la ligne de commande Linux
  • Compréhension des concepts de big data

Audience

  • Administrateurs système
  • DBA
  35 heures

Nombre de participants



Prix par participant

Nos Clients témoignent (6)

Cours Similaires

Big Data Analytics in Health

  21 heures

Catégories Similaires