Plan du cours

1: HDFS (17%)

  • Décrire la fonction des démons HDFS
  • Décrire le fonctionnement normal d'un cluster Apache Hadoop, tant au niveau du stockage de données que du traitement de données.
  • Identifier les caractéristiques actuelles des systèmes informatiques qui justifient un système comme Apache Hadoop.
  • Classer les objectifs principaux du design HDFS
  • À partir d'un scénario, identifier le cas d'utilisation approprié pour la fédération HDFS
  • Identifier les composants et les démons d'un cluster HDFS HA-Quorum
  • Analyser le rôle de la sécurité HDFS (Kerberos)
  • Déterminer le meilleur choix de sérialisation des données pour un scénario donné
  • Décrire les chemins d'accès de lecture et d'écriture des fichiers
  • Identifier les commandes pour manipuler les fichiers dans l'interpréteur de commandes du système de fichiers Hadoop

2: YARN et MapReduce version 2 (MRv2) (17%)

  • Comprendre comment la mise à niveau d'un cluster de Hadoop 1 vers Hadoop 2 affecte les paramètres du cluster
  • Comprendre comment déployer MapReduce v2 (MRv2 / YARN), y compris tous les démons YARN
  • Comprendre la stratégie de conception de base pour MapReduce v2 (MRv2)
  • Déterminer comment YARN gère les allocations des ressources
  • Identifier le flux de travail d'un travail MapReduce s'exécutant sur YARN
  • Déterminer quels fichiers vous devez modifier et comment pour migrer un cluster de la version 1 (MRv1) à la version 2 (MRv2) de MapReduce en cours d’exécution sous YARN.

3: Planification du Cluster Hadoop (16%)

  • Principaux points à considérer lors du choix des matériels et systèmes d'exploitation pour héberger un cluster Apache Hadoop.
  • Analyser les choix lors de la sélection d'un système d’exploitation
  • Comprendre le réglage du noyau et l’échange disque
  • À partir d'un scénario et d’un modèle de charge de travail, identifier une configuration matérielle appropriée pour ce scénario
  • À partir d'un scénario, déterminer les composants de l'écosystème dont le cluster doit disposer pour remplir la SLA
  • Taille du cluster : à partir d’un scénario et fréquence d'exécution, identifier les spécificités de la charge de travail, y compris CPU, mémoire, stockage, I/O disque
  • Configuration et taille des disques, notamment JBOD contre RAID, SANs, virtualisation et exigences en matière de taille des disques dans un cluster
  • Topologies réseau : comprendre l'utilisation du réseau dans Hadoop (pour HDFS et MapReduce) et proposer ou identifier les composants clés de la conception réseau pour un scénario donné

4: Installation et Administration du Cluster Hadoop (25%)

  • À partir d'un scénario, identifier comment le cluster gérera les échecs de disque et de machine
  • Analyser une configuration de journalisation et le format du fichier de configuration de journalisation
  • Comprendre les bases des métriques Hadoop et du suivi de la santé du cluster
  • Identifier la fonction et l’objectif des outils disponibles pour le suivi du cluster
  • Être capable d'installer tous les composants de l'écosystème dans CDH 5, y compris (mais sans s'y limiter) : Impala, Flume, Oozie, Hue, Manager, Sqoop, Hive et Pig
  • Identifier la fonction et l’objectif des outils disponibles pour gérer le système de fichiers Apache Hadoop

5: Ressources Management (10%)

  • Comprendre les objectifs généraux de conception de chaque planificateur Hadoop
  • À partir d'un scénario, déterminer comment le planificateur FIFO alloue les ressources du cluster
  • À partir d’un scénario, déterminer comment le planificateur équitable alloue les ressources du cluster sous YARN
  • À partir d'un scénario, déterminer comment le planificateur de capacité alloue les ressources du cluster

6: Surveillance et Journalisation (15%)

  • Comprendre les fonctions et caractéristiques des capacités de collecte des métriques de Hadoop
  • Analyser les interfaces Web du NameNode et du JobTracker
  • Comprendre comment surveiller les démons de cluster
  • Identifier et surveiller l'utilisation CPU sur les nœuds maîtres
  • Décrire comment surveiller le swap et l'allocation de mémoire sur tous les nœuds
  • Identifier la façon de consulter et gérer les journaux Hadoop
  • Interpréter un fichier journal

Pré requis

  • Compétences de base en administration Linux
  • Compétences de programmation de base
 35 Heures

Nombre de participants


Prix ​​par Participant

Nos clients témoignent (3)

Cours à venir

Catégories Similaires