Merci d'avoir envoyé votre demande ! Un membre de notre équipe vous contactera sous peu.
Merci d'avoir envoyé votre réservation ! Un membre de notre équipe vous contactera sous peu.
Plan du cours
1: HDFS (17%)
- Décrire la fonction des démons HDFS
- Décrire le fonctionnement normal d'un cluster Apache Hadoop, tant au niveau du stockage de données que du traitement de données.
- Identifier les caractéristiques actuelles des systèmes informatiques qui justifient un système comme Apache Hadoop.
- Classer les objectifs principaux du design HDFS
- À partir d'un scénario, identifier le cas d'utilisation approprié pour la fédération HDFS
- Identifier les composants et les démons d'un cluster HDFS HA-Quorum
- Analyser le rôle de la sécurité HDFS (Kerberos)
- Déterminer le meilleur choix de sérialisation des données pour un scénario donné
- Décrire les chemins d'accès de lecture et d'écriture des fichiers
- Identifier les commandes pour manipuler les fichiers dans l'interpréteur de commandes du système de fichiers Hadoop
2: YARN et MapReduce version 2 (MRv2) (17%)
- Comprendre comment la mise à niveau d'un cluster de Hadoop 1 vers Hadoop 2 affecte les paramètres du cluster
- Comprendre comment déployer MapReduce v2 (MRv2 / YARN), y compris tous les démons YARN
- Comprendre la stratégie de conception de base pour MapReduce v2 (MRv2)
- Déterminer comment YARN gère les allocations des ressources
- Identifier le flux de travail d'un travail MapReduce s'exécutant sur YARN
- Déterminer quels fichiers vous devez modifier et comment pour migrer un cluster de la version 1 (MRv1) à la version 2 (MRv2) de MapReduce en cours d’exécution sous YARN.
3: Planification du Cluster Hadoop (16%)
- Principaux points à considérer lors du choix des matériels et systèmes d'exploitation pour héberger un cluster Apache Hadoop.
- Analyser les choix lors de la sélection d'un système d’exploitation
- Comprendre le réglage du noyau et l’échange disque
- À partir d'un scénario et d’un modèle de charge de travail, identifier une configuration matérielle appropriée pour ce scénario
- À partir d'un scénario, déterminer les composants de l'écosystème dont le cluster doit disposer pour remplir la SLA
- Taille du cluster : à partir d’un scénario et fréquence d'exécution, identifier les spécificités de la charge de travail, y compris CPU, mémoire, stockage, I/O disque
- Configuration et taille des disques, notamment JBOD contre RAID, SANs, virtualisation et exigences en matière de taille des disques dans un cluster
- Topologies réseau : comprendre l'utilisation du réseau dans Hadoop (pour HDFS et MapReduce) et proposer ou identifier les composants clés de la conception réseau pour un scénario donné
4: Installation et Administration du Cluster Hadoop (25%)
- À partir d'un scénario, identifier comment le cluster gérera les échecs de disque et de machine
- Analyser une configuration de journalisation et le format du fichier de configuration de journalisation
- Comprendre les bases des métriques Hadoop et du suivi de la santé du cluster
- Identifier la fonction et l’objectif des outils disponibles pour le suivi du cluster
- Être capable d'installer tous les composants de l'écosystème dans CDH 5, y compris (mais sans s'y limiter) : Impala, Flume, Oozie, Hue, Manager, Sqoop, Hive et Pig
- Identifier la fonction et l’objectif des outils disponibles pour gérer le système de fichiers Apache Hadoop
5: Ressources Management (10%)
- Comprendre les objectifs généraux de conception de chaque planificateur Hadoop
- À partir d'un scénario, déterminer comment le planificateur FIFO alloue les ressources du cluster
- À partir d’un scénario, déterminer comment le planificateur équitable alloue les ressources du cluster sous YARN
- À partir d'un scénario, déterminer comment le planificateur de capacité alloue les ressources du cluster
6: Surveillance et Journalisation (15%)
- Comprendre les fonctions et caractéristiques des capacités de collecte des métriques de Hadoop
- Analyser les interfaces Web du NameNode et du JobTracker
- Comprendre comment surveiller les démons de cluster
- Identifier et surveiller l'utilisation CPU sur les nœuds maîtres
- Décrire comment surveiller le swap et l'allocation de mémoire sur tous les nœuds
- Identifier la façon de consulter et gérer les journaux Hadoop
- Interpréter un fichier journal
Pré requis
- Compétences de base en administration Linux
- Compétences de programmation de base
35 Heures
Nos clients témoignent (3)
I genuinely enjoyed the many hands-on sessions.
Jacek Pieczatka
Formation - Administrator Training for Apache Hadoop
Traduction automatique
I genuinely enjoyed the big competences of Trainer.
Grzegorz Gorski
Formation - Administrator Training for Apache Hadoop
Traduction automatique
I mostly liked the trainer giving real live Examples.
Simon Hahn
Formation - Administrator Training for Apache Hadoop
Traduction automatique