Plan du cours

Big Data Aperçu :

  • Qu'est-ce que Big Data
  • Pourquoi Big Data gagne en popularité
  • Études de cas sur Big Data
  • Caractéristiques de Big Data
  • Solutions pour travailler avec Big Data.

Hadoop et ses composants :

  • Qu'est-ce que Hadoop et quels sont ses composants.
  • Architecture de Hadoop et les caractéristiques des données qu'il peut traiter/processus.
  • Historique de Hadoop, entreprises qui l'utilisent et pourquoi elles ont commencé à l'utiliser.
  • Cadre de travail de Hadoop et ses composants - expliqué en détail.
  • Qu'est-ce que HDFS et comment lire-écrire dans le Système de fichiers distribué Hadoop.
  • Comment configurer un cluster Hadoop dans différents modes - indépendant/mode pseudo/déploiement en plusieurs nœuds.

(Cela comprend la configuration d'un cluster Hadoop sous VirtualBox/KVM/VMware, les configurations réseau qui doivent être soigneusement examinées, le démarrage des daemons Hadoop et le test du cluster).

  • Qu'est-ce que le cadre de travail MapReduce et comment il fonctionne.
  • Exécution d'emplois MapReduce sur un cluster Hadoop.
  • Comprendre la réplication, le miroirage et la sensibilité au rack dans le contexte des clusters Hadoop.

Planification de votre cluster Hadoop :

  • Comment planifier votre cluster Hadoop.
  • Comprendre le matériel et le logiciel pour planifier votre cluster Hadoop.
  • Comprendre les charges de travail et planifier le cluster pour éviter les échecs et optimiser sa performance.

Qu'est-ce que MapR et pourquoi MapR :

  • Aperçu de MapR et de son architecture.
  • Comprendre et utiliser le système de contrôle MapR, les volumes MapR, les instantanés et les miroirs.
  • Planification d'un cluster dans le contexte de MapR.
  • Comparaison de MapR avec d'autres distributions et Apache Hadoop.
  • Installation de MapR et déploiement du cluster.

Configuration et administration du cluster :

  • Gestion des services, des nœuds, des instantanés, des volumes miroirs et des clusters distants.
  • Comprendre et gérer les nœuds.
  • Compréhension des composants Hadoop, installation des composants Hadoop en parallèle avec les services MapR.
  • Gestion des données sur le cluster, y compris via NFS, gestion des services et des nœuds.
  • Gérer les données à l'aide de volumes, gérer les utilisateurs et les groupes, attribuer des rôles aux nœuds, commissionner/décommissionner des nœuds, administrer le cluster et surveiller sa performance, configurer/analyzer et surveiller les métriques pour la surveillance de la performance, configurer et administrer la sécurité MapR.
  • Comprendre et travailler avec M7 - stockage natif pour les tables MapR.
  • Configuration et optimisation du cluster pour une meilleure performance.

Mise à niveau du cluster et intégration avec d'autres configurations :

  • Mise à jour de la version logicielle de MapR et types de mise à niveau.
  • Configuration du cluster Mapr pour accéder au cluster HDFS.
  • Configuration d'un cluster MapR sur Amazon Elastic Mapreduce.

Tous les sujets mentionnés ci-dessus incluent des démonstrations et des sessions pratiques pour que les apprenants puissent avoir une expérience pratique de la technologie.

Pré requis

  • Connaissances de base en Linux FS
  • Connaissances de base en Java
  • Connaissance d'Apache Hadoop (recommandé)
 28 Heures

Nombre de participants


Prix ​​par Participant

Nos clients témoignent (1)

Cours à venir

Catégories Similaires