Plan du cours
Section 1 : Introduction à Hadoop
- Historique de Hadoop, concepts
- écosystème
- distributions
- architecture de haut niveau
- mифы о Hadoop (mythes sur Hadoop)
- defis liés à Hadoop
- matériel / logiciel
- laboratoire : première prise en main de Hadoop
Section 2 : HDFS
- Conception et architecture
- concepts (mise à l'échelle horizontale, réplication, localité des données, sensibilisation au rack)
- Démons : Namenode, Secondary namenode, Data node
- communications / battements de cœur (heart-beats)
- intégrité des données
- chemin d'écriture et de lecture
- Haut niveau de disponibilité du Namenode (HA), Fédération
- laboratoires : Interaction avec HDFS
Section 3 : MapReduce
- concepts et architecture
- démons (MRV1) : jobtracker / tasktracker
- phases : pilote, mappeur, tri/répartition, réducteur
- MapReduce Version 1 et Version 2 (YARN)
- Fonctionnement interne de MapReduce
- Introduction au programme Java MapReduce
- laboratoires : Exécution d'un exemple de programme MapReduce
Section 4 : Pig
- Pig vs map reduce en Java
- flux des tâches Pig
- langage Pig Latin
- Traitement ETL avec Pig
- Transformations et jointures
- Fonctions définies par l'utilisateur (UDF)
- laboratoires : Écriture de scripts Pig pour analyser des données
Section 5 : Hive
- architecture et conception
- types de données
- soutien SQL dans Hive
- Création de tables Hive et requêtage
- partitions
- jointures
- traitement du texte
- laboratoires : Diverses expériences de traitement des données avec Hive
Section 6 : HBase
- concepts et architecture
- HBase vs RDBMS vs Cassandra
- API Java HBase
- Données de série temporelle sur HBase
- conception du schéma
- laboratoires : Interaction avec HBase à l'aide de la console ; programmation en API Java HBase ; exercice de conception de schéma
Pré requis
- maîtrise du langage de programmation Java (la plupart des exercices de programmation sont en Java)
- à l'aise dans un environnement Linux (capable de naviguer sur la ligne de commande Linux, d'éditer des fichiers avec vi / nano)
Environnement de laboratoire
Installation zéro : Il n'est pas nécessaire d'installer le logiciel Hadoop sur les machines des étudiants ! Un cluster Hadoop opérationnel sera mis à disposition des étudiants.
Les étudiants auront besoin de ce qui suit
- un client SSH (Linux et Mac disposent déjà de clients SSH, Putty est recommandé pour Windows)
- un navigateur pour accéder au cluster, Firefox recommandé
Nos clients témoignent (5)
Les exemples en direct
Ahmet Bolat - Accenture Industrial SS
Formation - Python, Spark, and Hadoop for Big Data
Traduction automatique
Pendant les exercices, James m'a expliqué chaque étape en détail chaque fois que j'étais coincé. J'étais complètement nouveau dans NIFI. Il a clarifié le véritable objectif de NIFI, même les notions de base comme le logiciel open source. Il a couvert tous les concepts de Nifi, du niveau débutant jusqu'au niveau développeur.
Firdous Hashim Ali - MOD A BLOCK
Formation - Apache NiFi for Administrators
Traduction automatique
Que je l’aie eu en premier lieu.
Peter Scales - CACI Ltd
Formation - Apache NiFi for Developers
Traduction automatique
des aspects pratiques de la réalisation, ainsi qu'une bonne dose de théorie, ont été bien présentés par Ajay
Dominik Mazur - Capgemini Polska Sp. z o.o.
Formation - Hadoop Administration on MapR
Traduction automatique
J'ai beaucoup aimé la VM. Le formateur était très compétent sur le sujet ainsi que sur d'autres sujets, il était très sympathique et amical. J'ai apprécié les installations à Dubaï.
Safar Alqahtani - Elm Information Security
Formation - Big Data Analytics in Health
Traduction automatique