Plan du cours
-
Préambule à Scala
- Introduction rapide à Scala
- Laboratoires : Découverte de Scala
-
Bases de Spark
- Contexte et historique
- Spark et Hadoop
- Concepts et architecture de Spark
- Écosystème de Spark (core, spark sql, mlib, streaming)
- Laboratoires : Installation et exécution de Spark
-
Première approche de Spark
- Exécution de Spark en mode local
- Interface web de Spark
- Shell de Spark
- Analyse d'un jeu de données – partie 1
- Inspection des RDDs
- Laboratoires : Exploration du shell de Spark
-
RDDs
- Concepts des RDDs
- Partitions
- Opérations / transformations sur les RDDs
- RDDs clé-valeur
- MapReduce sur les RDDs
- Mise en cache et persistance
- Laboratoires : Création et inspection des RDDs ; Mise en cache des RDDs
-
Programmation avec l'API Spark
- Introduction à l'API Spark / RDD API
- Soumission du premier programme à Spark
- Débogage / journalisation
- Propriétés de configuration
- Laboratoires : Programmation avec l'API Spark, Soumission de tâches
-
Spark SQL
- Soutien SQL dans Spark
- Dataframes
- Définition de tables et importation de jeux de données
- Interrogation des dataframes avec SQL
- Formats de stockage : JSON / Parquet
- Laboratoires : Création et interrogation de dataframes ; Évaluation des formats de données
-
MLlib
- Introduction à MLlib
- Algorithmes de MLlib
- Laboratoires : Écriture d'applications MLib
-
GraphX
- Aperçu de la bibliothèque GraphX
- APIs de GraphX
- Laboratoires : Traitement des données graphiques avec Spark
-
Spark Streaming
- Aperçu du streaming
- Évaluation des plateformes de streaming
- Opérations de streaming
- Opérations sur fenêtres glissantes
- Laboratoires : Écriture d'applications Spark Streaming
-
Spark et Hadoop
- Introduction à Hadoop (HDFS / YARN)
- Architecture Hadoop + Spark
- Exécution de Spark sur Hadoop YARN
- Traitement des fichiers HDFS avec Spark
-
Prestations et réglages de Spark
- Variables diffusées
- Accumulateurs
- Gestion de la mémoire et mise en cache
-
Opérations Spark
- Déploiement de Spark en production
- Modèles de déploiement types
- Configurations
- Suivi et monitoring
- Dépannage
Pré requis
PRÉ-REQUIS
Connaissance de l'un des langages suivants : Java / Scala / Python (nos laboratoires en Scala et Python)
Compréhension de base de l'environnement de développement Linux (navigation en ligne de commande / édition de fichiers avec VI ou nano)
Nos clients témoignent (6)
Faire des exercices similaires de différentes manières aide vraiment à comprendre ce que chaque composant (Hadoop/Spark, standalone/cluster) peut faire individuellement et ensemble. Cela m'a donné des idées sur la façon dont je devrais tester mon application sur ma machine locale lorsque je développe par rapport au moment où elle est déployée sur un cluster.
Thomas Carcaud - IT Frankfurt GmbH
Formation - Spark for Developers
Traduction automatique
Ajay était très amical, serviable et également compétent sur le sujet qu'il discutait.
Biniam Guulay - ICE International Copyright Enterprise Germany GmbH
Formation - Spark for Developers
Traduction automatique
Ernesto did a great job explaining the high level concepts of using Spark and its various modules.
Michael Nemerouf
Formation - Spark for Developers
Traduction automatique
The trainer made the class interesting and entertaining which helps quite a bit with all day training.
Ryan Speelman
Formation - Spark for Developers
Traduction automatique
We know a lot more about the whole environment.
John Kidd
Formation - Spark for Developers
Traduction automatique
Richard is very calm and methodical, with an analytic insight - exactly the qualities needed to present this sort of course.
Kieran Mac Kenna
Formation - Spark for Developers
Traduction automatique