Plan du cours

  1. Préambule à Scala

    • Introduction rapide à Scala
    • Laboratoires : Découverte de Scala
  2. Bases de Spark

    • Contexte et historique
    • Spark et Hadoop
    • Concepts et architecture de Spark
    • Écosystème de Spark (core, spark sql, mlib, streaming)
    • Laboratoires : Installation et exécution de Spark
  3. Première approche de Spark

    • Exécution de Spark en mode local
    • Interface web de Spark
    • Shell de Spark
    • Analyse d'un jeu de données – partie 1
    • Inspection des RDDs
    • Laboratoires : Exploration du shell de Spark
  4. RDDs

    • Concepts des RDDs
    • Partitions
    • Opérations / transformations sur les RDDs
    • RDDs clé-valeur
    • MapReduce sur les RDDs
    • Mise en cache et persistance
    • Laboratoires : Création et inspection des RDDs ; Mise en cache des RDDs
  5. Programmation avec l'API Spark

    • Introduction à l'API Spark / RDD API
    • Soumission du premier programme à Spark
    • Débogage / journalisation
    • Propriétés de configuration
    • Laboratoires : Programmation avec l'API Spark, Soumission de tâches
  6. Spark SQL

    • Soutien SQL dans Spark
    • Dataframes
    • Définition de tables et importation de jeux de données
    • Interrogation des dataframes avec SQL
    • Formats de stockage : JSON / Parquet
    • Laboratoires : Création et interrogation de dataframes ; Évaluation des formats de données
  7. MLlib

    • Introduction à MLlib
    • Algorithmes de MLlib
    • Laboratoires : Écriture d'applications MLib
  8. GraphX

    • Aperçu de la bibliothèque GraphX
    • APIs de GraphX
    • Laboratoires : Traitement des données graphiques avec Spark
  9. Spark Streaming

    • Aperçu du streaming
    • Évaluation des plateformes de streaming
    • Opérations de streaming
    • Opérations sur fenêtres glissantes
    • Laboratoires : Écriture d'applications Spark Streaming
  10. Spark et Hadoop

    • Introduction à Hadoop (HDFS / YARN)
    • Architecture Hadoop + Spark
    • Exécution de Spark sur Hadoop YARN
    • Traitement des fichiers HDFS avec Spark
  11. Prestations et réglages de Spark

    • Variables diffusées
    • Accumulateurs
    • Gestion de la mémoire et mise en cache
  12. Opérations Spark

    • Déploiement de Spark en production
    • Modèles de déploiement types
    • Configurations
    • Suivi et monitoring
    • Dépannage

Pré requis

PRÉ-REQUIS

Connaissance de l'un des langages suivants : Java / Scala / Python (nos laboratoires en Scala et Python)

Compréhension de base de l'environnement de développement Linux (navigation en ligne de commande / édition de fichiers avec VI ou nano)

 21 Heures

Nombre de participants


Prix ​​par Participant

Nos clients témoignent (6)

Cours à venir

Catégories Similaires