Plan du cours

Introduction :

  • Apache Spark dans Hadoop Ecosystème
  • Courte introduction pour python, scala

Bases (théorie) :

  • Architecture
  • RDD
  • Transformation et actions
  • Étape, tâche, dépendances

Utilisation de l'environnement Databricks pour comprendre les bases (atelier pratique) :

  • Exercices utilisant l'API RDD
  • Fonctions d'action et de transformation de base
  • PairRDD
  • Joindre
  • Stratégies de mise en cache
  • Exercices utilisant l'API DataFrame
  • SparkSQL
  • DataFrame : sélectionner, filtrer, grouper, trier
  • UDF (fonction définie par l'utilisateur)
  • Examen de l'API DataSet
  • Streaming

Utilisation de l'environnement AWS pour comprendre le déploiement (atelier pratique) :

  • Notions de base sur AWS Glue
  • Comprendre les différences entre AWS EMR et AWS Glue
  • Exemples de travaux dans les deux environnements
  • Comprendre les avantages et les inconvénients

Extra :

  • Introduction à l'orchestration Apache Airflow

Pré requis

Compétences en programmation (de préférence python, scala)

SQL fondamentaux

  21 heures
 

Nombre de participants


Début

Fin


Dates are subject to availability and take place between 09:30 and 16:30.
Les formations ouvertes requièrent plus de 3 participants.

Nos Clients témoignent (3)

Cours Similaires

Big Data Analytics in Health

  21 heures

Catégories Similaires