Plan du cours

Introduction

  • Apache Beam vs MapReduce, Spark Streaming, Kafka Streaming, Storm et Flink

Installation et configuration Apache Beam

Vue d'ensemble des fonctionnalités et de l'architecture de Apache Beam

  • Modèle Beam, SDKs, Beam Pipeline Runners
  • Back-ends de traitement distribué

Comprendre le modèle Apache Beam Programming

  • Comment un pipeline est exécuté

Exécution d'un exemple de pipeline

  • Préparation d'un pipeline WordCount
  • Exécuter le pipeline localement

Conception d'un pipeline

  • Planifier la structure, choisir les transformations et déterminer les méthodes d'entrée et de sortie

Création du pipeline

  • Écrire le programme pilote et définir le pipeline
  • Utilisation des classes Apache Beam
  • Ensembles de données, transformations, E/S, encodage des données, etc.

Exécution du pipeline

  • Exécuter le pipeline localement, sur des machines distantes et sur un cloud public
  • Choix d'un programme d'exécution
  • Configurations spécifiques à l'exécution

Test et débogage Apache Beam

  • Utiliser les indices de type pour émuler le typage statique
  • Gestion Python des dépendances du pipeline

Traitement d'ensembles de données délimités et non délimités

  • Fenêtrage et déclencheurs

Rendre vos pipelines réutilisables et maintenables

Créer de nouvelles sources et de nouveaux puits de données

  • API de source et de puits Apache Beam

Intégrer Apache Beam avec d'autres Big Data systèmes

  • Apache Hadoop, Apache Spark, Apache Kafka

Résolution des problèmes

Résumé et conclusion

Pré requis

  • Expérience de la programmation Python.
  • Expérience de la ligne de commande Linux.

Audience

  • Développeurs
  14 heures
 

Nombre de participants


Début

Fin


Dates are subject to availability and take place between 09:30 and 16:30.
Les formations ouvertes requièrent plus de 3 participants.

Nos Clients témoignent (1)

Cours Similaires

Stream Processing with Kafka Streams

  7 heures

Catégories Similaires