Apache Beam est un modèle de programmation unifiée et open source permettant de définir et d'exécuter des pipelines de traitement de données parallèles Sa puissance réside dans sa capacité à exécuter à la fois des pipelines batch et de streaming, l'exécution étant effectuée par l'un des backends de traitement distribué pris en charge par Apache: Apache Apex, Apache Flink, Apache Spark et Google Cloud Dataflow Apache Beam est utile pour les tâches ETL (Extraction, Transformation et Chargement) telles que le déplacement de données entre différents supports de stockage et sources de données, la transformation des données dans un format plus souhaitable et le chargement de données sur un nouveau système Dans cette formation en ligne instruite, les participants apprendront comment implémenter les SDK Apache Beam dans une application Java ou Python qui définit un pipeline de traitement de données pour décomposer un gros ensemble de données en plus petits morceaux pour un traitement parallèle indépendant À la fin de cette formation, les participants seront en mesure de: Installez et configurez Apache Beam Utilisez un seul modèle de programmation pour effectuer à la fois le traitement par lots et le traitement de flux à partir de leur application Java ou Python Exécutez des pipelines dans plusieurs environnements Public Développeurs Format du cours Partie conférence, discussion en partie, exercices et pratique lourde de handson Remarque Ce cours sera disponible Scala dans le futur S'il vous plaît contactez-nous pour organiser .
Machine Translated
Introduction
- Apache Beam vs MapReduce, Spark Streaming, Kafka Streaming, Storm and Flink
Installing and Configuring Apache Beam
Overview of Apache Beam Features and Architecture
- Beam Model, SDKs, Beam Pipeline Runners
- Distributed processing back-ends
Understanding the Apache Beam Programming Model
- How a pipeline is executed
Running a sample pipeline
- Preparing a WordCount pipeline
- Executing the Pipeline locally
Designing a Pipeline
- Planning the structure, choosing the transforms, and determining the input and output methods
Creating the Pipeline
- Writing the driver program and defining the pipeline
- Using Apache Beam classes
- Data sets, transforms, I/O, data encoding, etc.
Executing the Pipeline
- Executing the pipeline locally, on remote machines, and on a public cloud
- Choosing a runner
- Runner-specific configurations
Testing and Debugging Apache Beam
- Using type hints to emulate static typing
- Managing Python Pipeline Dependencies
Processing Bounded and Unbounded Datasets
Making Your Pipelines Reusable and Maintainable
Create New Data Sources and Sinks
- Apache Beam Source and Sink API
Integrating Apache Beam with other Big Data Systems
- Apache Hadoop, Apache Spark, Apache Kafka
Troubleshooting
Summary and Conclusion