Formation Streaming de données et traitement des données en temps réel
Présentation du cours
Ce cours propose une introduction pratique et structurée à la conception de systèmes de streaming de données en temps réel. Il couvre les concepts fondamentaux, les modèles d’architecture et les outils industriels utilisés pour traiter des données continues à grande échelle. Les participants apprendront à concevoir, implémenter et optimiser des pipelines de streaming à l’aide de frameworks modernes. Le parcours pédagogique progresse des notions de base vers des applications concrètes, permettant aux apprenants de concevoir en toute confiance des solutions temps réel prêtes pour la production.
Format de la formation
• Sessions encadrées par un formateur avec explications guidées
• Walkthroughs des concepts illustrés par des exemples concrets
• Démonstrations pratiques et exercices de codage
• Laboratoires progressifs alignés sur les thèmes quotidiens
• Discussions interactives et sessions de questions-réponses
Objectifs du cours
• Comprendre les concepts du streaming de données en temps réel et l’architecture des systèmes
• Distinguer les modèles de traitement des données par lots (batch) et en streaming
• Concevoir des pipelines de streaming évolutifs et tolérants aux pannes
• Utiliser des outils et frameworks de streaming distribués
• Appliquer le traitement par temps d’événement, le windowing et les opérations avec état
• Concevoir et optimiser des solutions de données en temps réel adaptées aux cas d’usage métier
Plan du cours
Programme du Jour 1
• Introduction aux concepts du streaming de données
• Fondamentaux du traitement par lots versus en temps réel
• Bases de l’architecture événementielle
• Cas d’usage courants dans l’industrie
• Aperçu de l’écosystème du streaming
Jour 2
• Modèles d’architecture de conception pour le streaming
• Principes des systèmes de messagerie distribuée
• Producteurs et consommateurs
• Sujets (topics), partitions et flux de données
• Stratégies d’ingestion de données
Jour 3
• Concepts et frameworks de traitement de flux
• Temps d’événement vs temps de traitement
• Techniques de windowing et leurs cas d’usage
• Traitement de flux avec état
• Bases de la tolérance aux pannes et de la mise à jour des points de contrôle
Jour 4
• Transformation des données dans les pipelines de streaming
• ETL et ELT dans les systèmes temps réel
• Gestion et évolution des schémas
• Jointures et enrichissement de flux
• Introduction aux services de streaming sur cloud
Jour 5
• Surveillance et observabilité dans les systèmes de streaming
• Bases de la sécurité et du contrôle d’accès
• Réglage des performances et optimisation
• Revue complète de la conception de pipelines de bout en bout
• Études de cas réelles, telles que la détection de fraude et le traitement de données IoT
Les formations ouvertes requièrent plus de 3 participants.
Formation Streaming de données et traitement des données en temps réel - Réservation
Formation Streaming de données et traitement des données en temps réel - Demande de renseignements
NobleProg propose des formations professionnelles conçues spécifiquement pour les entreprises et les organisations. Ces formations ne sont pas destinées aux particuliers.
Streaming de données et traitement des données en temps réel - Demande d'informations consulting
Nos clients témoignent (1)
Exercices pratiques. La formation aurait dû durer 5 jours, mais les 3 jours ont permis de clarifier beaucoup de questions que je me posais déjà en travaillant avec NiFi.
James - BHG Financial
Formation - Apache NiFi for Administrators
Traduction automatique
Cours à venir
Cours Similaires
Formation d'administrateur pour Apache Hadoop
35 HeuresPublic cible :
Ce cours est destiné aux spécialistes des TIC à la recherche d'une solution pour stocker et traiter de grands ensembles de données dans un environnement de système distribué.
Goal :
Connaissance approfondie de l'administration des clusters Hadoop.
Big Data Analytics avec Google Colab et Apache Spark
14 HeuresCe formation en direct (en ligne ou sur site) est destinée aux scientifiques des données et ingénieurs de niveau intermédiaire qui souhaitent utiliser Google Colab et Apache Spark pour le traitement et l'analyse de grandes masses de données.
À la fin de cette formation, les participants seront capables de :
- Configurer un environnement big data en utilisant Google Colab et Spark.
- Traiter et analyser des jeux de données volumineux efficacement avec Apache Spark.
- Visualiser les grands ensembles de données dans un environnement collaboratif.
- Intégrer Apache Spark avec des outils basés sur le cloud.
Analyse de données volumineuses dans la santé
21 HeuresL'analyse de données volumineuses implique le processus d'examen de grands ensembles de données variées afin de découvrir des corrélations, des modèles cachés et d'autres informations utiles.
L'industrie de la santé dispose de masses de données médicales et cliniques complexes et hétérogènes. L'application de l'analyse de données volumineuses à des données de santé présente un énorme potentiel pour tirer des insights permettant d'améliorer la prestation des soins de santé. Cependant, l'énormité de ces ensembles de données pose de grands défis dans les analyses et les applications pratiques à un environnement clinique.
Dans cette formation dirigée par un formateur (à distance), les participants apprendront comment réaliser une analyse de données volumineuses dans la santé tout en effectuant une série d'exercices pratiques guidés.
À la fin de cette formation, les participants seront capables de :
- Installer et configurer des outils d'analyse de données volumineuses tels que Hadoop MapReduce et Spark
- Comprendre les caractéristiques des données médicales
- Appliquer des techniques de grandes données pour gérer les données médicales
- Étudier les systèmes et algorithmes de grande donnée dans le contexte des applications de santé
Public visé
- Développeurs
- Data Scientists
Format du cours permettant d'évaluer les participants
- Partie exposé, partie discussion, exercices et pratique intensive.
Note
- Pour demander une formation sur mesure pour ce cours, veuillez nous contacter pour organiser.
Hadoop pour Administrateurs
21 HeuresApache Hadoop est le cadre le plus populaire pour le traitement Big Data sur des clusters de serveurs. Au cours de ce stage de trois jours (quatre jours optionnellement), les participants apprendront les avantages commerciaux et les cas d'utilisation pour Hadoop et son écosystème, comment planifier la mise en place et l'expansion du cluster, comment installer, entretenir, surveiller, résoudre les problèmes et optimiser Hadoop. Ils pratiqueront également le chargement de données massives sur le cluster, se familiariseront avec diverses distributions Hadoop, et exerceront l'installation et la gestion des outils de l'écosystème Hadoop. Le cours se terminera par une discussion sur la sécurisation du cluster avec Kerberos.
“…Les matériaux étaient très bien préparés et couverts en profondeur. La salle d'exercices était très utile et bien organisée”
— Andrew Nguyen, Principal Integration DW Engineer, Microsoft Online Advertising
Audience
Administrateurs Hadoop
Format
Conférences et ateliers pratiques, répartition approximative 60% conférences, 40% ateliers.
Hadoop pour les développeurs (4 jours)
28 HeuresApache Hadoop est le framework le plus populaire pour traiter des données massives sur des clusters de serveurs. Ce cours introduira un développeur aux divers composants de l'écosystème Hadoop (HDFS, MapReduce, Pig, Hive et HBase).
Hadoop pour Développeurs, niveau Acvancé
21 HeuresApache Hadoop est l'un des cadres les plus populaires pour traiter les Big Data sur des clusters de serveurs. Ce cours approfondit la gestion des données dans HDFS, Pig, Hive et HBase avancés. Ces techniques de programmation avancées seront bénéfiques aux développeurs expérimentés en Hadoop.
Public cible: développeurs
Durée : trois jours
Format : conférences (50 %) et laboratoires pratiques (50 %).
Administration de Hadoop avec MapR
28 HeuresPublic cible :
Ce cours vise à démystifier la technologie Big Data/Hadoop et à montrer qu'elle n'est pas difficile à comprendre.
Hadoop et Spark pour les administrateurs
35 HeuresCette formation en direct avec instructeur (en ligne ou sur site) s'adresse aux administrateurs système qui souhaitent apprendre à mettre en place, déployer et gérer des clusters Hadoop au sein de leur organisation.
A l'issue de cette formation, les participants seront capables de :
- Installer et configurer Apache Hadoop.
- Comprendre les quatre composants majeurs de l'écosystème Hadoop : HDFS, MapReduce, YARN et Hadoop Common.
- Utiliser le système de fichiers distribués Hadoop (HDFS) pour faire évoluer un cluster vers des centaines ou des milliers de nœuds.
- Configurer HDFS comme moteur de stockage pour les déploiements Spark sur site.
- Configurer Spark pour accéder à des solutions de stockage alternatives telles qu'Amazon S3 et des systèmes de base de données NoSQL tels que Redis, Elasticsearch, Couchbase, Aerospike, etc.
- Exécuter des tâches administratives telles que le provisionnement, la gestion, la surveillance et la sécurisation d'un cluster Apache Hadoop.
HBase pour les Développeurs
21 HeuresCe cours introduit HBase – un stockage NoSQL basé sur Hadoop. Le cours est destiné aux développeurs qui utiliseront HBase pour développer des applications, ainsi qu'aux administrateurs qui géreront les clusters HBase.
Nous guiderons un développeur à travers l'architecture de HBase, la modélisation des données et le développement d'applications sur HBase. Il abordera également l'utilisation de MapReduce avec HBase, ainsi que certains sujets d'administration liés à l'optimisation des performances. Le cours est très pratique avec de nombreux exercices de laboratoire.
Durée : 3 jours
Public cible : Développeurs & Administrateurs
Apache NiFi pour les Administrateurs
21 HeuresApache NiFi est une plateforme open-source, basée sur le flux de données, pour l'intégration et le traitement d'événements. Elle permet un routage, une transformation et une médiation en temps réel entre des systèmes disparates, avec une interface utilisateur web et un contrôle granulaire.
Cette formation dirigée par un instructeur (sur site ou à distance) est destinée aux administrateurs et ingénieurs de niveau intermédiaire qui souhaitent déployer, gérer, sécuriser et optimiser les flux de données NiFi dans des environnements de production.
À la fin de cette formation, les participants seront en mesure de :
- Installer, configurer et maintenir des clusters Apache NiFi.
- Concevoir et gérer des flux de données provenant de sources et de récepteurs variés.
- Mettre en œuvre l'automatisation du flux, le routage et la logique de transformation.
- Optimiser les performances, surveiller les opérations et dépanner les problèmes.
Format du cours permettant d'évaluer les participants
- Cours interactif avec discussion sur l'architecture réelle.
- Laboratoires pratiques : construction, déploiement et gestion des flux.
- Exercices basés sur des scénarios dans un environnement de laboratoire en direct.
Options de personnalisation du cours
- Pour demander une formation personnalisée pour ce cours, veuillez nous contacter pour organiser.
Apache NiFi pour les Développeurs
7 HeuresAu cours de cette formation en direct et dirigée par un instructeur dans France, les participants apprendront les principes fondamentaux de la programmation par flux en développant un certain nombre d'extensions, de composants et de processeurs de démonstration à l'aide de Apache NiFi.
A la fin de cette formation, les participants seront capables de :
- Comprendre l'architecture de NiFi et les concepts de flux de données.
- Développer des extensions en utilisant NiFi et des APIs tierces.
- Développer leur propre processeur Apache Nifi.
- Ingérer et traiter des données en temps réel à partir de formats de fichiers et de sources de données disparates et peu communs.
PySpark et Machine Learning
21 HeuresCette formation offre une introduction pratique à la construction de workflows évolutifs de traitement de données et de Machine Learning utilisant PySpark. Les participants découvrent le fonctionnement d'Apache Spark au sein des écosystèmes modernes de Big Data et apprennent à traiter efficacement de grands volumes de données grâce aux principes du calcul distribué.
Python et Spark pour les Grandes Données (PySpark)
21 HeuresAu cours de cette formation en direct avec instructeur à France, les participants apprendront à utiliser Python et Spark ensemble pour analyser les données volumineuses (big data) en travaillant sur des exercices pratiques.
A la fin de cette formation, les participants seront capables de :
- Apprendre à utiliser Spark avec Python pour analyser Big Data.
- Travailler sur des exercices qui imitent des cas réels.
- Utiliser différents outils et techniques pour l'analyse des big data en utilisant PySpark.
Python, Spark et Hadoop pour les grands volumes de données
21 HeuresCette formation en France (en ligne ou sur site) est destinée aux développeurs qui souhaitent utiliser et intégrer Spark, Hadoop et Python pour traiter, analyser et transformer des ensembles de données complexes et volumineux.
A l'issue de cette formation, les participants seront capables de :
- Mettre en place l'environnement nécessaire pour commencer à traiter les big data avec Spark, Hadoop et Python.
- Comprendre les fonctionnalités, les composants de base et l'architecture de Spark et Hadoop.
- Apprendre à intégrer Spark, Hadoop et Python pour le traitement des big data.
- Explorer les outils de l'écosystème Spark (Spark MlLib, Spark Streaming, Kafka, Sqoop, Kafka et Flume).
- Construire des systèmes de recommandation par filtrage collaboratif similaires à Netflix, YouTube, Amazon, Spotify et Google.
- Utiliser Apache Mahout pour mettre à l'échelle des algorithmes d'apprentissage automatique.
Stratio : Modules Rocket et Intelligence avec PySpark
14 HeuresStratio est une plateforme axée sur les données qui intègre le big data, l'IA et la gouvernance dans une seule solution. Ses modules Rocket et Intelligence permettent des explorations de données rapides, des transformations et des analyses avancées dans des environnements d'entreprise.
Cette formation dirigée par un instructeur (en ligne ou sur site) est destinée aux professionnels des données de niveau intermédiaire qui souhaitent utiliser efficacement les modules Rocket et Intelligence de Stratio avec PySpark, en se concentrant sur les structures de boucle, les fonctions définies par l'utilisateur et la logique de données avancée.
À la fin de cette formation, les participants seront capables de :
- Naviguer et travailler dans la plateforme Stratio en utilisant les modules Rocket et Intelligence.
- Appliquer PySpark dans le contexte de l'ingestion, de la transformation et de l'analyse des données.
- Utiliser les boucles et la logique conditionnelle pour contrôler les flux de travail de données et les tâches d'ingénierie des caractéristiques.
- Créer et gérer des fonctions définies par l'utilisateur (UDFs) pour des opérations de données réutilisables en PySpark.
Format du cours permettant d'évaluer les participants
- Cours interactif avec discussion.
- Nombreux exercices et pratiques.
- Mise en œuvre pratique dans un environnement de laboratoire en direct.
Options de personnalisation du cours
- Pour demander une formation personnalisée pour ce cours, veuillez nous contacter pour organiser.