Formation Streaming de données et traitement des données en temps réel
Présentation du cours
Ce cours propose une introduction pratique et structurée à la conception de systèmes de streaming de données en temps réel. Il couvre les concepts fondamentaux, les modèles d’architecture et les outils industriels utilisés pour traiter des données continues à grande échelle. Les participants apprendront à concevoir, implémenter et optimiser des pipelines de streaming à l’aide de frameworks modernes. Le parcours pédagogique progresse des notions de base vers des applications concrètes, permettant aux apprenants de concevoir en toute confiance des solutions temps réel prêtes pour la production.
Format de la formation
• Sessions encadrées par un formateur avec explications guidées
• Walkthroughs des concepts illustrés par des exemples concrets
• Démonstrations pratiques et exercices de codage
• Laboratoires progressifs alignés sur les thèmes quotidiens
• Discussions interactives et sessions de questions-réponses
Objectifs du cours
• Comprendre les concepts du streaming de données en temps réel et l’architecture des systèmes
• Distinguer les modèles de traitement des données par lots (batch) et en streaming
• Concevoir des pipelines de streaming évolutifs et tolérants aux pannes
• Utiliser des outils et frameworks de streaming distribués
• Appliquer le traitement par temps d’événement, le windowing et les opérations avec état
• Concevoir et optimiser des solutions de données en temps réel adaptées aux cas d’usage métier
Plan du cours
Programme du Jour 1
• Introduction aux concepts du streaming de données
• Fondamentaux du traitement par lots versus en temps réel
• Bases de l’architecture événementielle
• Cas d’usage courants dans l’industrie
• Aperçu de l’écosystème du streaming
Jour 2
• Modèles d’architecture de conception pour le streaming
• Principes des systèmes de messagerie distribuée
• Producteurs et consommateurs
• Sujets (topics), partitions et flux de données
• Stratégies d’ingestion de données
Jour 3
• Concepts et frameworks de traitement de flux
• Temps d’événement vs temps de traitement
• Techniques de windowing et leurs cas d’usage
• Traitement de flux avec état
• Bases de la tolérance aux pannes et de la mise à jour des points de contrôle
Jour 4
• Transformation des données dans les pipelines de streaming
• ETL et ELT dans les systèmes temps réel
• Gestion et évolution des schémas
• Jointures et enrichissement de flux
• Introduction aux services de streaming sur cloud
Jour 5
• Surveillance et observabilité dans les systèmes de streaming
• Bases de la sécurité et du contrôle d’accès
• Réglage des performances et optimisation
• Revue complète de la conception de pipelines de bout en bout
• Études de cas réelles, telles que la détection de fraude et le traitement de données IoT
Les formations ouvertes requièrent plus de 3 participants.
Formation Streaming de données et traitement des données en temps réel - Réservation
Formation Streaming de données et traitement des données en temps réel - Demande de renseignements
NobleProg propose des formations professionnelles conçues spécifiquement pour les entreprises et les organisations. Ces formations ne sont pas destinées aux particuliers.
Streaming de données et traitement des données en temps réel - Demande d'informations consulting
Nos clients témoignent (1)
Exercices pratiques. La formation aurait dû durer 5 jours, mais les 3 jours ont permis de clarifier beaucoup de questions que je me posais déjà en travaillant avec NiFi.
James - BHG Financial
Formation - Apache NiFi for Administrators
Traduction automatique
Cours à venir
Cours Similaires
Avancé Apache Iceberg
21 HeuresCette formation dirigée par un instructeur, en direct à France (en ligne ou sur site), est destinée aux professionnels de données de niveau avancé qui souhaitent optimiser les flux de travail de traitement des données, assurer l'intégrité des données et mettre en œuvre des solutions robustes de data lakehouse capables de gérer les complexités des applications de big data modernes.
À la fin de cette formation, les participants seront en mesure de :
- Acquérir une compréhension approfondie de l'architecture d'Iceberg, y compris la gestion des métadonnées et la disposition des fichiers.
- Configurer Iceberg pour un rendement optimal dans divers environnements et l'intégrer à plusieurs moteurs de traitement des données.
- Gérer les tables d'Iceberg à grande échelle, effectuer des modifications complexes du schéma et gérer l'évolution des partitions.
- Maîtriser les techniques pour optimiser la performance des requêtes et l'efficacité de la lecture des données pour des ensembles de données volumineux.
- Mettre en œuvre des mécanismes pour assurer la cohérence des données, gérer les garanties transactionnelles et gérer les échecs dans des environnements distribués.
Fondements d'Apache Iceberg
14 HeuresCette formation dirigée par un instructeur et en direct à France (en ligne ou sur site) est destinée aux professionnels des données débutants qui souhaitent acquérir les connaissances et compétences nécessaires pour utiliser efficacement Apache Iceberg dans la gestion de jeux de données de grande taille, assurer l'intégrité des données et optimiser les workflows de traitement des données.
À la fin de cette formation, les participants seront capables de :
- Acquérir une compréhension approfondie de l'architecture, des fonctionnalités et des avantages d'Apache Iceberg.
- Apprendre les formats de table, la partition, l'évolution du schéma et les capacités de voyage dans le temps.
- Installer et configurer Apache Iceberg dans différents environnements.
- Créer, gérer et manipuler des tables Iceberg.
- Comprendre le processus de migration des données d'autres formats de table vers Iceberg.
Big Data Analytics avec Google Colab et Apache Spark
14 HeuresCe formation en direct (en ligne ou sur site) est destinée aux scientifiques des données et ingénieurs de niveau intermédiaire qui souhaitent utiliser Google Colab et Apache Spark pour le traitement et l'analyse de grandes masses de données.
À la fin de cette formation, les participants seront capables de :
- Configurer un environnement big data en utilisant Google Colab et Spark.
- Traiter et analyser des jeux de données volumineux efficacement avec Apache Spark.
- Visualiser les grands ensembles de données dans un environnement collaboratif.
- Intégrer Apache Spark avec des outils basés sur le cloud.
Intelligence d'affaires Big Data pour les agences gouvernementales
35 HeuresLes progrès technologiques et l'augmentation des volumes d'information transforment la manière dont les affaires sont menées dans de nombreux secteurs, y compris le gouvernement. Les taux de génération et d'archivage numérique des données gouvernementales augmentent en raison de la croissance rapide des appareils mobiles et des applications, des capteurs intelligents et des dispositifs, des solutions de cloud computing et des portails destinés aux citoyens. À mesure que l'information numérique s'étend et devient plus complexe, la gestion, le traitement, le stockage, la sécurité et la disposition des données deviennent également plus complexes. De nouveaux outils de capture, de recherche, de découverte et d'analyse aident les organisations à tirer des insights de leurs données non structurées. Le marché gouvernemental est à un point d'inflexion, réalisant que l'information est un actif stratégique, et que le gouvernement doit protéger, exploiter et analyser tant les informations structurées que non structurées pour mieux servir et répondre aux exigences de sa mission. Alors que les dirigeants gouvernementaux s'efforcent d'évoluer vers des organisations axées sur les données pour accomplir avec succès leur mission, ils posent les bases pour corrélérer les dépendances entre les événements, les personnes, les processus et l'information.
Des solutions gouvernementales de haute valeur seront créées à partir d'un mélange des technologies les plus disruptives :
- Appareils et applications mobiles
- Services cloud
- Technologies de réseautage professionnel et de médias sociaux
- Big Data et analytics
Le Big Data est l'une des solutions intelligentes pour les industries et permet au gouvernement de prendre de meilleures décisions en agissant sur les modèles révélés par l'analyse de grands volumes de données — structurées ou non, liées ou non.
Mais accomplir ces prouesses nécessite bien plus que simplement accumuler des quantités massives de données. « Comprendre le sens de ces volumes de Big Data nécessite des outils et technologies de pointe capables d'analyser et d'extraire des connaissances utiles à partir de flux d'information vastes et diversifiés », ont écrit Tom Kalil et Fen Zhao du Bureau de la politique scientifique et technologique de la Maison Blanche dans un billet sur le blog OSTP.
La Maison Blanche a fait un pas pour aider les agences à trouver ces technologies en établissant l'Initiative nationale de recherche et développement Big Data en 2012. L'initiative comprenait plus de 200 millions de dollars pour tirer le meilleur parti de l'explosion du Big Data et des outils nécessaires pour l'analyser.
Les défis posés par le Big Data sont presque aussi redoutables que ses promesses sont encourageantes. Le stockage efficace des données est l'un de ces défis. Comme toujours, les budgets sont serrés, donc les agences doivent minimiser le coût du stockage par mégaoctet et conserver les données facilement accessibles pour que les utilisateurs puissent y accéder quand ils le souhaitent et comme ils en ont besoin. La sauvegarde de quantités massives de données accentue ce défi.
Analyser efficacement les données est un autre défi majeur. De nombreuses agences utilisent des outils commerciaux qui leur permettent de trier à travers des montagnes de données, repérant des tendances qui peuvent les aider à opérer plus efficacement. (Une récente étude de MeriTalk a montré que les dirigeants IT fédéraux pensaient que le Big Data pourrait aider les agences à économiser plus de 500 milliards de dollars tout en remplissant leurs objectifs de mission.).
Des outils Big Data développés sur mesure permettent également aux agences d'analyser leurs données. Par exemple, le groupe Analyse des Données Computationnelles du Laboratoire National Oak Ridge a rendu son système d'analyse de données Piranha disponible pour d'autres agences. Le système a aidé les chercheurs médicaux à trouver un lien permettant d'alerter les médecins sur les anévrysmes aortiques avant qu'ils ne surviennent. Il est également utilisé pour des tâches plus ordinaires, comme trier des CV pour connecter des candidats à des postes avec des gestionnaires de recrutement.
Une Introduction Pratique à Data Analysis et Big Data - 3 Jours
21 HeuresLes participants qui suivront cette formation en direct et dirigée par un instructeur dans France acquerront une compréhension pratique et réelle de Big Data et des technologies, méthodologies et outils qui y sont associés.
Les participants auront l'occasion de mettre en pratique ces connaissances par le biais d'exercices pratiques. L'interaction du groupe et le retour d'information de l'instructeur constituent une composante importante du cours.
Le cours commence par une introduction aux concepts élémentaires de Big Data, puis progresse vers les langages de programmation et les méthodologies utilisées pour réaliser Data Analysis. Enfin, nous discutons des outils et de l'infrastructure qui permettent le stockage Big Data, le traitement distribué et la Scalabilité.
Big Data et Analytique Avancée
42 HeuresBig Data et l'Analyse Avancée est l'application de techniques et outils sophistiqués pour analyser de grands ensembles de données complexes afin d'en tirer des insights exploitables et prendre des décisions stratégiques.
Cette formation dispensée par un formateur (en ligne ou sur site) s'adresse aux professionnels avancés des données souhaitant utiliser des méthodes analytiques à la pointe et des technologies de big data pour l'analyse prédictive, prescriptive et en temps réel.
À la fin de cette formation, les participants seront capables de :
- Concevoir et mettre en œuvre des pipelines de traitement de données à grande échelle pour les données structurées et non structurées.
- Appliquer des techniques d'apprentissage automatique avancé et profond à de vastes jeux de données.
- Tirer parti des cadres de calcul distribué pour l'analyse en temps réel et le flux de données.
- Intégrer l'analyse de big data dans les systèmes d'intelligence d'affaires et de prise de décision.
Format du cours permettant d'évaluer les participants
- Cours interactif avec discussion.
- Nombreux exercices et pratiques.
- Mise en œuvre pratique dans un environnement de laboratoire en direct.
Options de personnalisation du cours
- Pour demander une formation personnalisée pour ce cours, veuillez nous contacter pour arranger cela.
Apache NiFi pour les Administrateurs
21 HeuresApache NiFi est une plateforme open-source, basée sur le flux de données, pour l'intégration et le traitement d'événements. Elle permet un routage, une transformation et une médiation en temps réel entre des systèmes disparates, avec une interface utilisateur web et un contrôle granulaire.
Cette formation dirigée par un instructeur (sur site ou à distance) est destinée aux administrateurs et ingénieurs de niveau intermédiaire qui souhaitent déployer, gérer, sécuriser et optimiser les flux de données NiFi dans des environnements de production.
À la fin de cette formation, les participants seront en mesure de :
- Installer, configurer et maintenir des clusters Apache NiFi.
- Concevoir et gérer des flux de données provenant de sources et de récepteurs variés.
- Mettre en œuvre l'automatisation du flux, le routage et la logique de transformation.
- Optimiser les performances, surveiller les opérations et dépanner les problèmes.
Format du cours permettant d'évaluer les participants
- Cours interactif avec discussion sur l'architecture réelle.
- Laboratoires pratiques : construction, déploiement et gestion des flux.
- Exercices basés sur des scénarios dans un environnement de laboratoire en direct.
Options de personnalisation du cours
- Pour demander une formation personnalisée pour ce cours, veuillez nous contacter pour organiser.
PySpark et Machine Learning
21 HeuresCette formation offre une introduction pratique à la construction de workflows évolutifs de traitement de données et de Machine Learning utilisant PySpark. Les participants découvrent le fonctionnement d'Apache Spark au sein des écosystèmes modernes de Big Data et apprennent à traiter efficacement de grands volumes de données grâce aux principes du calcul distribué.
Fondamentaux d'Apache Spark
21 HeuresCette formation en direct (en ligne ou sur site) s'adresse aux ingénieurs qui souhaitent mettre en place et déployer un système Apache Spark de traitement de très grandes quantités de données.
A l'issue de cette formation, les participants seront capables de :
- Installer et configurer Apache Spark.
- Traiter et analyser rapidement de très grands ensembles de données.
- Comprendre la différence entre Apache Spark et Hadoop MapReduce et savoir quand utiliser l'un ou l'autre.
- Intégrer Apache Spark avec d'autres outils d'apprentissage automatique.
Administration d'Apache Spark
35 HeuresCette formation en direct avec instructeur à France (en ligne ou sur site) s'adresse aux administrateurs système de niveau débutant à intermédiaire qui souhaitent déployer, maintenir et optimiser les clusters Spark.
A l'issue de cette formation, les participants seront capables de :
- Installer et configurer Apache Spark dans différents environnements.
- Gérer les ressources du cluster et surveiller les applications Spark.
- Optimiser les performances des clusters Spark.
- Mettre en place des mesures de sécurité et assurer la haute disponibilité.
- Déboguer et résoudre les problèmes courants liés à Spark.
Apache Spark dans le Cloud
21 HeuresL'apprentissage d'Apache Spark présente une courbe d'apprentissage qui s'accélère lentement au début, nécessitant beaucoup d'efforts pour obtenir les premiers résultats. Ce cours vise à franchir la première partie difficile. Après avoir suivi ce cours, les participants comprendront les bases d'Apache Spark, distingueront clairement RDD de DataFrame, apprendront l'API Python et Scala, comprendront les exécuteurs et les tâches, etc. En suivant les meilleures pratiques, ce cours se concentre fortement sur le déploiement dans le cloud, Databricks et AWS. Les étudiants comprendront également les différences entre AWS EMR et AWS Glue, l'un des derniers services Spark d'AWS.
PUBLIC :
Data Engineer, DevOps, Data Scientist
Python et Spark pour les Grandes Données (PySpark)
21 HeuresAu cours de cette formation en direct avec instructeur à France, les participants apprendront à utiliser Python et Spark ensemble pour analyser les données volumineuses (big data) en travaillant sur des exercices pratiques.
A la fin de cette formation, les participants seront capables de :
- Apprendre à utiliser Spark avec Python pour analyser Big Data.
- Travailler sur des exercices qui imitent des cas réels.
- Utiliser différents outils et techniques pour l'analyse des big data en utilisant PySpark.
Python, Spark et Hadoop pour les grands volumes de données
21 HeuresCette formation en France (en ligne ou sur site) est destinée aux développeurs qui souhaitent utiliser et intégrer Spark, Hadoop et Python pour traiter, analyser et transformer des ensembles de données complexes et volumineux.
A l'issue de cette formation, les participants seront capables de :
- Mettre en place l'environnement nécessaire pour commencer à traiter les big data avec Spark, Hadoop et Python.
- Comprendre les fonctionnalités, les composants de base et l'architecture de Spark et Hadoop.
- Apprendre à intégrer Spark, Hadoop et Python pour le traitement des big data.
- Explorer les outils de l'écosystème Spark (Spark MlLib, Spark Streaming, Kafka, Sqoop, Kafka et Flume).
- Construire des systèmes de recommandation par filtrage collaboratif similaires à Netflix, YouTube, Amazon, Spotify et Google.
- Utiliser Apache Mahout pour mettre à l'échelle des algorithmes d'apprentissage automatique.
Stratio : Modules Rocket et Intelligence avec PySpark
14 HeuresStratio est une plateforme axée sur les données qui intègre le big data, l'IA et la gouvernance dans une seule solution. Ses modules Rocket et Intelligence permettent des explorations de données rapides, des transformations et des analyses avancées dans des environnements d'entreprise.
Cette formation dirigée par un instructeur (en ligne ou sur site) est destinée aux professionnels des données de niveau intermédiaire qui souhaitent utiliser efficacement les modules Rocket et Intelligence de Stratio avec PySpark, en se concentrant sur les structures de boucle, les fonctions définies par l'utilisateur et la logique de données avancée.
À la fin de cette formation, les participants seront capables de :
- Naviguer et travailler dans la plateforme Stratio en utilisant les modules Rocket et Intelligence.
- Appliquer PySpark dans le contexte de l'ingestion, de la transformation et de l'analyse des données.
- Utiliser les boucles et la logique conditionnelle pour contrôler les flux de travail de données et les tâches d'ingénierie des caractéristiques.
- Créer et gérer des fonctions définies par l'utilisateur (UDFs) pour des opérations de données réutilisables en PySpark.
Format du cours permettant d'évaluer les participants
- Cours interactif avec discussion.
- Nombreux exercices et pratiques.
- Mise en œuvre pratique dans un environnement de laboratoire en direct.
Options de personnalisation du cours
- Pour demander une formation personnalisée pour ce cours, veuillez nous contacter pour organiser.