Formation Talend Big Data Integration
Talend Open Studio for Big Data est un outil ETL open source pour le traitement des big data. Il inclut un environnement de développement pour interagir avec les sources et cibles de big data, et exécuter des tâches sans avoir à écrire de code.
Cette formation en direct (en ligne ou sur site) est destinée aux personnes techniques qui souhaitent déployer Talend Open Studio for Big Data pour simplifier le processus de lecture et d'analyse des big data.
À la fin de cette formation, les participants seront capables de :
- Installer et configurer Talend Open Studio for Big Data.
- Se connecter à des systèmes de big data tels que Cloudera, HortonWorks, MapR, Amazon EMR et Apache.
- Comprendre et configurer les composants et connecteurs de big data d'Open Studio.
- Configurer des paramètres pour générer automatiquement du code MapReduce.
- Utiliser l'interface de glisser-déposer d'Open Studio pour exécuter des tâches Hadoop.
- Prototyper des pipelines de big data.
- Automatiser des projets d'intégration de big data.
Format du cours permettant d'évaluer les participants
- Conférence interactive et discussion.
- Nombreux exercices et pratiques.
- Mise en œuvre pratique dans un environnement de laboratoire live.
Options de personnalisation du cours
- Pour demander une formation personnalisée pour ce cours, veuillez nous contacter pour organiser.
Plan du cours
Introduction
Aperçu des fonctionnalités et de l'architecture de "Open Studio for Big Data"
Configuration d'Open Studio pour le big data
Navigation dans l'interface utilisateur
Compréhension des composants et connecteurs de big data
Connexion à un cluster Hadoop
Lecture et écriture de données
Traitement des données avec Hive et MapReduce
Analyse des résultats
Amélioration de la qualité du big data
Création d'un pipeline de big data
Gestion des utilisateurs, groupes, rôles et projets
Déploiement d'Open Studio en production
Surveillance d'Open Studio
Dépannage
Résumé et conclusion
Pré requis
- Une compréhension des bases de données relationnelles
- Une compréhension des entrepôts de données
- Une compréhension des concepts ETL (Extract, Transform, Load)
Public cible
- Spécialistes de l'intelligence d'affaires
- Professionnels des bases de données
- Développeurs SQL
- Développeurs ETL
- Architectes de solutions
- Architectes de données
- Professionnels des entrepôts de données
- Administrateurs et intégrateurs systèmes
Les formations ouvertes requièrent plus de 3 participants.
Formation Talend Big Data Integration - Réservation
Formation Talend Big Data Integration - Demande de renseignements
NobleProg propose des formations professionnelles conçues spécifiquement pour les entreprises et les organisations. Ces formations ne sont pas destinées aux particuliers.
Talend Big Data Integration - Demande d'informations consulting
Nos clients témoignent (1)
Exercices pratiques. La formation aurait dû durer 5 jours, mais les 3 jours ont permis de clarifier beaucoup de questions que je me posais déjà en travaillant avec NiFi.
James - BHG Financial
Formation - Apache NiFi for Administrators
Traduction automatique
Cours à venir
Cours Similaires
Big Data Analytics avec Google Colab et Apache Spark
14 HeuresCe formation en direct (en ligne ou sur site) est destinée aux scientifiques des données et ingénieurs de niveau intermédiaire qui souhaitent utiliser Google Colab et Apache Spark pour le traitement et l'analyse de grandes masses de données.
À la fin de cette formation, les participants seront capables de :
- Configurer un environnement big data en utilisant Google Colab et Spark.
- Traiter et analyser des jeux de données volumineux efficacement avec Apache Spark.
- Visualiser les grands ensembles de données dans un environnement collaboratif.
- Intégrer Apache Spark avec des outils basés sur le cloud.
Hadoop pour Administrateurs
21 HeuresApache Hadoop est le cadre le plus populaire pour le traitement Big Data sur des clusters de serveurs. Au cours de ce stage de trois jours (quatre jours optionnellement), les participants apprendront les avantages commerciaux et les cas d'utilisation pour Hadoop et son écosystème, comment planifier la mise en place et l'expansion du cluster, comment installer, entretenir, surveiller, résoudre les problèmes et optimiser Hadoop. Ils pratiqueront également le chargement de données massives sur le cluster, se familiariseront avec diverses distributions Hadoop, et exerceront l'installation et la gestion des outils de l'écosystème Hadoop. Le cours se terminera par une discussion sur la sécurisation du cluster avec Kerberos.
“…Les matériaux étaient très bien préparés et couverts en profondeur. La salle d'exercices était très utile et bien organisée”
— Andrew Nguyen, Principal Integration DW Engineer, Microsoft Online Advertising
Audience
Administrateurs Hadoop
Format
Conférences et ateliers pratiques, répartition approximative 60% conférences, 40% ateliers.
Apache NiFi pour les Administrateurs
21 HeuresApache NiFi est une plateforme open-source, basée sur le flux de données, pour l'intégration et le traitement d'événements. Elle permet un routage, une transformation et une médiation en temps réel entre des systèmes disparates, avec une interface utilisateur web et un contrôle granulaire.
Cette formation dirigée par un instructeur (sur site ou à distance) est destinée aux administrateurs et ingénieurs de niveau intermédiaire qui souhaitent déployer, gérer, sécuriser et optimiser les flux de données NiFi dans des environnements de production.
À la fin de cette formation, les participants seront en mesure de :
- Installer, configurer et maintenir des clusters Apache NiFi.
- Concevoir et gérer des flux de données provenant de sources et de récepteurs variés.
- Mettre en œuvre l'automatisation du flux, le routage et la logique de transformation.
- Optimiser les performances, surveiller les opérations et dépanner les problèmes.
Format du cours permettant d'évaluer les participants
- Cours interactif avec discussion sur l'architecture réelle.
- Laboratoires pratiques : construction, déploiement et gestion des flux.
- Exercices basés sur des scénarios dans un environnement de laboratoire en direct.
Options de personnalisation du cours
- Pour demander une formation personnalisée pour ce cours, veuillez nous contacter pour organiser.
Apache NiFi pour les Développeurs
7 HeuresAu cours de cette formation en direct et dirigée par un instructeur dans France, les participants apprendront les principes fondamentaux de la programmation par flux en développant un certain nombre d'extensions, de composants et de processeurs de démonstration à l'aide de Apache NiFi.
A la fin de cette formation, les participants seront capables de :
- Comprendre l'architecture de NiFi et les concepts de flux de données.
- Développer des extensions en utilisant NiFi et des APIs tierces.
- Développer leur propre processeur Apache Nifi.
- Ingérer et traiter des données en temps réel à partir de formats de fichiers et de sources de données disparates et peu communs.
PySpark et Machine Learning
21 HeuresCette formation offre une introduction pratique à la construction de workflows évolutifs de traitement de données et de Machine Learning utilisant PySpark. Les participants découvrent le fonctionnement d'Apache Spark au sein des écosystèmes modernes de Big Data et apprennent à traiter efficacement de grands volumes de données grâce aux principes du calcul distribué.
Fondamentaux d'Apache Spark
21 HeuresCette formation en direct (en ligne ou sur site) s'adresse aux ingénieurs qui souhaitent mettre en place et déployer un système Apache Spark de traitement de très grandes quantités de données.
A l'issue de cette formation, les participants seront capables de :
- Installer et configurer Apache Spark.
- Traiter et analyser rapidement de très grands ensembles de données.
- Comprendre la différence entre Apache Spark et Hadoop MapReduce et savoir quand utiliser l'un ou l'autre.
- Intégrer Apache Spark avec d'autres outils d'apprentissage automatique.
Administration d'Apache Spark
35 HeuresCette formation en direct avec instructeur à France (en ligne ou sur site) s'adresse aux administrateurs système de niveau débutant à intermédiaire qui souhaitent déployer, maintenir et optimiser les clusters Spark.
A l'issue de cette formation, les participants seront capables de :
- Installer et configurer Apache Spark dans différents environnements.
- Gérer les ressources du cluster et surveiller les applications Spark.
- Optimiser les performances des clusters Spark.
- Mettre en place des mesures de sécurité et assurer la haute disponibilité.
- Déboguer et résoudre les problèmes courants liés à Spark.
Apache Spark dans le Cloud
21 HeuresL'apprentissage d'Apache Spark présente une courbe d'apprentissage qui s'accélère lentement au début, nécessitant beaucoup d'efforts pour obtenir les premiers résultats. Ce cours vise à franchir la première partie difficile. Après avoir suivi ce cours, les participants comprendront les bases d'Apache Spark, distingueront clairement RDD de DataFrame, apprendront l'API Python et Scala, comprendront les exécuteurs et les tâches, etc. En suivant les meilleures pratiques, ce cours se concentre fortement sur le déploiement dans le cloud, Databricks et AWS. Les étudiants comprendront également les différences entre AWS EMR et AWS Glue, l'un des derniers services Spark d'AWS.
PUBLIC :
Data Engineer, DevOps, Data Scientist
Spark pour les Développeurs
21 HeuresOBJECTIF :
Ce cours introduira Apache Spark. Les étudiants apprendront comment Spark s'intègre dans l'écosystème Big Data, ainsi que comment utiliser Spark pour l'analyse des données. Le cours couvre le Spark shell pour l'analyse interactive des données, les internals de Spark, les API de Spark, Spark SQL, Spark streaming, et machine learning et GraphX.
PUBLIC :
Développeurs / Analystes de données
Échelle des Canaux de Données avec Spark NLP
14 HeuresCette formation en France (en ligne ou sur site) s'adresse aux data scientists et aux développeurs qui souhaitent utiliser Spark NLP, construit sur Apache Spark, pour développer, implémenter et mettre à l'échelle des modèles et des pipelines de traitement de texte en langage naturel.
A la fin de cette formation, les participants seront capables de :
- Mettre en place l'environnement de développement nécessaire pour commencer à construire des pipelines NLP avec Spark NLP.
- Comprendre les caractéristiques, l'architecture et les avantages de l'utilisation de Spark NLP.
- Utiliser les modèles pré-entraînés disponibles dans Spark NLP pour implémenter le traitement de texte.
- Apprendre à construire, entraîner et mettre à l'échelle les modèles Spark NLP pour des projets de production.
- Appliquer la classification, l'inférence et l'analyse des sentiments sur des cas d'utilisation réels (données cliniques, comportement des clients, etc.).
Python et Spark pour les Grandes Données (PySpark)
21 HeuresAu cours de cette formation en direct avec instructeur à France, les participants apprendront à utiliser Python et Spark ensemble pour analyser les données volumineuses (big data) en travaillant sur des exercices pratiques.
A la fin de cette formation, les participants seront capables de :
- Apprendre à utiliser Spark avec Python pour analyser Big Data.
- Travailler sur des exercices qui imitent des cas réels.
- Utiliser différents outils et techniques pour l'analyse des big data en utilisant PySpark.
Python, Spark et Hadoop pour les grands volumes de données
21 HeuresCette formation en France (en ligne ou sur site) est destinée aux développeurs qui souhaitent utiliser et intégrer Spark, Hadoop et Python pour traiter, analyser et transformer des ensembles de données complexes et volumineux.
A l'issue de cette formation, les participants seront capables de :
- Mettre en place l'environnement nécessaire pour commencer à traiter les big data avec Spark, Hadoop et Python.
- Comprendre les fonctionnalités, les composants de base et l'architecture de Spark et Hadoop.
- Apprendre à intégrer Spark, Hadoop et Python pour le traitement des big data.
- Explorer les outils de l'écosystème Spark (Spark MlLib, Spark Streaming, Kafka, Sqoop, Kafka et Flume).
- Construire des systèmes de recommandation par filtrage collaboratif similaires à Netflix, YouTube, Amazon, Spotify et Google.
- Utiliser Apache Mahout pour mettre à l'échelle des algorithmes d'apprentissage automatique.
Apache Spark SQL
7 HeuresApache Spark SQL est le module d'Apache Spark pour travailler avec des données structurées et non structurées. Spark SQL fournit des informations sur la structure des données ainsi que sur les calculs effectués. Ces informations peuvent être utilisées pour réaliser des optimisations. Deux utilisations courantes de Spark SQL sont:
- pour exécuter des requêtes SQL.
- pour lire des données à partir d'une installation Hive existante.
Dans cette formation dirigée par un instructeur (en présentiel ou à distance), les participants apprendront à analyser divers types de jeux de données à l'aide de Spark SQL.
À la fin de cette formation, les participants seront en mesure de :
- Installer et configurer Spark SQL.
- Effectuer des analyses de données avec Spark SQL.
- Interroger des jeux de données dans différents formats.
- Visualiser les données et les résultats des requêtes.
Format du cours permettant d'évaluer les participants
- Cours interactif et discussion.
- Beaucoup d'exercices et de pratique.
- Mise en œuvre pratique dans un environnement de laboratoire en direct.
Options de personnalisation du cours
- Pour demander une formation personnalisée pour ce cours, veuillez nous contacter pour organiser cela.
Stratio : Modules Rocket et Intelligence avec PySpark
14 HeuresStratio est une plateforme axée sur les données qui intègre le big data, l'IA et la gouvernance dans une seule solution. Ses modules Rocket et Intelligence permettent des explorations de données rapides, des transformations et des analyses avancées dans des environnements d'entreprise.
Cette formation dirigée par un instructeur (en ligne ou sur site) est destinée aux professionnels des données de niveau intermédiaire qui souhaitent utiliser efficacement les modules Rocket et Intelligence de Stratio avec PySpark, en se concentrant sur les structures de boucle, les fonctions définies par l'utilisateur et la logique de données avancée.
À la fin de cette formation, les participants seront capables de :
- Naviguer et travailler dans la plateforme Stratio en utilisant les modules Rocket et Intelligence.
- Appliquer PySpark dans le contexte de l'ingestion, de la transformation et de l'analyse des données.
- Utiliser les boucles et la logique conditionnelle pour contrôler les flux de travail de données et les tâches d'ingénierie des caractéristiques.
- Créer et gérer des fonctions définies par l'utilisateur (UDFs) pour des opérations de données réutilisables en PySpark.
Format du cours permettant d'évaluer les participants
- Cours interactif avec discussion.
- Nombreux exercices et pratiques.
- Mise en œuvre pratique dans un environnement de laboratoire en direct.
Options de personnalisation du cours
- Pour demander une formation personnalisée pour ce cours, veuillez nous contacter pour organiser.