Formation IBM Datastage Pour les Administrateurs et les Développeurs
IBM DataStage est un puissant outil d'extraction, de transformation et de chargement (ETL) utilisé dans l'entrepôt de données et la business intelligence. Il aide les organisations à intégrer et transformer de grands volumes de données provenant de diverses sources de données en un format unifié.
Cette formation dirigée par un instructeur (en ligne ou sur site) est destinée aux professionnels IT intermédiaires qui souhaitent avoir une compréhension complète d'IBM DataStage, tant du point de vue administratif que du développement, leur permettant de gérer et d'utiliser cet outil efficacement dans leurs environnements respectifs.
À la fin de cette formation, les participants seront en mesure de :
- Comprendre les concepts fondamentaux de DataStage.
- Apprendre à installer, configurer et gérer efficacement des environnements DataStage.
- Se connecter à diverses sources de données et extraire des données efficacement depuis des bases de données, des fichiers plats et des sources externes.
- Mettre en œuvre des techniques de chargement de données efficaces.
Format du Cours
- Conférence interactive et discussion.
- Nombreux exercices et pratiques.
- Mise en œuvre pratique dans un environnement de laboratoire en direct.
Options de Personnalisation du Cours
- Pour demander une formation personnalisée pour ce cours, veuillez nous contacter pour organiser.
Plan du cours
Introduction à DataStage
- Aperçu du processus ETL
- Compréhension de l'architecture DataStage
- Composants clés de DataStage
Administration de DataStage
- Installation et configuration
- Gestion des utilisateurs et de la sécurité
- Configuration de projets et gestion de l'environnement
- Planification et gestion des travaux
- Procédures de sauvegarde et de récupération
Techniques d'Extraction de Données
- Connexion à diverses sources de données
- Extraction de données depuis des bases de données, des fichiers plats et des sources externes
- Meilleures pratiques d'extraction de données
Transformation de Données avec DataStage
- Compréhension du concepteur DataStage
- Travail avec différents types d'étapes
- Mise en œuvre de la logique métier dans les transformations
- Techniques avancées de transformation de données
Chargement et Intégration de Données
- Chargement de données dans les systèmes cibles
- Assurance de la qualité et de l'intégrité des données
- Gestion des erreurs et journalisation
Optimisation et Tuning des Performances
- Meilleures pratiques pour l'optimisation des performances
- Gestion des ressources
- Séquencement des travaux et parallélisme
Sujets Avancés
- Travail avec DataStage Director
- Débogage et résolution de problèmes
Résumé et Prochaines Étapes
Pré requis
- Compréhension de base des concepts de bases de données
- Familiarité avec SQL et les principes d'entrepôt de données
Public cible
- Professionnels IT
- Administrateurs de bases de données
- Développeurs
Les formations ouvertes requièrent plus de 3 participants.
Formation IBM Datastage Pour les Administrateurs et les Développeurs - Réservation
Formation IBM Datastage Pour les Administrateurs et les Développeurs - Demande de renseignements
NobleProg propose des formations professionnelles conçues spécifiquement pour les entreprises et les organisations. Ces formations ne sont pas destinées aux particuliers.
IBM Datastage Pour les Administrateurs et les Développeurs - Demande d'informations consulting
Nos clients témoignent (1)
Exercices pratiques. La formation aurait dû durer 5 jours, mais les 3 jours ont permis de clarifier beaucoup de questions que je me posais déjà en travaillant avec NiFi.
James - BHG Financial
Formation - Apache NiFi for Administrators
Traduction automatique
Cours à venir
Cours Similaires
Avancé Apache Iceberg
21 HeuresCette formation dirigée par un instructeur, en direct à France (en ligne ou sur site), est destinée aux professionnels de données de niveau avancé qui souhaitent optimiser les flux de travail de traitement des données, assurer l'intégrité des données et mettre en œuvre des solutions robustes de data lakehouse capables de gérer les complexités des applications de big data modernes.
À la fin de cette formation, les participants seront en mesure de :
- Acquérir une compréhension approfondie de l'architecture d'Iceberg, y compris la gestion des métadonnées et la disposition des fichiers.
- Configurer Iceberg pour un rendement optimal dans divers environnements et l'intégrer à plusieurs moteurs de traitement des données.
- Gérer les tables d'Iceberg à grande échelle, effectuer des modifications complexes du schéma et gérer l'évolution des partitions.
- Maîtriser les techniques pour optimiser la performance des requêtes et l'efficacité de la lecture des données pour des ensembles de données volumineux.
- Mettre en œuvre des mécanismes pour assurer la cohérence des données, gérer les garanties transactionnelles et gérer les échecs dans des environnements distribués.
Fondements d'Apache Iceberg
14 HeuresCette formation dirigée par un instructeur et en direct à France (en ligne ou sur site) est destinée aux professionnels des données débutants qui souhaitent acquérir les connaissances et compétences nécessaires pour utiliser efficacement Apache Iceberg dans la gestion de jeux de données de grande taille, assurer l'intégrité des données et optimiser les workflows de traitement des données.
À la fin de cette formation, les participants seront capables de :
- Acquérir une compréhension approfondie de l'architecture, des fonctionnalités et des avantages d'Apache Iceberg.
- Apprendre les formats de table, la partition, l'évolution du schéma et les capacités de voyage dans le temps.
- Installer et configurer Apache Iceberg dans différents environnements.
- Créer, gérer et manipuler des tables Iceberg.
- Comprendre le processus de migration des données d'autres formats de table vers Iceberg.
Big Data Analytics avec Google Colab et Apache Spark
14 HeuresCe formation en direct (en ligne ou sur site) est destinée aux scientifiques des données et ingénieurs de niveau intermédiaire qui souhaitent utiliser Google Colab et Apache Spark pour le traitement et l'analyse de grandes masses de données.
À la fin de cette formation, les participants seront capables de :
- Configurer un environnement big data en utilisant Google Colab et Spark.
- Traiter et analyser des jeux de données volumineux efficacement avec Apache Spark.
- Visualiser les grands ensembles de données dans un environnement collaboratif.
- Intégrer Apache Spark avec des outils basés sur le cloud.
Intelligence d'affaires Big Data pour les agences gouvernementales
35 HeuresLes progrès technologiques et l'augmentation des volumes d'information transforment la manière dont les affaires sont menées dans de nombreux secteurs, y compris le gouvernement. Les taux de génération et d'archivage numérique des données gouvernementales augmentent en raison de la croissance rapide des appareils mobiles et des applications, des capteurs intelligents et des dispositifs, des solutions de cloud computing et des portails destinés aux citoyens. À mesure que l'information numérique s'étend et devient plus complexe, la gestion, le traitement, le stockage, la sécurité et la disposition des données deviennent également plus complexes. De nouveaux outils de capture, de recherche, de découverte et d'analyse aident les organisations à tirer des insights de leurs données non structurées. Le marché gouvernemental est à un point d'inflexion, réalisant que l'information est un actif stratégique, et que le gouvernement doit protéger, exploiter et analyser tant les informations structurées que non structurées pour mieux servir et répondre aux exigences de sa mission. Alors que les dirigeants gouvernementaux s'efforcent d'évoluer vers des organisations axées sur les données pour accomplir avec succès leur mission, ils posent les bases pour corrélérer les dépendances entre les événements, les personnes, les processus et l'information.
Des solutions gouvernementales de haute valeur seront créées à partir d'un mélange des technologies les plus disruptives :
- Appareils et applications mobiles
- Services cloud
- Technologies de réseautage professionnel et de médias sociaux
- Big Data et analytics
Le Big Data est l'une des solutions intelligentes pour les industries et permet au gouvernement de prendre de meilleures décisions en agissant sur les modèles révélés par l'analyse de grands volumes de données — structurées ou non, liées ou non.
Mais accomplir ces prouesses nécessite bien plus que simplement accumuler des quantités massives de données. « Comprendre le sens de ces volumes de Big Data nécessite des outils et technologies de pointe capables d'analyser et d'extraire des connaissances utiles à partir de flux d'information vastes et diversifiés », ont écrit Tom Kalil et Fen Zhao du Bureau de la politique scientifique et technologique de la Maison Blanche dans un billet sur le blog OSTP.
La Maison Blanche a fait un pas pour aider les agences à trouver ces technologies en établissant l'Initiative nationale de recherche et développement Big Data en 2012. L'initiative comprenait plus de 200 millions de dollars pour tirer le meilleur parti de l'explosion du Big Data et des outils nécessaires pour l'analyser.
Les défis posés par le Big Data sont presque aussi redoutables que ses promesses sont encourageantes. Le stockage efficace des données est l'un de ces défis. Comme toujours, les budgets sont serrés, donc les agences doivent minimiser le coût du stockage par mégaoctet et conserver les données facilement accessibles pour que les utilisateurs puissent y accéder quand ils le souhaitent et comme ils en ont besoin. La sauvegarde de quantités massives de données accentue ce défi.
Analyser efficacement les données est un autre défi majeur. De nombreuses agences utilisent des outils commerciaux qui leur permettent de trier à travers des montagnes de données, repérant des tendances qui peuvent les aider à opérer plus efficacement. (Une récente étude de MeriTalk a montré que les dirigeants IT fédéraux pensaient que le Big Data pourrait aider les agences à économiser plus de 500 milliards de dollars tout en remplissant leurs objectifs de mission.).
Des outils Big Data développés sur mesure permettent également aux agences d'analyser leurs données. Par exemple, le groupe Analyse des Données Computationnelles du Laboratoire National Oak Ridge a rendu son système d'analyse de données Piranha disponible pour d'autres agences. Le système a aidé les chercheurs médicaux à trouver un lien permettant d'alerter les médecins sur les anévrysmes aortiques avant qu'ils ne surviennent. Il est également utilisé pour des tâches plus ordinaires, comme trier des CV pour connecter des candidats à des postes avec des gestionnaires de recrutement.
Une Introduction Pratique à Data Analysis et Big Data - 3 Jours
21 HeuresLes participants qui suivront cette formation en direct et dirigée par un instructeur dans France acquerront une compréhension pratique et réelle de Big Data et des technologies, méthodologies et outils qui y sont associés.
Les participants auront l'occasion de mettre en pratique ces connaissances par le biais d'exercices pratiques. L'interaction du groupe et le retour d'information de l'instructeur constituent une composante importante du cours.
Le cours commence par une introduction aux concepts élémentaires de Big Data, puis progresse vers les langages de programmation et les méthodologies utilisées pour réaliser Data Analysis. Enfin, nous discutons des outils et de l'infrastructure qui permettent le stockage Big Data, le traitement distribué et la Scalabilité.
Big Data et Analytique Avancée
42 HeuresBig Data et l'Analyse Avancée est l'application de techniques et outils sophistiqués pour analyser de grands ensembles de données complexes afin d'en tirer des insights exploitables et prendre des décisions stratégiques.
Cette formation dispensée par un formateur (en ligne ou sur site) s'adresse aux professionnels avancés des données souhaitant utiliser des méthodes analytiques à la pointe et des technologies de big data pour l'analyse prédictive, prescriptive et en temps réel.
À la fin de cette formation, les participants seront capables de :
- Concevoir et mettre en œuvre des pipelines de traitement de données à grande échelle pour les données structurées et non structurées.
- Appliquer des techniques d'apprentissage automatique avancé et profond à de vastes jeux de données.
- Tirer parti des cadres de calcul distribué pour l'analyse en temps réel et le flux de données.
- Intégrer l'analyse de big data dans les systèmes d'intelligence d'affaires et de prise de décision.
Format du cours permettant d'évaluer les participants
- Cours interactif avec discussion.
- Nombreux exercices et pratiques.
- Mise en œuvre pratique dans un environnement de laboratoire en direct.
Options de personnalisation du cours
- Pour demander une formation personnalisée pour ce cours, veuillez nous contacter pour arranger cela.
Apache NiFi pour les Administrateurs
21 HeuresApache NiFi est une plateforme open-source, basée sur le flux de données, pour l'intégration et le traitement d'événements. Elle permet un routage, une transformation et une médiation en temps réel entre des systèmes disparates, avec une interface utilisateur web et un contrôle granulaire.
Cette formation dirigée par un instructeur (sur site ou à distance) est destinée aux administrateurs et ingénieurs de niveau intermédiaire qui souhaitent déployer, gérer, sécuriser et optimiser les flux de données NiFi dans des environnements de production.
À la fin de cette formation, les participants seront en mesure de :
- Installer, configurer et maintenir des clusters Apache NiFi.
- Concevoir et gérer des flux de données provenant de sources et de récepteurs variés.
- Mettre en œuvre l'automatisation du flux, le routage et la logique de transformation.
- Optimiser les performances, surveiller les opérations et dépanner les problèmes.
Format du cours permettant d'évaluer les participants
- Cours interactif avec discussion sur l'architecture réelle.
- Laboratoires pratiques : construction, déploiement et gestion des flux.
- Exercices basés sur des scénarios dans un environnement de laboratoire en direct.
Options de personnalisation du cours
- Pour demander une formation personnalisée pour ce cours, veuillez nous contacter pour organiser.
PySpark et Machine Learning
21 HeuresCette formation offre une introduction pratique à la construction de workflows évolutifs de traitement de données et de Machine Learning utilisant PySpark. Les participants découvrent le fonctionnement d'Apache Spark au sein des écosystèmes modernes de Big Data et apprennent à traiter efficacement de grands volumes de données grâce aux principes du calcul distribué.
Fondamentaux d'Apache Spark
21 HeuresCette formation en direct (en ligne ou sur site) s'adresse aux ingénieurs qui souhaitent mettre en place et déployer un système Apache Spark de traitement de très grandes quantités de données.
A l'issue de cette formation, les participants seront capables de :
- Installer et configurer Apache Spark.
- Traiter et analyser rapidement de très grands ensembles de données.
- Comprendre la différence entre Apache Spark et Hadoop MapReduce et savoir quand utiliser l'un ou l'autre.
- Intégrer Apache Spark avec d'autres outils d'apprentissage automatique.
Administration d'Apache Spark
35 HeuresCette formation en direct avec instructeur à France (en ligne ou sur site) s'adresse aux administrateurs système de niveau débutant à intermédiaire qui souhaitent déployer, maintenir et optimiser les clusters Spark.
A l'issue de cette formation, les participants seront capables de :
- Installer et configurer Apache Spark dans différents environnements.
- Gérer les ressources du cluster et surveiller les applications Spark.
- Optimiser les performances des clusters Spark.
- Mettre en place des mesures de sécurité et assurer la haute disponibilité.
- Déboguer et résoudre les problèmes courants liés à Spark.
Apache Spark dans le Cloud
21 HeuresL'apprentissage d'Apache Spark présente une courbe d'apprentissage qui s'accélère lentement au début, nécessitant beaucoup d'efforts pour obtenir les premiers résultats. Ce cours vise à franchir la première partie difficile. Après avoir suivi ce cours, les participants comprendront les bases d'Apache Spark, distingueront clairement RDD de DataFrame, apprendront l'API Python et Scala, comprendront les exécuteurs et les tâches, etc. En suivant les meilleures pratiques, ce cours se concentre fortement sur le déploiement dans le cloud, Databricks et AWS. Les étudiants comprendront également les différences entre AWS EMR et AWS Glue, l'un des derniers services Spark d'AWS.
PUBLIC :
Data Engineer, DevOps, Data Scientist
Python et Spark pour les Grandes Données (PySpark)
21 HeuresAu cours de cette formation en direct avec instructeur à France, les participants apprendront à utiliser Python et Spark ensemble pour analyser les données volumineuses (big data) en travaillant sur des exercices pratiques.
A la fin de cette formation, les participants seront capables de :
- Apprendre à utiliser Spark avec Python pour analyser Big Data.
- Travailler sur des exercices qui imitent des cas réels.
- Utiliser différents outils et techniques pour l'analyse des big data en utilisant PySpark.
Python, Spark et Hadoop pour les grands volumes de données
21 HeuresCette formation en France (en ligne ou sur site) est destinée aux développeurs qui souhaitent utiliser et intégrer Spark, Hadoop et Python pour traiter, analyser et transformer des ensembles de données complexes et volumineux.
A l'issue de cette formation, les participants seront capables de :
- Mettre en place l'environnement nécessaire pour commencer à traiter les big data avec Spark, Hadoop et Python.
- Comprendre les fonctionnalités, les composants de base et l'architecture de Spark et Hadoop.
- Apprendre à intégrer Spark, Hadoop et Python pour le traitement des big data.
- Explorer les outils de l'écosystème Spark (Spark MlLib, Spark Streaming, Kafka, Sqoop, Kafka et Flume).
- Construire des systèmes de recommandation par filtrage collaboratif similaires à Netflix, YouTube, Amazon, Spotify et Google.
- Utiliser Apache Mahout pour mettre à l'échelle des algorithmes d'apprentissage automatique.
Stratio : Modules Rocket et Intelligence avec PySpark
14 HeuresStratio est une plateforme axée sur les données qui intègre le big data, l'IA et la gouvernance dans une seule solution. Ses modules Rocket et Intelligence permettent des explorations de données rapides, des transformations et des analyses avancées dans des environnements d'entreprise.
Cette formation dirigée par un instructeur (en ligne ou sur site) est destinée aux professionnels des données de niveau intermédiaire qui souhaitent utiliser efficacement les modules Rocket et Intelligence de Stratio avec PySpark, en se concentrant sur les structures de boucle, les fonctions définies par l'utilisateur et la logique de données avancée.
À la fin de cette formation, les participants seront capables de :
- Naviguer et travailler dans la plateforme Stratio en utilisant les modules Rocket et Intelligence.
- Appliquer PySpark dans le contexte de l'ingestion, de la transformation et de l'analyse des données.
- Utiliser les boucles et la logique conditionnelle pour contrôler les flux de travail de données et les tâches d'ingénierie des caractéristiques.
- Créer et gérer des fonctions définies par l'utilisateur (UDFs) pour des opérations de données réutilisables en PySpark.
Format du cours permettant d'évaluer les participants
- Cours interactif avec discussion.
- Nombreux exercices et pratiques.
- Mise en œuvre pratique dans un environnement de laboratoire en direct.
Options de personnalisation du cours
- Pour demander une formation personnalisée pour ce cours, veuillez nous contacter pour organiser.