Formation Apache Iceberg Fundamentals
Apache Iceberg est un format de table open-source pour les ensembles de données à grande échelle qui apporte la fiabilité et la simplicité des tables SQL aux données volumineuses. Il a été conçu pour résoudre les problèmes de gestion des données volumineuses dans les lacs de données, qui impliquent souvent la manipulation de schémas complexes, de fichiers volumineux et de sources de données diverses.
Cette formation en direct (en ligne ou sur site) est destinée aux professionnels des données de niveau débutant qui souhaitent acquérir les connaissances et les compétences nécessaires pour utiliser efficacement Apache Iceberg afin de gérer des ensembles de données à grande échelle, d'assurer l'intégrité des données et d'optimiser les flux de travail de traitement des données.
A l'issue de cette formation, les participants seront capables de :
- Acquérir une compréhension approfondie de l'architecture, des fonctionnalités et des avantages d'Apache Iceberg.
- Apprendre les formats de table, le partitionnement, l'évolution des schémas et les capacités de déplacement dans le temps.
- Installer et configurer Apache Iceberg dans différents environnements.
- Créer, gérer et manipuler des tables Iceberg.
- Comprendre le processus de migration des données d'autres formats de tables vers Iceberg.
Format du cours permettant d'évaluer les participants
- Exposé et discussion interactifs.
- Beaucoup d'exercices et de pratique.
- Mise en œuvre pratique dans un environnement live-lab.
Options de personnalisation du cours
- Pour demander une formation personnalisée pour ce cours, veuillez nous contacter.
Plan du cours
Introduction à Apache Iceberg
- Présentation d'Apache Iceberg
- Importance et cas d'utilisation dans une architecture de données moderne
- Fonctionnalités et avantages principaux
Concepts de base
- Format et architecture des tables Iceberg
- Comparaison avec d'autres formats de table
- Partitionnement et évolution du schéma
- Voyage dans le temps et versionnement des données
Configuration d'Apache Iceberg
- Installation et configuration
- Intégration d'Iceberg avec différents moteurs de traitement de données
- Mise en place d'un environnement Iceberg sur une machine locale
Opérations de base
- Création et gestion des tables Iceberg
- Écrire et lire dans les tables Iceberg
- Opérations CRUD de base
Migration et intégration des données
- Migration des données de Hive et d'autres systèmes vers Iceberg
- Intégration avec des outils de BI
- Migration d'un échantillon de données vers Iceberg
Optimisation des performances
- Techniques d'optimisation des performances
- Optimisation des requêtes et des balayages de données
- Optimisation des performances dans Iceberg
Aperçu des fonctionnalités avancées
- Évolution des partitions et partitionnement caché
- Évolution des tables et modifications du schéma
- Fonctionnalités de voyage dans le temps et de retour en arrière
- Mise en œuvre des fonctionnalités avancées dans Iceberg
Résumé et prochaines étapes
Pré requis
- Familiarité avec des concepts tels que les tables, les schémas, les partitions et l'ingestion de données
- Connaissance de base de SQL
Public
- Ingénieurs de données
- Architectes de données
- Analystes de données
- Développeurs de logiciels
Les formations ouvertes requièrent plus de 3 participants.
Formation Apache Iceberg Fundamentals - Booking
Formation Apache Iceberg Fundamentals - Enquiry
Apache Iceberg Fundamentals - Demande d'informations consulting
Demande d'informations consulting
Nos clients témoignent (3)
Le formateur maîtrisait bien les concepts
Josheel - Verizon Connect
Formation - Amazon Redshift
Traduction automatique
fonctions analytiques
khusboo dassani - Tech Northwest Skillnet
Formation - SQL Advanced
Traduction automatique
comment le formateur démontre ses connaissances dans le sujet qu'il enseigne
john ernesto ii fernandez - Philippine AXA Life Insurance Corporation
Formation - Data Vault: Building a Scalable Data Warehouse
Traduction automatique
Cours à venir
Cours Similaires
SQL Advanced
14 HeuresCette formation en direct et dirigée par un formateur (en ligne ou sur site) est destinée aux administrateurs de base de données, développeurs et analystes intermédiaires qui souhaitent maîtriser les fonctionnalités avancées SQL pour des opérations de données complexes et la gestion de bases de données.
À la fin de cette formation, les participants seront capables de :
- Réaliser des techniques d'interrogation avancée en utilisant les unions, sous-requêtes et jointures complexes.
- Ajouter, mettre à jour et supprimer des données, des tables, des vues et des indices avec précision.
- Garantir l'intégrité des données par le biais des transactions et manipuler la structure de la base de données.
- Créer et gérer efficacement les bases de données pour un stockage et une récupération robustes des données.
Amazon Redshift
21 HeuresAmazon Redshift est un service d'entrepôt de données à l'échelle du pétaoctet basé sur le cloud dans AWS.
Dans cette formation en direct dirigée par un instructeur, les participants apprendront les principes fondamentaux de Amazon Redshift.
À la fin de cette formation, les participants seront capables de :
- Installer et configurer Amazon Redshift
- Charger, configurer, déployer, interroger et visualiser les données avec Amazon Redshift.
Audience
- Développeurs
- Professionnels de l'informatique
Format du cours permettant d'évaluer les participants
- En partie cours magistral, en partie discussion, exercices et pratique intensive.
Remarque
- Pour demander une formation personnalisée pour ce cours, veuillez nous contacter.
Advanced Apache Iceberg
21 HeuresCette formation en direct avec instructeur à France (en ligne ou sur site) est destinée aux professionnels des données de niveau avancé qui souhaitent optimiser les flux de traitement des données, assurer l'intégrité des données et mettre en œuvre des solutions de data lakehouse robustes qui peuvent gérer les complexités des applications modernes de big data.
A l'issue de cette formation, les participants seront en mesure de :
- Acquérir une compréhension approfondie de l'architecture d'Iceberg, y compris la gestion des métadonnées et la disposition des fichiers.
- Configurer Iceberg pour des performances optimales dans divers environnements et l'intégrer à plusieurs moteurs de traitement de données.
- Gérer des tables Iceberg à grande échelle, effectuer des changements de schéma complexes et gérer l'évolution des partitions.
- Maîtriser les techniques permettant d'optimiser les performances des requêtes et l'efficacité de l'analyse des données pour les grands ensembles de données.
- Mettre en œuvre des mécanismes pour assurer la cohérence des données, gérer les garanties transactionnelles et gérer les défaillances dans les environnements distribués.
Big Data Consulting
21 HeuresCette formation en direct avec instructeur à France (en ligne ou sur site) s'adresse aux professionnels de l'informatique de niveau intermédiaire qui souhaitent améliorer leurs compétences en matière d'architecture de données, de gouvernance, de cloud computing et de technologies big data afin de gérer et d'analyser efficacement les grands ensembles de données pour la migration des données au sein de leur organisation.
À l'issue de cette formation, les participants seront en mesure de :
- Comprendre les concepts fondamentaux et les composants des différentes architectures de données.
- Comprendre les principes de la gouvernance des données et leur importance dans les environnements réglementaires.
- Mettre en œuvre et gérer des cadres de gouvernance des données tels que Dama et Togaf.
- Exploiter les plateformes en nuage pour un stockage, un traitement et une gestion efficaces des données.
Big Data & Database Systems Fundamentals
14 HeuresLe cours fait partie des compétences de Data Scientist (domaine: données et technologie).
Azure Data Lake Storage Gen2
14 HeuresCette formation en direct avec instructeur à France (en ligne ou sur site) est destinée aux ingénieurs de données de niveau intermédiaire qui souhaitent apprendre à utiliser Azure Data Lake Storage Gen2 pour des solutions d'analyse de données efficaces.
À l'issue de cette formation, les participants seront en mesure de :
- Comprendre l'architecture et les principales fonctionnalités de Azure Data Lake Storage Gen2.
- Optimiser le stockage et l'accès aux données en termes de coûts et de performances.
- Intégrer Azure Data Lake Storage Gen2 avec d'autres services Azure pour l'analyse et le traitement des données.
- Développer des solutions à l'aide de l'API Azure Data Lake Storage Gen2.
- Dépanner les problèmes courants et optimiser les stratégies de stockage.
Data Vault: Building a Scalable Data Warehouse
28 HeuresAu cours de cette formation en direct à France, les participants apprendront à construire un Data Vault.
À l'issue de cette formation, les participants seront en mesure de :
- Comprendre l'architecture et les concepts de conception derrière Data Vault 2.0, et son interaction avec Big Data, NoSQL et l'IA.
- Utiliser les techniques de mise en voûte des données pour permettre l'audit, le traçage et l'inspection des données historiques dans un entrepôt de données.
- Développer un processus ETL (Extract, Transform, Load) cohérent et reproductible.
- Construire et déployer des entrepôts hautement évolutifs et reproductibles.
Apache Druid for Real-Time Data Analysis
21 HeuresApache Druid est un magasin de données distribué open-source, orienté colonne, écrit en Java . Il a été conçu pour ingérer rapidement d’énormes quantités de données d’événement et exécuter des requêtes OLAP à faible temps de latence sur ces données. Druid est couramment utilisé dans les applications de business intelligence pour analyser de gros volumes de données historiques et en temps réel. Il est également bien adapté pour alimenter des tableaux de bord analytiques interactifs rapides pour les utilisateurs finaux. Druid est utilisé par des sociétés telles que Alibaba, Airbnb, Cisco , eBay, Netflix, Paypal et Yahoo.
Dans ce cours en direct dirigé par un instructeur, nous explorons certaines des limites des solutions d'entrepôt de données et expliquons comment Druid peut compléter ces technologies pour former une pile d'analyses en continu flexible et évolutive. Nous parcourons de nombreux exemples, en offrant aux participants la possibilité de mettre en œuvre et de tester des solutions basées sur Druid dans un environnement de laboratoire.
Format du cours permettant d'évaluer les participants
- Partie de conférence, partie de discussion, travaux pratiques intensifs, tests occasionnels pour évaluer la compréhension
Greenplum Administration: Installation, Updates, and Libraries
21 HeuresGreenplum est une plateforme de données parallèle massive et open-source basée sur PostgreSQL, conçue pour l'analyse avancée et le stockage de données à grande échelle.
Cette formation en direct (en ligne ou sur site) sous la direction d'un formateur est destinée aux administrateurs intermédiaires qui souhaitent installer, configurer et gérer efficacement des environnements Greenplum, y compris la gestion des mises à jour système et des bibliothèques.
À la fin de cette formation, les participants seront en mesure de :
- Installer et configurer un cluster Greenplum prêt pour la production.
- Gérer les mises à jour du système et appliquer des correctifs en toute sécurité.
- Gérer les bibliothèques Greenplum pour l'analyse et les extensions.
- Dépanner et surveiller les systèmes Greenplum.
Format de la formation
- Cours interactif et discussion.
- Utilisation pratique de Greenplum dans un environnement de laboratoire contrôlé.
- Exercices guidés axés sur l'installation du cluster, les workflows de mise à niveau et les extensions système.
Options de personnalisation du cours
- Pour demander une formation personnalisée pour ce cours basée sur votre environnement ou plateforme de données, veuillez nous contacter pour arranger cela.
Greenplum Architecture and Data Modeling
21 HeuresGreenplum est une plateforme de données open-source avec traitement massivement parallèle (MPP) conçue pour les analyses et les environnements de données à grande échelle.
Ce cours en direct dirigé par un formateur (en ligne ou sur place) s'adresse aux utilisateurs techniques intermédiaires et avancés qui souhaitent comprendre l'architecture interne de Greenplum, concevoir des modèles de données optimisés et appliquer une haute performance SQL dans les environnements distribués.
À la fin de ce cours, les participants seront capables de :
- Comprendre l'architecture sans partage de Greenplum et son modèle de parallélisme.
- Définir des structures de tables et des partitions distribuées optimisées pour la performance des requêtes.
- Utiliser des stratégies d'indexation, des formats de stockage et des techniques de conception physique.
- Interpréter les plans EXPLAIN et optimiser les requêtes en utilisant les meilleures pratiques.
Format du cours permettant d'évaluer les participants
- Cours interactif et discussion.
- Bien des exercices et de la pratique.
- Mise en œuvre pratique dans un environnement de laboratoire en direct.
Options de personnalisation du cours
- Pour demander une formation personnalisée pour ce cours, veuillez nous contacter pour arranger cela.
Greenplum Database
14 HeuresCette formation en direct (en ligne ou sur site) s'adresse aux administrateurs qui souhaitent mettre en place Greenplum Database des solutions de veille stratégique et d'entreposage de données.
A l'issue de cette formation, les participants seront capables de :
- Gérer les besoins de traitement avec Greenplum.
- Réaliser des opérations ETL pour le traitement des données.
- Tirer parti des infrastructures existantes de traitement des requêtes.
IBM Datastage For Administrators and Developers
35 HeuresCette formation en direct avec instructeur à France (en ligne ou sur site) est destinée aux professionnels de l'informatique de niveau intermédiaire qui souhaitent avoir une compréhension complète d'IBM DataStage à la fois du point de vue de l'administration et du développement, leur permettant de gérer et d'utiliser cet outil de manière efficace dans leurs lieux de travail respectifs.
A l'issue de cette formation, les participants seront capables de :
- Comprendre les concepts fondamentaux de DataStage.
- Apprendre à installer, configurer et gérer efficacement les environnements DataStage.
- Se connecter à diverses sources de données et extraire efficacement des données à partir de bases de données, de fichiers plats et de sources externes.
- Mettre en œuvre des techniques efficaces de chargement de données.
Apache Kylin: Real-Time OLAP on Big Data
14 HeuresCette formation en direct, animée par un formateur (en ligne ou sur site), s'adresse aux professionnels intermédiaires du grand volume de données qui souhaitent utiliser Apache Kylin pour construire des entrepôts de données en temps réel et effectuer une analyse multidimensionnelle sur des jeux de données à grande échelle.
À la fin de cette formation, les participants seront capables de :
- Configurer et paramétrer Apache Kylin avec des sources de données de flux en temps réel.
- Dessiner et construire des cubes OLAP pour les données batch et de flux.
- Effectuer des requêtes complexes avec une latence inférieure à une seconde en utilisant l'interface SQL de Kylin.
- Intégrer Kylin avec des outils BI pour la visualisation interactive des données.
- Optimiser les performances et gérer efficacement les ressources dans Kylin.
Oracle SQL for Development and Database Management
35 HeuresCette formation en direct (en ligne ou sur site) s'adresse aux professionnels des bases de données de niveau intermédiaire qui souhaitent améliorer leurs compétences en matière de développement et d'administration des bases de données Oracle SQL.
A l'issue de cette formation, les participants seront capables de :
- Construire et optimiser des requêtes SQL complexes.
- Gérer efficacement les bases de données à l'aide d'outils Oracle SQL.
- Appliquer les meilleures pratiques dans le développement et la maintenance des bases de données.
- Administrer l'accès des utilisateurs et la sécurité des bases de données dans un environnement Oracle.