Formation Big Data Storage Solution - NoSQL
Lorsque les technologies de stockage traditionnelles ne gèrent pas la quantité de données que vous avez besoin de stocker, il existe des centaines d’alternatives. Ce cours essaie de montrer aux participants quelles sont les alternatives pour stocker et analyser le Big Data et quels sont leurs avantages et leurs inconvénients.
Ce cours est principalement axé sur la discussion et la présentation de solutions, bien que des exercices pratiques soient disponibles sur demande.
Plan du cours
Limites des technologies traditionnelles
- SQL bases de données
- Redondance : répliques et grappes
- Contraintes
- Vitesse
Aperçu des types de bases de données
- Objets Database
- Magasin de documents
- Nuage Database
- Magasin de colonnes étendues
- Multidimensionnelle Databases
- Multivaleur Databases
- Streaming et séries temporelles Databases
- Multimodèle Databases
- Graphique Databases
- Valeur clé
- XML Databases
- Distribuer les systèmes de fichiers
Populaire NoSQL Databases
- MongoDB
- Cassandra
- Apache Hadoop
- Apache Spark
- autres solutions
NewSQL
- Aperçu des solutions disponibles
- Performance de l'application
- Inconvénients
Stockage de documents/Search Optimisé
- Solr/Lucene/Elasticsearch
- autres solutions
Pré requis
Bonne compréhension des technologies traditionnelles de stockage de données (MySQL, Oracle, SQL Server, etc...).
Les formations ouvertes requièrent plus de 3 participants.
Formation Big Data Storage Solution - NoSQL - Booking
Formation Big Data Storage Solution - NoSQL - Enquiry
Big Data Storage Solution - NoSQL - Demande d'informations consulting
Demande d'informations consulting
Nos clients témoignent (5)
The training instruments provided.
- UNIFI
Formation - NoSQL Database with Microsoft Azure Cosmos DB
Beaucoup d'exemples pratiques, différentes façons d'aborder le même problème, et parfois des astuces pas si évidentes pour améliorer la solution actuelle.
Rafal - Nordea
Formation - Apache Spark MLlib
Traduction automatique
comment le formateur démontre ses connaissances dans le sujet qu'il enseigne
john ernesto ii fernandez - Philippine AXA Life Insurance Corporation
Formation - Data Vault: Building a Scalable Data Warehouse
Traduction automatique
Pendant les exercices, James m'a expliqué chaque étape en détail là où j'étais bloqué. Je n'avais aucune expérience avec NIFI au départ. Il m'a expliqué le véritable objectif de NIFI, y compris des notions de base comme le code source ouvert. Il a couvert tous les concepts de Nifi, du niveau débutant au niveau développeur.
Firdous Hashim Ali - MOD A BLOCK
Formation - Apache NiFi for Administrators
Traduction automatique
Préparation et organisation du formateur, et qualité des matériaux fournis sur GitHub.
Mateusz Rek - MicroStrategy Poland Sp. z o.o.
Formation - Impala for Business Intelligence
Traduction automatique
Cours à venir
Cours Similaires
Artificial Intelligence - the most applied stuff - Data Analysis + Distributed AI + NLP
21 HeuresCe cours s'adresse aux développeurs et aux scientifiques des données qui souhaitent comprendre et mettre en œuvre l'IA dans leurs applications. Une attention particulière est accordée à l'analyse des données, à l'IA distribuée et au traitement du langage naturel.
Unified Batch and Stream Processing with Apache Beam
14 HeuresApache Beam est un modèle de programmation unifié et open source permettant de définir et d'exécuter des pipelines de traitement de données parallèles. Sa puissance réside dans sa capacité à exécuter des pipelines en batch et en streaming, l'exécution étant réalisée par l'un des back-ends de traitement distribué pris en charge par Beam : Apache Apex, Apache Flink, Apache Spark et Go ogle Cloud Dataflow. Beam Apache Beam est utile pour les tâches ETL (Extract, Transform, and Load) telles que le déplacement de données entre différents supports de stockage et sources de données, la transformation de données dans un format plus souhaitable, et le chargement de données sur un nouveau système.
Au cours de cette formation en direct (sur site ou à distance), les participants apprendront à mettre en œuvre les SDK Apache Beam dans une application Java ou Python qui définit un pipeline de traitement des données permettant de décomposer un ensemble de données volumineuses en morceaux plus petits pour un traitement indépendant et parallèle.
À la fin de cette formation, les participants seront capables de :
- Installer et configurer Apache Beam.
- Utiliser un modèle de programmation unique pour effectuer des traitements par lots et par flux à partir de leur application Java ou Python.
- Exécuter des pipelines dans plusieurs environnements.
Format du cours permettant d'évaluer les participants
- En partie cours magistral, en partie discussion, exercices et pratique intensive.
Remarque
- Ce cours sera disponible Scala dans le futur. Veuillez nous contacter pour convenir d'un rendez-vous.
NoSQL Database with Microsoft Azure Cosmos DB
14 HeuresCette formation en direct, dirigée par un formateur, à France (en ligne ou sur site) s'adresse aux administrateurs de base de données ou développeurs qui souhaitent utiliser Microsoft Azure Cosmos DB pour développer et gérer des applications hautement réactives et à faible latence.
A l'issue de cette formation, les participants seront capables de :
- Mettre en place les ressources Cosmos DB nécessaires pour commencer la construction de bases de données et d'applications.
- Échelonner les performances et le stockage de l'application en utilisant les API de Cosmos DB.
- Gérer les opérations de base de données et réduire les coûts en optimisant les ressources Cosmos DB.
Data Vault: Building a Scalable Data Warehouse
28 HeuresAu cours de cette formation en direct à France, les participants apprendront à construire un Data Vault.
À l'issue de cette formation, les participants seront en mesure de :
- Comprendre l'architecture et les concepts de conception derrière Data Vault 2.0, et son interaction avec Big Data, NoSQL et l'IA.
- Utiliser les techniques de mise en voûte des données pour permettre l'audit, le traçage et l'inspection des données historiques dans un entrepôt de données.
- Développer un processus ETL (Extract, Transform, Load) cohérent et reproductible.
- Construire et déployer des entrepôts hautement évolutifs et reproductibles.
Apache Flink Fundamentals
28 HeuresCette formation en direct à France (en ligne ou sur site) présente les principes et les approches du traitement distribué des données en flux et par lots, et accompagne les participants dans la création d'une application de flux de données en temps réel dans Apache Flink.
A la fin de cette formation, les participants seront capables de :
- Mettre en place un environnement pour développer des applications d'analyse de données.
- Comprendre le fonctionnement de la bibliothèque de traitement de graphes de Apache Flink (Gelly).
- Mettre en place, exécuter et surveiller des applications de streaming de données basées sur Flink et tolérantes aux pannes.
- Gérer diverses charges de travail.
- Effectuer des analyses avancées.
- Mettre en place un cluster Flink à plusieurs nœuds.
- Mesurer et optimiser les performances.
- Intégrer Flink à différents systèmes Big Data.
- Comparer les capacités de Flink avec celles d'autres frameworks de traitement des big data.
Introduction to Graph Computing
28 HeuresAu cours de cette formation en direct à France, les participants découvriront les offres technologiques et les approches de mise en œuvre pour le traitement des données graphiques. L'objectif est d'identifier les objets du monde réel, leurs caractéristiques et leurs relations, puis de modéliser ces relations et de les traiter en tant que données à l'aide d'une approche Graph Computing (également connue sous le nom de Graph Analytics). Nous commençons par une vue d'ensemble et nous nous concentrons sur des outils spécifiques à travers une série d'études de cas, d'exercices pratiques et de déploiements en direct.
A la fin de cette formation, les participants seront capables de :
- Comprendre comment les données graphiques sont persistées et parcourues.
- Sélectionner le meilleur framework pour une tâche donnée (des bases de données de graphes aux frameworks de traitement par lots).
- Mettre en œuvre Hadoop, Spark, GraphX et Pregel pour effectuer des calculs de graphes sur de nombreuses machines en parallèle.
- Voir les problèmes de big data du monde réel en termes de graphes, de processus et de traversées.
Hortonworks Data Platform (HDP) for Administrators
21 HeuresCette formation en direct à France (en ligne ou sur site) présente Hortonworks Data Platform (HDP) et accompagne les participants dans le déploiement de la solution Spark + Hadoop.
A l'issue de cette formation, les participants seront capables de :
- Utiliser Hortonworks pour exécuter de manière fiable Hadoop à grande échelle.
- Unifier les capacités de sécurité, de gouvernance et d'exploitation de Hadoop avec les flux de travail analytiques agiles de Spark.
- Utiliser Hortonworks pour étudier, valider, certifier et prendre en charge chacun des composants d'un projet Spark.
- Traiter différents types de données, notamment structurées, non structurées, en mouvement et au repos.
Impala for Business Intelligence
21 HeuresCloudera Impala est un moteur de requête open source de traitement massivement parallèle (MPP) SQL pour les clusters Apache Hadoop.
Cloudera Impala permet aux utilisateurs d'émettre des requêtes à faible latence SQL sur des données stockées dans Hadoop Distributed File System et Apache Hbase sans avoir à déplacer ou à transformer les données.
Public
Ce cours s'adresse aux analystes et aux scientifiques des données qui effectuent des analyses sur des données stockées dans Hadoop via des outils Business Intelligence ou SQL.
À l'issue de cette formation, les participants seront en mesure de
- Extraire des informations significatives des clusters Hadoop avec Impala.
- Écrire des programmes spécifiques pour faciliter Business Intelligence dans Impala SQL Dialecte.
- Dépanner Impala.
Confluent KSQL
7 HeuresCette formation en direct dans France (en ligne ou sur site) est destinée aux développeurs qui souhaitent mettre en œuvre le traitement de flux Apache Kafka sans écrire de code.
A l'issue de cette formation, les participants seront capables de :
- Installer et configurer Confluent KSQL.
- Mettre en place un pipeline de traitement de flux en utilisant uniquement des commandes SQL (pas de codage Java ou Python).
- Effectuer le filtrage des données, les transformations, les agrégations, les jointures, le fenêtrage et la sessionnalisation entièrement en SQL.
- Concevoir et déployer des requêtes interactives et continues pour l'ETL en continu et l'analyse en temps réel.
Apache NiFi for Administrators
21 HeuresAu cours de cette formation en direct, dirigée par un instructeur, à France (sur place ou à distance), les participants apprendront à déployer et à gérer Apache NiFi dans un environnement de laboratoire réel.
A la fin de cette formation, les participants seront capables de :
- Installer et configurer Apachi NiFi.
- Rechercher, transformer et gérer des données à partir de sources de données disparates et distribuées, y compris les bases de données et les lacs de données.
- Automatiser les flux de données.
- Permettre l'analyse en continu.
- Appliquer différentes approches pour l'ingestion de données.
- Transformer les données Big Data en informations commerciales.
Apache NiFi for Developers
7 HeuresAu cours de cette formation en direct et dirigée par un instructeur dans France, les participants apprendront les principes fondamentaux de la programmation par flux en développant un certain nombre d'extensions, de composants et de processeurs de démonstration à l'aide de Apache NiFi.
A la fin de cette formation, les participants seront capables de :
- Comprendre l'architecture de NiFi et les concepts de flux de données.
- Développer des extensions en utilisant NiFi et des APIs tierces.
- Développer leur propre processeur Apache Nifi.
- Ingérer et traiter des données en temps réel à partir de formats de fichiers et de sources de données disparates et peu communs.
Python and Spark for Big Data (PySpark)
21 HeuresAu cours de cette formation en direct avec instructeur à France, les participants apprendront à utiliser Python et Spark ensemble pour analyser les données volumineuses (big data) en travaillant sur des exercices pratiques.
A la fin de cette formation, les participants seront capables de :
- Apprendre à utiliser Spark avec Python pour analyser Big Data.
- Travailler sur des exercices qui imitent des cas réels.
- Utiliser différents outils et techniques pour l'analyse des big data en utilisant PySpark.
Spark Streaming with Python and Kafka
7 HeuresCette formation en direct avec instructeur dans France (en ligne ou sur site) est destinée aux ingénieurs de données, aux scientifiques de données et aux programmeurs qui souhaitent utiliser les fonctionnalités de Spark Streaming dans le traitement et l'analyse de données en temps réel.
À la fin de cette formation, les participants seront en mesure d'utiliser Spark Streaming pour traiter des flux de données en temps réel et les utiliser dans des bases de données, des systèmes de fichiers et des tableaux de bord en temps réel.
Apache Spark MLlib
35 HeuresMLlib est la bibliothèque d'apprentissage automatique (ML) de Spark. Son objectif est de rendre l'apprentissage pratique pratique évolutif et facile. Il comprend des algorithmes et des utilitaires d'apprentissage courants, notamment la classification, la régression, la mise en cluster, le filtrage collaboratif, la réduction de la dimensionnalité, ainsi que des primitives d'optimisation de niveau inférieur et des API de pipeline de niveau supérieur.
Il se divise en deux paquets:
spark.mllib contient l'API d'origine construite sur les RDD.
spark.ml fournit des API de niveau supérieur construites à partir de DataFrames pour la construction de pipelines ML.
Public
Ce cours s’adresse aux ingénieurs et aux développeurs qui souhaitent utiliser une bibliothèque de machines intégrée à Apache Spark
Stratio: Rocket and Intelligence Modules with PySpark
14 HeuresStratio est une plateforme centrée sur les données qui intègre le big data, l'IA et la gouvernance dans une seule solution. Ses modules Rocket et Intelligence permettent une exploration rapide des données, leur transformation et des analyses avancées dans les environnements d’entreprise.
Cette formation dispensée par un formateur (en ligne ou sur site) s'adresse aux professionnels de niveau intermédiaire en données qui souhaitent utiliser efficacement les modules Rocket et Intelligence de Stratio avec PySpark, en se concentrant sur les structures de boucle, les fonctions définies par l'utilisateur et la logique des données avancée.
À la fin de cette formation, les participants pourront :
- Naviguer et travailler au sein de la plateforme Stratio en utilisant les modules Rocket et Intelligence.
- Appliquer PySpark dans le contexte d'ingestion, de transformation et d'analyse des données.
- Utiliser des boucles et une logique conditionnelle pour contrôler les flux de travail des données et les tâches d'ingénierie des fonctionnalités.
- Créer et gérer des fonctions définies par l'utilisateur (UDFs) pour les opérations réutilisables des données dans PySpark.
Format de la Formation
- Cours interactif et discussion.
- De nombreuses exercices et pratiques.
- Implémentation pratique dans un environnement de laboratoire en direct.
Options de Personnalisation du Cours
- Pour demander une formation personnalisée pour ce cours, veuillez nous contacter pour en faire la demande.