Formation HBase for Developers
Ce cours présente HBase - un magasin No SQL au-dessus de Hadoop . Le cours est destiné aux développeurs qui utiliseront HBase pour développer des applications et aux administrateurs qui géreront les clusters HBase.
Nous guiderons un développeur à travers l'architecture HBase, la modélisation de données et le développement d'applications sur HBase. Il discutera également de l’utilisation de MapReduce avec HBase et de quelques sujets d’administration liés à l’optimisation des performances. Le cours est très pratique avec de nombreux exercices de laboratoire.
Durée : 3 jours
Audience : Développeurs et Administrateurs
Plan du cours
- Section 1 : Introduction aux Big Data et NoSQL
- L'écosystème Big Data
- Vue d'ensemble de NoSQL
- Théorème CAP
- Quand NoSQL est-il approprié ?
- Stockage en colonnes
- HBase et NoSQL
- Section 2 : HBase Intro
- Concepts et conception
- Architecture (HMaster et Region Server)
- Intégrité des données
- L'écosystème HBase
- Labo : Exploration de HBase
- Section 3 : Modèle de données HBase
- Espaces de noms, tables et régions
- Lignes, colonnes, familles de colonnes, versions
- Shell HBase et commandes d'administration
- Labo : Shell HBase
- Section 3 : Accessing HBase en utilisant Java API
- Introduction à l'API Java
- Chemin de lecture / écriture
- Données de séries temporelles
- Scans
- Réduction de la carte (Map Reduce)
- Filtres
- Compteurs
- Co-processeurs
- Laboratoires (multiples) : Utilisation de l'API HBase Java pour implémenter des séries temporelles, Map Reduce, des filtres et des compteurs.
- Section 4 : Conception du schéma HBase : Session en groupe
- les étudiants se voient présenter des cas d'utilisation réels
- les étudiants travaillent en groupes pour proposer des solutions de conception
- discuter / critiquer et apprendre à partir de plusieurs conceptions
- Laboratoires : mise en œuvre d'un scénario dans HBase
- Section 5 : Les aspects internes de HBase
- Comprendre HBase sous le capot
- Memfile / HFile / WAL
- Stockage HDFS
- Compactions
- Fractionnement
- Filtres Bloom
- Caches
- Diagnostics
- Section 6 : Installation et configuration de HBase
- sélection du matériel
- méthodes d'installation
- configurations courantes
- Labo : installation de HBase
- Section 7 : L'éco-système HBase
- développement d'applications utilisant HBase
- interagir avec d'autres piles Hadoop (MapReduce, Pig, Hive)
- les frameworks autour de HBase
- concepts avancés (co-processeurs)
- Labs : écrire des applications HBase
- Section 8 : Monitoring et bonnes pratiques
- outils et pratiques de monitoring
- optimiser HBase
- HBase dans le nuage
- cas concrets d'utilisation de HBase
- Labos : vérifier les données vitales de HBase
Pré requis
- Confortable avec le langage de programmation Java
- A l'aise avec le langage de programmation Java (naviguer Linux en ligne de commande, éditer des fichiers avec vi / nano)
- Un IDE Java comme Eclipse ou IntelliJ
Lab environment:
Un cluster HBase fonctionnel sera fourni aux étudiants. Les étudiants auront besoin d'un client SSH et d'un navigateur pour accéder au cluster.
Zero Install : Il n'est pas nécessaire d'installer le logiciel HBase sur les machines des étudiants !
Les formations ouvertes requièrent plus de 3 participants.
Formation HBase for Developers - Booking
Formation HBase for Developers - Enquiry
HBase for Developers - Demande d'informations consulting
Demande d'informations consulting
Nos clients témoignent (5)
The training instruments provided.
- UNIFI
Formation - NoSQL Database with Microsoft Azure Cosmos DB
Présentation et exercices intéressants
Szymon - Agora SA
Formation - Scylla Database
Traduction automatique
Préparation et organisation du formateur, et qualité des matériaux fournis sur GitHub.
Mateusz Rek - MicroStrategy Poland Sp. z o.o.
Formation - Impala for Business Intelligence
Traduction automatique
Cela m'offre une perspective sur Redis et m'orienter vers la bonne voie si je souhaite en savoir plus sur Redis
Ameer Fiqri Barahim - Sarawak Information Systems Sdn Bhd
Formation - Redis for High Availability and Performance Training Course
Traduction automatique
les choses pratiques à faire, ainsi que la théorie qui a été bien expliquée par Ajay
Dominik Mazur - Capgemini Polska Sp. z o.o.
Formation - Hadoop Administration on MapR
Traduction automatique
Cours à venir
Cours Similaires
Administrator Training for Apache Hadoop
35 HeuresLe cours s'adresse aux spécialistes de l'informatique :
Ce cours s'adresse aux spécialistes de l'informatique qui recherchent une solution pour stocker et traiter de grands ensembles de données dans un environnement de système distribué.
Goal :
Connaissance approfondie de l'administration des clusters Hadoop.
Big Data Storage Solution - NoSQL
14 HeuresLorsque les technologies de stockage traditionnelles ne gèrent pas la quantité de données que vous avez besoin de stocker, il existe des centaines d’alternatives. Ce cours essaie de montrer aux participants quelles sont les alternatives pour stocker et analyser le Big Data et quels sont leurs avantages et leurs inconvénients.
Ce cours est principalement axé sur la discussion et la présentation de solutions, bien que des exercices pratiques soient disponibles sur demande.
Big Data & Database Systems Fundamentals
14 HeuresLe cours fait partie des compétences de Data Scientist (domaine: données et technologie).
NoSQL Database with Microsoft Azure Cosmos DB
14 HeuresCette formation en direct, dirigée par un formateur, à France (en ligne ou sur site) s'adresse aux administrateurs de base de données ou développeurs qui souhaitent utiliser Microsoft Azure Cosmos DB pour développer et gérer des applications hautement réactives et à faible latence.
A l'issue de cette formation, les participants seront capables de :
- Mettre en place les ressources Cosmos DB nécessaires pour commencer la construction de bases de données et d'applications.
- Échelonner les performances et le stockage de l'application en utilisant les API de Cosmos DB.
- Gérer les opérations de base de données et réduire les coûts en optimisant les ressources Cosmos DB.
Administration de Hadoop
21 HeuresLe cours s'adresse aux informaticiens qui recherchent une solution pour stocker et traiter de grands ensembles de données dans un environnement de système distribué.
Objectif du cours :
Acquérir des connaissances sur l'administration des clusters Hadoop.
Hadoop pour Administrateurs
21 HeuresApache Hadoop est le framework le plus populaire pour traiter Big Data sur des clusters de serveurs. Dans ce cours de trois (optionnellement, quatre) jours, les participants apprendront les avantages commerciaux et les cas d'utilisation de Hadoop et de son écosystème, comment planifier le déploiement et la croissance d'un cluster, comment installer, maintenir, surveiller, dépanner et optimiser Hadoop. Ils s'exerceront également au chargement de données en masse, se familiariseront avec les différentes distributions de Hadoop et s'entraîneront à installer et à gérer les outils de l'écosystème Hadoop. Le cours se termine par une discussion sur la sécurisation des clusters avec Kerberos.
"...Le matériel était très bien préparé et couvert de manière exhaustive. Le laboratoire était très utile et bien organisé"
- Andrew Nguyen, Ingénieur DW d'intégration principal, Microsoft Online Advertising
Audience
Hadoop administrateurs
Format
Cours magistraux et travaux pratiques, approximativement 60% de cours magistraux et 40% de travaux pratiques.
Hadoop for Developers (4 days)
28 HeuresApache Hadoop est le framework le plus populaire pour le traitement Big Data sur des clusters de serveurs. Ce cours introduira le développeur aux différents composants (HDFS, MapReduce, Pig, Hive et HBase) Hadoop de l'écosystème.
Hadoop pour Développeurs, niveau Acvancé
21 HeuresApache Hadoop est l'un des frameworks les plus populaires pour le traitement Big Data sur des clusters de serveurs. Ce cours aborde la gestion des données dans HDFS, Pig avancé, Hive, et HBase. Ces techniques de programmation avancées seront bénéfiques pour les développeurs Hadoop expérimentés.
Public: développeurs
Durée : trois jours
Format : cours magistraux (50%) et travaux pratiques (50%).
Administration de Hadoop avec MapR
28 HeuresPublic :
Ce cours vise à démystifier la technologie big data/hadoop et à montrer qu'elle n'est pas difficile à comprendre.
Hortonworks Data Platform (HDP) for Administrators
21 HeuresCette formation en direct à France (en ligne ou sur site) présente Hortonworks Data Platform (HDP) et accompagne les participants dans le déploiement de la solution Spark + Hadoop.
A l'issue de cette formation, les participants seront capables de :
- Utiliser Hortonworks pour exécuter de manière fiable Hadoop à grande échelle.
- Unifier les capacités de sécurité, de gouvernance et d'exploitation de Hadoop avec les flux de travail analytiques agiles de Spark.
- Utiliser Hortonworks pour étudier, valider, certifier et prendre en charge chacun des composants d'un projet Spark.
- Traiter différents types de données, notamment structurées, non structurées, en mouvement et au repos.
Data Analysis with Hive/HiveQL
7 HeuresCe cours explique comment utiliser le SQL Hive SQL (AKA: Hive HQL, SQL sur Hive , Hive QL) pour les personnes qui extraient des données à partir de Hive
Impala for Business Intelligence
21 HeuresCloudera Impala est un moteur de requête open source de traitement massivement parallèle (MPP) SQL pour les clusters Apache Hadoop.
Cloudera Impala permet aux utilisateurs d'émettre des requêtes à faible latence SQL sur des données stockées dans Hadoop Distributed File System et Apache Hbase sans avoir à déplacer ou à transformer les données.
Public
Ce cours s'adresse aux analystes et aux scientifiques des données qui effectuent des analyses sur des données stockées dans Hadoop via des outils Business Intelligence ou SQL.
À l'issue de cette formation, les participants seront en mesure de
- Extraire des informations significatives des clusters Hadoop avec Impala.
- Écrire des programmes spécifiques pour faciliter Business Intelligence dans Impala SQL Dialecte.
- Dépanner Impala.
A Practical Introduction to NoSQL Databases
28 HeuresLes bases de données relationnelles constituent la technologie de choix pour stocker, récupérer et interroger des données. Les bases de données relationnelles permettent aux utilisateurs d'organiser leurs données à l'aide d'un ensemble de modèles structuré et bien défini (modèle). Bien que cette approche fonctionne bien pour stocker des données normalisées et bien comprises à l’avance (imaginez une application d’enregistrement dans un hôpital qui conserve les enregistrements patient avec le même ensemble cohérent de champs prédéfinis ... id patient, prénom, nom nom, date de la dernière visite, etc.), ce modèle présente des limites. Pour les organisations dont les données entrantes ne sont pas bien définies (pensez à un formulaire de demande de renseignements en ligne destiné à une start-up qui est toujours en train d'expérimenter différents champs pour la collecte de données de visiteurs, la suppression et l'ajout de champs au fur et à mesure, afin de s'adapter à la nature changeante de la entreprises), toute définition établie de la manière dont les données devraient s'intégrer dans une base de données existante devra être redéfinie régulièrement. Cela nécessiterait de recréer le modèle de données (schéma) qui dicte la structure des données et ses types de données autorisés à prendre en charge différents types d'entrées de données, etc., avant que toute nouvelle donnée puisse être enregistrée dans la base de données.
Entrez No SQL (Not Only SQL ) bases de données. Aucune base de données SQL n'empêche les utilisateurs de prédéfinir la structure des données entrantes, ce qui leur permet d'insérer et de mettre à jour de nouvelles données à la volée. Aucune base de données SQL n'est souvent plus rapide que les bases de données relationnelles et peut gérer facilement de très grandes quantités de données. Aucune base de données SQL n'est également plus performante que les bases de données relationnelles, en raison de leur capacité à partitionner efficacement les données sur plusieurs serveurs (cluster) et à équilibrer la charge de l'accès à ces données. Aucune base de données SQL s'intègre particulièrement bien aux applications prenant en charge l'analyse en temps réel, la personnalisation de site, l'IdO et les applications mobiles
Lors de cette formation en direct animée par un instructeur, les participants comprendront l'architecture, les principes de conception et les fonctionnalités des bases de données No SQL les plus populaires du marché lors de la configuration, du fonctionnement et de l'évaluation d'un certain nombre de bases de données No SQL dans un environnement de laboratoire réel. L'objectif de cette formation est de donner aux participants la possibilité d'évaluer, de proposer et de mettre en œuvre de manière intelligente une solution de base de données No SQL appropriée au sein de leur organisation.
À la fin de cette formation, les participants seront en mesure de:
- Installer et configurer différents types de bases de données No SQL , y compris MongoDB , Cassandra , Redis et Neo4j
- Comprendre les avantages et les inconvénients de l'absence de bases de données SQL rapport aux bases de données relationnelles
- Comprendre les formats de données sous-jacents utilisés par SQL bases de données No SQL et comprendre comment utiliser avantageusement ces formats lors du développement d'applications modernes (ordinateurs de bureau, mobiles, cloud, IoT)
- Effectuer des opérations de création, insertion, mise à jour et suppression dans une base de données No SQL
- Configurez un environnement mixte avec une base de données relationnelle et No SQL fonctionnant en tandem
- Configurer un cluster de base de données No SQL pour le traitement distribué de très grands ensembles de données
- Comprendre les implications pour la sécurité de l'utilisation d'une base de données No SQL
- Déployer et mettre à l'échelle une base de données No SQL dans un environnement de production
Public
- Professionnels de la Database
- Architectes de données
- Stratèges de données
- Chefs de projet
- Les développeurs d'applications souhaitant intégrer une solution de base de données flexible à leur application
Format du cours permettant d'évaluer les participants
- Partie de conférence, partie de discussion, exercices et exercices intensifs
Remarque
- Pour demander une formation personnalisée pour ce cours, veuillez nous contacter pour organiser cela.
Scylla Database
21 HeuresScylla est un magasin de données No SQL distribué et open source. Il est compatible avec Apache Cassandra mais fonctionne à des débits nettement supérieurs et des latences plus faibles.
Dans ce cours, les participants découvriront les fonctionnalités et l'architecture de Scylla tout en acquérant une expérience pratique de la configuration, de l'administration, de la surveillance et du dépannage de Scylla.
Public
- Administrateurs de Database
- Développeurs
- Ingénieurs Système
Format du cours permettant d'évaluer les participants
- Le cours est interactif et comprend des discussions sur les principes et les méthodes de déploiement et de gestion des bases de données et des grappes Scylla.
- Le cours comprend une part importante d’exercices pratiques et pratiques.