Les formations Big Data

Les formations Big Data

Le terme BigData vise l'ensemble des solutions liées au stockage et au traitement d'un ensemble considérable de données. Les solutions BigData ont été initialement développées par Google, cependant, désormais, beaucoup d'implémentations open-source sont disponibles, dont Apache Hadoop, Cassandra ou Cloudera Impala. Selon des rapports de Gartner, BigData est la prochaine étape au niveau des technologies de l'information, aprés le Cloud Computing et sera la nouvelle tendance pour les prochaine années.

Nos Clients témoignent

★★★★★
★★★★★

Plans de cours Big Data

Title
Durée
Aperçu
Title
Durée
Aperçu
14 hours
Aperçu
Go al:

Apprendre à travailler avec SPSS au niveau de l'indépendance

Les destinataires:

Les analystes, chercheurs, scientifiques, étudiants et tous ceux qui souhaitent acquérir la capacité d'utiliser le progiciel SPSS et apprendre les techniques d'extraction de données populaires
7 hours
Aperçu
Apache NiFi (Hortonworks DataFlow) est une plate-forme simple de logistique des données et de traitement des événements intégrée permettant le déplacement, le suivi et l'automatisation des données entre systèmes. Il est écrit en utilisant la programmation basée sur les flux et fournit une interface utilisateur basée sur le Web pour gérer les flux de données en temps réel.

Lors de cette formation en direct animée par un instructeur, les participants apprendront les bases de la programmation basée sur les flux tout en développant un certain nombre d'extensions, de composants et de processeurs de démonstration utilisant Apache NiFi .

À la fin de cette formation, les participants seront en mesure de:

- Comprendre l'architecture et les concepts de flux de données de NiFi.
- Développez des extensions à l'aide d'API NiFi et tierces.
- Personnaliser développer leur propre processeur Apache Nifi.
- Acquérir et traiter des données en temps réel à partir de formats de fichiers et de sources de données disparates et peu communes.

Format du cours

- Conférence interactive et discussion.
- Beaucoup d'exercices et de pratique.
- Mise en œuvre pratique dans un environnement de laboratoire réel.

Options de personnalisation du cours

- Pour demander une formation personnalisée pour ce cours, veuillez nous contacter pour organiser cela.
21 hours
Aperçu
Apache Drill est un moteur de requête SQL en colonnes, distribué et inmémoire pour Hadoop, NoSQL et d'autres systèmes de stockage de nuages ​​et de fichiers La puissance d'Apache Drill réside dans sa capacité à joindre des données provenant de plusieurs banques de données en utilisant une seule requête Apache Drill prend en charge de nombreuses bases de données et systèmes de fichiers NoSQL, notamment HBase, MongoDB, MapRDB, HDFS, MapRFS, Amazon S3, Azure Blob Storage, Google Cloud Storage, Swift, NAS et les fichiers locaux Apache Drill est la version open source du système Dremel de Google, disponible en tant que service d'infrastructure appelé Google BigQuery Dans cette formation en ligne, les participants apprendront les principes de base d'Apache Drill, puis tireront parti de la puissance et de la commodité de SQL pour interroger interactivement les grandes données sur plusieurs sources de données, sans écrire de code Les participants apprendront également comment optimiser leurs requêtes Drill pour l'exécution SQL distribuée À la fin de cette formation, les participants seront en mesure de: Effectuer une exploration "selfservice" sur des données structurées et semi-structurées sur Hadoop Interrogation de données connues et inconnues à l'aide de requêtes SQL Comprendre comment Apache Drills reçoit et exécute des requêtes Écrivez des requêtes SQL pour analyser différents types de données, y compris des données structurées dans Hive, des données semi-structurées dans des tables HBase ou MapRDB, et des données enregistrées dans des fichiers tels que Parquet et JSON Utilisez Apache Drill pour effectuer la découverte de schéma onthefly, en évitant le besoin d'opérations ETL et de schémas complexes Intégrez Apache Drill à des outils BI (Business Intelligence) tels que Tableau, Qlikview, MicroStrategy et Excel Public Analystes de données Les scientifiques de données Programmeurs SQL Format du cours Partie conférence, discussion en partie, exercices et pratique lourde de handson .
28 hours
Aperçu
MonetDB est une base de données open-source qui a été le premier à utiliser la technologie de magasin de colonnes.

Dans cette formation en direct animée par un instructeur, les participants apprendront à utiliser MonetDB et à en tirer le meilleur parti.

À la fin de cette formation, les participants seront en mesure de:

- Comprendre MonetDB et ses fonctionnalités
- Installer et démarrer avec MonetDB
- Explorer et effectuer différentes fonctions et tâches dans MonetDB
- Accélérer la livraison de leur projet en maximisant les capacités de MonetDB

Public

- Développeurs
- Experts techniques

Format du cours

- Partie de conférence, partie de discussion, exercices et exercices intensifs
28 hours
Aperçu
Mem SQL est un système de gestion de base de données SQL distribué, en mémoire, pour le cloud et sur site. C'est un entrepôt de données en temps réel qui fournit immédiatement des informations à partir de données en temps réel et historiques.

Au cours de cette formation en direct animée par un instructeur, les participants apprendront les bases de Mem SQL pour le développement et l’administration.

À la fin de cette formation, les participants seront en mesure de:

- Comprendre les concepts clés et les caractéristiques de Mem SQL
- Installer, concevoir, maintenir et utiliser Mem SQL
- Optimiser les schémas dans Mem SQL
- Améliorer les requêtes dans Mem SQL
- Performance de référence dans Mem SQL
- Construire des applications de données en temps réel à l'aide de Mem SQL

Public

- Développeurs
- Administrateurs
- Ingénieurs d'exploitation

Format du cours

- Partie de conférence, partie de discussion, exercices et exercices intensifs
28 hours
Aperçu
Hadoop is a popular Big Data processing framework. Python is a high-level programming language famous for its clear syntax and code readibility.

In this instructor-led, live training, participants will learn how to work with Hadoop, MapReduce, Pig, and Spark using Python as they step through multiple examples and use cases.

By the end of this training, participants will be able to:

- Understand the basic concepts behind Hadoop, MapReduce, Pig, and Spark
- Use Python with Hadoop Distributed File System (HDFS), MapReduce, Pig, and Spark
- Use Snakebite to programmatically access HDFS within Python
- Use mrjob to write MapReduce jobs in Python
- Write Spark programs with Python
- Extend the functionality of pig using Python UDFs
- Manage MapReduce jobs and Pig scripts using Luigi

Audience

- Developers
- IT Professionals

Format of the course

- Part lecture, part discussion, exercises and heavy hands-on practice
21 hours
Aperçu
Python est un langage de programmation de haut niveau réputé pour sa syntaxe claire et sa lisibilité du code. Spark est un moteur de traitement de données utilisé pour interroger, analyser et transformer le Big Data. PySpark permet aux utilisateurs d’interfacer Spark avec Python .

Au cours de cette formation en direct animée par un instructeur, les participants apprendront à utiliser Python et Spark ensemble pour analyser des données volumineuses au cours d’exercices pratiques.

À la fin de cette formation, les participants seront en mesure de:

- Apprenez à utiliser Spark avec Python pour analyser des Big Data .
- Travaillez sur des exercices qui imitent les circonstances réelles.
- Utilisez différents outils et techniques d'analyse de données PySpark aide de PySpark .

Format du cours

- Partie de conférence, partie de discussion, exercices et exercices intensifs
35 hours
Aperçu
Les progrès technologiques et la quantité croissante d'informations transforment la façon dont les organismes d'application de la loi sont menés Les défis que pose le Big Data sont presque aussi décourageants que la promesse de Big Data Stocker des données efficacement est l'un de ces défis; l'analyser efficacement en est une autre Dans cette formation en ligne, les participants apprendront la manière d'aborder les technologies Big Data, évalueront leur impact sur les processus et politiques existants et mettront en œuvre ces technologies dans le but d'identifier les activités criminelles et de prévenir le crime Des études de cas provenant d'organismes d'application de la loi du monde entier seront examinées afin de mieux comprendre leurs approches, défis et résultats en matière d'adoption À la fin de cette formation, les participants seront en mesure de: Combinez la technologie Big Data avec des processus de collecte de données traditionnels pour reconstituer une histoire au cours d'une enquête Mettre en œuvre des solutions industrielles de stockage et de traitement de Big Data pour l'analyse de données Préparer une proposition pour l'adoption des outils et des processus les plus adéquats pour permettre une approche de l'enquête criminelle axée sur les données Public Spécialistes de l'application de la loi avec un bagage technique Format du cours Partie conférence, discussion en partie, exercices et pratique lourde de handson .
14 hours
Aperçu
Pour satisfaire à la conformité des régulateurs, les CSP (fournisseurs de services de Communication ) peuvent exploiter Big Data Analytics, qui les aide non seulement à respecter la conformité, mais dans le cadre du même projet, ils peuvent augmenter la satisfaction de la clientèle et ainsi réduire le taux de désabonnement. En fait, puisque la conformité est liée à la qualité de service liée à un contrat, toute initiative visant à respecter la conformité améliorera «l’avantage concurrentiel» des DSP. Par conséquent, il est important que les régulateurs soient en mesure de conseiller / orienter un ensemble de pratiques analytiques Big Data pour les DSP, qui apporteront un bénéfice mutuel entre les régulateurs et les DSP.

Le cours comprend 8 modules (4 le jour 1 et 4 le jour 2)
28 hours
Aperçu
De nombreux problèmes du monde réel peuvent être décrits en termes de graphiques. Par exemple, le graphique Web, le graphique de réseau social, le graphique de réseau de train et le graphique de langue. Ces graphiques ont tendance à être extrêmement volumineux. leur traitement nécessite un ensemble spécialisé d'outils et de processus - ces outils et processus peuvent être appelés Graph Computing (également appelé Graph Analytics).

Dans cette formation en direct animée par un instructeur, les participants découvriront les offres technologiques et les approches de mise en œuvre pour le traitement des données graphiques. Le but est d'identifier les objets du monde réel, leurs caractéristiques et leurs relations, puis de modéliser ces relations et de les traiter sous forme de données à l'aide d'une approche Graph Computing (également appelée Graph Analytics). Nous commençons par un aperçu général et nous concentrons sur des outils spécifiques en parcourant une série d’études de cas, d’exercices pratiques et de déploiements en direct.

À la fin de cette formation, les participants seront en mesure de:

- Comprendre comment les données de graphique sont persistées et parcourues.
- Sélectionnez le meilleur framework pour une tâche donnée (des bases de données graphiques aux frameworks de traitement par lots).
- Implémentez Hadoop , Spark, GraphX et Pregel pour effectuer des calculs graphiques sur plusieurs machines en parallèle.
- Affichez les problèmes de données volumineuses dans le monde réel en termes de graphiques, de processus et de parcours.

Format du cours

- Partie de conférence, partie de discussion, exercices et exercices intensifs
21 hours
Aperçu
L'analyse prédictive est le processus d'utilisation de l'analyse de données pour faire des prédictions sur le futur Ce processus utilise des données ainsi que des techniques d'exploration de données, de statistiques et d'apprentissage automatique pour créer un modèle prédictif de prévision d'événements futurs Dans cette formation en ligne, les participants apprendront à utiliser Matlab pour créer des modèles prédictifs et les appliquer à de grands ensembles de données pour prédire les événements futurs en fonction des données À la fin de cette formation, les participants seront en mesure de: Créer des modèles prédictifs pour analyser les modèles dans les données historiques et transactionnelles Utiliser la modélisation prédictive pour identifier les risques et les opportunités Construire des modèles mathématiques qui capturent les tendances importantes Utiliser les données des appareils et des systèmes d'entreprise pour réduire le gaspillage, gagner du temps ou réduire les coûts Public Développeurs Ingénieurs Les experts du domaine Format du cours Partie conférence, discussion en partie, exercices et pratique lourde de handson .
21 hours
Aperçu
Apache NiFi (Hortonworks DataFlow) est une plate-forme simple de logistique des données et de traitement des événements intégrée permettant le déplacement, le suivi et l'automatisation des données entre systèmes. Il est écrit en utilisant la programmation basée sur les flux et fournit une interface utilisateur basée sur le Web pour gérer les flux de données en temps réel.

Au cours de cette formation en direct animée par un instructeur (sur site ou à distance), les participants apprendront à déployer et à gérer Apache NiFi dans un environnement de laboratoire réel.

À la fin de cette formation, les participants seront en mesure de:

- Installez et configurez Apachi NiFi.
- Créez, transformez et gérez des données à partir de sources de données disparates et distribuées, y compris des bases de données et des grands lacs de données.
- Automatiser les flux de données.
- Activer l'analyse en streaming.
- Appliquez diverses approches pour l’ingestion de données.
- Transformez le Big Data en un aperçu des affaires.

Format du cours

- Conférence interactive et discussion.
- Beaucoup d'exercices et de pratique.
- Mise en œuvre pratique dans un environnement de laboratoire réel.

Options de personnalisation du cours

- Pour demander une formation personnalisée pour ce cours, veuillez nous contacter pour organiser cela.
7 hours
Aperçu
Au cours de cette formation en direct animée par un instructeur, les participants apprendront les concepts de base de MapR Stream Architecture tout en développant une application de diffusion en temps réel.

À la fin de cette formation, les participants seront capables de créer des applications de producteurs et de consommateurs pour le traitement de données en temps réel.

Public

- Développeurs
- Administrateurs

Format du cours

- Partie de conférence, partie de discussion, exercices et exercices intensifs

Remarque

- Pour demander une formation personnalisée pour ce cours, veuillez nous contacter pour organiser cela.
14 hours
Aperçu
Apache SolrCloud est un moteur de traitement de données distribué qui facilite la recherche et l'indexation de fichiers sur un réseau distribué Dans cette formation en ligne, les participants apprendront comment configurer une instance SolrCloud sur Amazon AWS À la fin de cette formation, les participants seront en mesure de: Comprendre les fonctionnalités de SolCloud et comment elles se comparent à celles des clusters masterslave conventionnels Configurer un cluster centralisé SolCloud Automatisez les processus tels que la communication avec les partitions, l'ajout de documents aux partitions, etc Utilisez Zookeeper conjointement avec SolrCloud pour automatiser davantage les processus Utiliser l'interface pour gérer les rapports d'erreurs Équilibrer la charge d'une installation SolrCloud Configurer SolrCloud pour un traitement continu et un basculement Public Développeurs Solr Chefs de projet Administrateurs système Analystes de recherche Format du cours Partie conférence, discussion en partie, exercices et pratique lourde de handson .
28 hours
Aperçu
La modélisation du coffre-fort de données est une technique de modélisation de base de données qui fournit un stockage historique à long terme des données provenant de plusieurs sources Un coffre de données stocke une seule version des faits, ou "toutes les données, tout le temps" Sa conception flexible, évolutive, cohérente et adaptable englobe les meilleurs aspects de la 3ème forme normale (3NF) et du schéma en étoile Dans cette formation en ligne, les participants apprendront comment créer un coffre-fort de données À la fin de cette formation, les participants seront en mesure de: Comprendre les concepts d'architecture et de conception derrière Data Vault 20, et son interaction avec Big Data, NoSQL et AI Utiliser des techniques de stockage de données pour activer l'audit, le suivi et l'inspection des données historiques dans un entrepôt de données Développer un processus ETL (Extract, Transform, Load) cohérent et reproductible Construire et déployer des entrepôts hautement évolutifs et reproductibles Public Modélisateurs de données Spécialiste de l'entreposage de données Spécialistes de la Business Intelligence Les ingénieurs de données Administrateurs de base de données Format du cours Partie conférence, discussion en partie, exercices et pratique lourde de handson .
14 hours
Aperçu
Datameer est une plateforme de business intelligence et d'analyse basée sur Hadoop Il permet aux utilisateurs finaux d'accéder, d'explorer et de mettre en corrélation des données à grande échelle, structurées, semi-structurées et non structurées de manière simple Dans cette formation en ligne, les participants apprendront à utiliser Datameer pour surmonter la courbe d'apprentissage abrupte d'Hadoop à mesure qu'ils progressent dans la configuration et l'analyse d'une série de sources de données volumineuses À la fin de cette formation, les participants seront en mesure de: Créer, organiser et explorer de manière interactive un lac de données d'entreprise Accéder aux entrepôts de données de Business Intelligence, aux bases de données transactionnelles et aux autres magasins analytiques Utiliser une interface utilisateur de feuille de calcul pour concevoir des pipelines de traitement de données endtoend Accéder à des fonctions prédéfinies pour explorer des relations de données complexes Utilisez les assistants draganddrop pour visualiser les données et créer des tableaux de bord Utiliser des tableaux, des graphiques, des graphiques et des cartes pour analyser les résultats de la requête Public Analystes de données Format du cours Partie conférence, discussion en partie, exercices et pratique lourde de handson .
14 hours
Aperçu
Tigon est un framework de traitement de flux opensource, temps réel, lowlatency, highthroughput, native natif, qui se trouve au-dessus de HDFS et de HBase pour la persistance Les applications Tigon traitent des cas d'utilisation tels que la détection et l'analyse des intrusions sur le réseau, l'analyse des marchés des médias sociaux, l'analyse de l'emplacement et les recommandations en temps réel aux utilisateurs Cette formation en ligne, introduite par un instructeur, présente l'approche de Tigon qui consiste à mélanger le traitement en temps réel et le traitement par lots tout en guidant les participants à travers la création d'un exemple d'application À la fin de cette formation, les participants seront en mesure de: Créez de puissantes applications de traitement de flux pour gérer de gros volumes de données Traiter des sources de flux telles que Twitter et Webserver Logs Utilisez Tigon pour joindre, filtrer et agréger rapidement des flux Public Développeurs Format du cours Partie conférence, discussion en partie, exercices et pratique lourde de handson .
14 hours
Aperçu
Apache Ignite est une plate-forme informatique en mémoire qui se trouve entre l’application et la couche de données pour améliorer la vitesse, l’échelle et la disponibilité.

dans cette formation en direct, dirigée par un instructeur, les participants apprendront les principes derrière le stockage en mémoire persistant et pur à mesure qu’ils traversent la création d’un exemple de projet de calcul en mémoire.

à la fin de cette formation, les participants pourront:

- Utilisez Ignite pour la persistance en mémoire, sur le disque ainsi qu’une base de données en mémoire purement distribuée.
- atteindre la persistance sans synchroniser les données à une base de données relationnelle.
- Utilisez Ignite pour exécuter SQL et les jointures distribuées.
- améliorer les performances en déplaçant les données plus près de la CPU, en utilisant la RAM comme un stockage.
- Spread définit des ensembles de données sur un cluster pour obtenir une évolutivité horizontale.
- intégrez Ignite avec les processeurs RDBMS, NoSQL, Hadoop et machine learning.

format du cours

- conférence interactive et discussion.
- beaucoup d’exercices et de la pratique.
implémentation de - Hands-on dans un environnement Live-Lab.

cours options de personnalisation

- pour demander une formation personnalisée pour ce cours, s’il vous plaît nous contacter pour organiser.
14 hours
Aperçu
Vespa est un moteur de traitement de données et de traitement de données opensource créé par Yahoo Il est utilisé pour répondre aux requêtes des utilisateurs, faire des recommandations et fournir un contenu personnalisé et des publicités en temps réel Cette formation en ligne, instruite, introduit les défis de la diffusion de données à grande échelle et guide les participants à travers la création d'une application capable de calculer les réponses aux demandes des utilisateurs, sur de grands ensembles de données en temps réel À la fin de cette formation, les participants seront en mesure de: Utilisez Vespa pour calculer rapidement les données (stocker, rechercher, classer, organiser) au moment du service pendant qu'un utilisateur attend Implémenter Vespa dans des applications existantes impliquant la recherche de fonctionnalités, les recommandations et la personnalisation Intégrez et déployez Vespa avec les systèmes Big Data existants tels que Hadoop et Storm Public Développeurs Format du cours Partie conférence, discussion en partie, exercices et pratique lourde de handson .
21 hours
Aperçu
Apache Apex est une plate-forme YARNnative qui unifie le traitement des flux et des lots Il traite les données importantes de manière évolutive, performante, tolérante, dynamique, distribuée et facilement exploitable Cette formation en ligne, en mode instructeur, présente l'architecture de traitement de flux unifié d'Apache Apex et guide les participants à travers la création d'une application distribuée utilisant Apex sur Hadoop À la fin de cette formation, les participants seront en mesure de: Comprendre les concepts de pipeline de traitement de données tels que les connecteurs pour les sources et les puits, les transformations de données communes, etc Construire, dimensionner et optimiser une application Apex Traiter les flux de données en temps réel de manière fiable et avec une latence minimale Utilisez Apex Core et la bibliothèque Apex Malhar pour accélérer le développement d'applications Utiliser l'API Apex pour écrire et réutiliser le code Java existant Intégrer Apex dans d'autres applications en tant que moteur de traitement Régler, tester et mettre à l'échelle les applications Apex Public Développeurs Architectes d'entreprise Format du cours Partie conférence, discussion en partie, exercices et pratique lourde de handson .
7 hours
Aperçu
Alluxio est un système de stockage distribué virtuel à source ouverte qui unifie des systèmes de stockage disparates et permet aux applications d’interagir avec les données à la vitesse de la mémoire. Il est utilisé par des sociétés telles qu'Intel, Baidu et Alibaba.

Au cours de cette formation en direct animée par un instructeur, les participants apprendront à utiliser Alluxio pour relier différents cadres de calcul à des systèmes de stockage et à gérer efficacement les données à l'échelle de plusieurs pétaoctets lors de la création d'une application avec Alluxio .

À la fin de cette formation, les participants seront en mesure de:

- Développer une application avec Alluxio
- Connectez des systèmes Big Data et des applications tout en préservant un seul espace de noms
- Extraire efficacement la valeur des mégadonnées dans n'importe quel format de stockage
- Améliorer les performances de la charge de travail
- Déployer et gérer Alluxio autonome ou en cluster

Public

- Data Scientist
- Développeur
- Administrateur du système

Format du cours

- Partie de conférence, partie de discussion, exercices et exercices intensifs
28 hours
Aperçu
Apache Flink est un framework open source pour le traitement de données par flux et par flux évolutif.

Cette formation en direct, animée par un instructeur, présente les principes et les approches du traitement de données par lots et flux distribués, et guide les participants dans la création d'une application de diffusion de données en temps réel dans Apache Flink .

À la fin de cette formation, les participants seront en mesure de:

- Configurez un environnement pour développer des applications d'analyse de données.
- Package, exécution et surveillance des applications de diffusion de données en continu basées sur Flink.
- Gérez diverses charges de travail.
- Effectuer des analyses avancées à l'aide de Flink ML.
- Configurez un cluster Flink multi-nœuds.
- Mesurer et optimiser les performances.
- Intégrez Flink avec différents systèmes Big Data .
- Comparez les fonctionnalités de Flink avec celles d'autres frameworks de traitement de données volumineuses.

Format du cours

- Conférence interactive et discussion.
- Beaucoup d'exercices et de pratique.
- Mise en œuvre pratique dans un environnement de laboratoire réel.

Options de personnalisation du cours

- Pour demander une formation personnalisée pour ce cours, veuillez nous contacter pour organiser cela.
14 hours
Aperçu
L'intelligence artificielle est un ensemble de technologies permettant de créer des systèmes intelligents capables de comprendre les données et les activités associées à ces données afin de prendre des "décisions intelligentes". Pour les fournisseurs de services de télécommunication, la création d'applications et de services utilisant l'IA pourrait permettre d'améliorer les opérations et la maintenance dans des domaines tels que la maintenance et l'optimisation du réseau.

Dans ce cours, nous examinons les différentes technologies qui composent l’IA et les compétences requises pour les utiliser. Tout au long du cours, nous examinons les applications spécifiques d’AI dans l’industrie des télécommunications.

Public

- Ingénieurs de réseau
- Personnel d'exploitation du réseau
- Responsables techniques télécom

Format du cours

- Partie lecture, partie discussion, exercices pratiques
7 hours
Aperçu
Apache Drill est un moteur de requête SQL en colonnes, distribué et inmémoire pour Hadoop, NoSQL et d'autres systèmes de stockage de nuages ​​et de fichiers La puissance d'Apache Drill réside dans sa capacité à joindre des données provenant de plusieurs banques de données en utilisant une seule requête Apache Drill prend en charge de nombreuses bases de données et systèmes de fichiers NoSQL, notamment HBase, MongoDB, MapRDB, HDFS, MapRFS, Amazon S3, Azure Blob Storage, Google Cloud Storage, Swift, NAS et les fichiers locaux Apache Drill est la version open source du système Dremel de Google, disponible en tant que service d'infrastructure appelé Google BigQuery Dans cette formation en ligne, les participants apprendront comment optimiser et déboguer Apache Drill pour améliorer les performances des requêtes sur des ensembles de données très volumineux Le cours commence par un survol architectural et une comparaison des fonctionnalités entre Apache Drill et d'autres outils d'analyse de données interactifs Les participants suivent ensuite une série de sessions de pratique interactives, qui incluent l'installation, la configuration, l'évaluation des performances, l'optimisation des requêtes, le partitionnement des données et le débogage d'une instance Apache Drill dans un environnement de laboratoire dynamique À la fin de cette formation, les participants seront en mesure de: Installer et configurer Apache Drill Comprendre l'architecture et les fonctionnalités d'Apache Drill Comprendre comment Apache Drills reçoit et exécute des requêtes Optimiser les requêtes d'exploration pour l'exécution SQL répartie Debug Apache Drill Public Développeurs Administrateurs de systèmes Analystes de données Format du cours Partie conférence, discussion en partie, exercices et pratique lourde de handson Remarques Pour demander une formation personnalisée pour ce cours, veuillez nous contacter pour organiser .
14 hours
Aperçu
Apache Zeppelin est un bloc-notes basé sur le Web pour la capture, l'exploration, la visualisation et le partage de données basées sur Hadoop et Spark Cette formation en ligne, introduite en classe, présente les concepts de l'analyse interactive des données et guide les participants à travers le déploiement et l'utilisation de Zeppelin dans un environnement à utilisateur unique ou multi-utilisateur À la fin de cette formation, les participants seront en mesure de: Installer et configurer Zeppelin Développer, organiser, exécuter et partager des données dans une interface basée sur un navigateur Visualisez les résultats sans faire référence à la ligne de commande ou aux détails du cluster Exécuter et collaborer sur de longs workflows Travailler avec un certain nombre de plugin language / dataprocessingbackends, tels que Scala (avec Apache Spark), Python (avec Apache Spark), SQL Spark, JDBC, Markdown et Shell Intégrez Zeppelin avec Spark, Flink et Map Reduce Instances multi-utilisateurs sécurisées de Zeppelin avec Apache Shiro Public Les ingénieurs de données Analystes de données Les scientifiques de données Les développeurs de logiciels Format du cours Partie conférence, discussion en partie, exercices et pratique lourde de handson .
14 hours
Aperçu
Apache Arrow est un framework de traitement de données en mémoire open-source. Il est souvent utilisé avec d'autres outils de science des données pour accéder à des magasins de données disparates à des fins d'analyse. Il s'intègre bien à d'autres technologies telles que GPU bases de données GPU , les bibliothèques et outils d'apprentissage automatique, les moteurs d'exécution et les cadres de visualisation de données.

Au cours de cette formation en direct animée par un instructeur, les participants apprendront comment intégrer Apache Arrow à divers frameworks Data Science pour accéder à des données provenant de sources de données disparates.

À la fin de cette formation, les participants seront en mesure de:

- Installer et configurer Apache Arrow dans un environnement en cluster distribué
- Utilisez Apache Arrow pour accéder aux données de sources de données disparates
- Utilisez Apache Arrow pour éviter la construction et la maintenance de pipelines ETL complexes.
- Analyser des données sur des sources de données disparates sans avoir à les consolider dans un référentiel centralisé

Public

- Scientifiques de données
- Ingénieurs de données

Format du cours

- Partie de conférence, partie de discussion, exercices et exercices intensifs

Remarque

- Pour demander une formation personnalisée pour ce cours, veuillez nous contacter pour organiser cela.
7 hours
Aperçu
Cette formation en direct, animée par un instructeur (sur site ou à distance), est destinée aux techniciens souhaitant apprendre à mettre en œuvre une stratégie d’apprentissage automatique tout en maximisant l’utilisation du Big Data.

À la fin de cette formation, les participants:

- Comprendre l'évolution et les tendances de l'apprentissage automatique.
- Savoir comment l'apprentissage machine est utilisé dans différents secteurs.
- Familiarisez-vous avec les outils, les compétences et les services disponibles pour implémenter l'apprentissage automatique au sein d'une organisation.
- Comprendre comment l'apprentissage automatique peut être utilisé pour améliorer l'exploration et l'analyse de données.
- Découvrez ce qu'est un backend de données et comment il est utilisé par les entreprises.
- Comprenez le rôle que jouent le big data et les applications intelligentes dans tous les secteurs.

Format du cours

- Conférence interactive et discussion.
- Beaucoup d'exercices et de pratique.
- Mise en œuvre pratique dans un environnement de laboratoire réel.

Options de personnalisation du cours

- Pour demander une formation personnalisée pour ce cours, veuillez nous contacter pour organiser cela.
14 hours
Aperçu
Teradata is a popular Relational Database Management System for building large scale data warehousing applications. Teradata achieves this by way of parallelism.

This instructor-led, live training (onsite or remote) is aimed at application developers and engineers who wish to master more sophisticated usages of the Teradata database.

By the end of this training, participants will be able to:

- Manage Teradata space.
- Protect and distribute data in Teradata.
- Read Explain Plan.
- Improve SQL proficiency.
- Use main utilities of Teradata.

Format of the Course

- Interactive lecture and discussion.
- Lots of exercises and practice.
- Hands-on implementation in a live-lab environment.

Course Customization Options

- To request a customized training for this course, please contact us to arrange.
35 hours
Aperçu
KNIME is a free and open-source data analytics, reporting and integration platform. KNIME integrates various components for machine learning and data mining through its modular data pipelining concept. A graphical user interface and use of JDBC allows assembly of nodes blending different data sources, including preprocessing (ETL: Extraction, Transformation, Loading), for modeling, data analysis and visualization without, or with only minimal, programming. To some extent as advanced analytics tool KNIME can be considered as a SAS alternative.

Since 2006, KNIME has been used in pharmaceutical research, it also used in other areas like CRM customer data analysis, business intelligence and financial data analysis.
21 hours
Aperçu
Pivotal Greenplum is a Massively Parallel Processing (MPP) Data Warehouse platform based on PostgreSQL.

This instructor-led, live training (onsite or remote) is aimed at developers who wish to set up a multi-node Greenplum database.

By the end of this training, participants will be able to:

- Install and configure Pivotal Greenplum.
- Model data in accordance to current needs and future expansion plans.
- Carry out different techniques for distributing data across multiple nodes.
- Improve database performance through tuning.
- Monitor and troubleshoot a Greenplum database.

Format of the Course

- Interactive lecture and discussion.
- Lots of exercises and practice.
- Hands-on implementation in a live-lab environment.

Course Customization Options

- To request a customized training for this course, please contact us to arrange.
Weekend Big Data cours, Soir Big Data formation, Big Data stage d’entraînement, Big Data formateur à distance, Big Data formateur en ligne, Big Data formateur Online, Big Data cours en ligne, Big Data cours à distance, Big Data professeur à distance, Big Data visioconférence, Big Data stage d’entraînement intensif, Big Data formation accélérée, Big Data formation intensive, Formation inter Big Data, Formation intra Big Data, Formation intra Enteprise Big Data, Formation inter Entreprise Big Data, Weekend Big Data formation, Soir Big Data cours, Big Data coaching, Big Data entraînement, Big Data préparation, Big Data instructeur, Big Data professeur, Big Data formateur, Big Data stage de formation, Big Data cours, Big Data sur place, Big Data formations privées, Big Data formation privée, Big Data cours particulier, Big Data cours particuliers

Réduction spéciale

Newsletter offres spéciales

Nous respectons le caractère privé de votre adresse mail. Nous ne divulguerons ni ne vendrons votre adresse email à quiconque
Vous pouvez toujours modifier vos préférences ou vous désinscrire complètement.

Nos clients

is growing fast!

We are looking to expand our presence in France!

As a Business Development Manager you will:

  • expand business in France
  • recruit local talent (sales, agents, trainers, consultants)
  • recruit local trainers and consultants

We offer:

  • Artificial Intelligence and Big Data systems to support your local operation
  • high-tech automation
  • continuously upgraded course catalogue and content
  • good fun in international team

If you are interested in running a high-tech, high-quality training and consulting business.

Apply now!