Formation Apache Spark - un moteur de traitement Big Data
Nos Clients témoignent
★★★★★
★★★★★
Les connaissances du formateur sur son sujet
Les connaissances du formateur sur des sujets connexes
Laetitia RODRIGUEZ, EDF renouvelables
Formation: Python and Spark for Big Data (PySpark)
Engagement et volonté de clarifier les sujets secondaires.
Marek - Beata Szylhabel, Krajowy Rejestr Długów Biuro Informacji Gospodarczej S.A.
Formation: Apache Spark Fundamentals
Machine Translated
L'expérience pratique du formateur, qui ne colore pas la solution discutée mais n'introduit pas non plus de préjugés négatifs. J'ai le sentiment que le formateur me prépare à l'utilisation réelle et pratique de l'outil - ces détails précieux ne se trouvent généralement pas dans les livres.
Krzysztof Miodek - Beata Szylhabel, Krajowy Rejestr Długów Biuro Informacji Gospodarczej S.A.
Formation: Apache Spark Fundamentals
Machine Translated
- formation avec des exemples pratiques
- du matériel et un environnement très bien préparés pour l'auto-pratique
-suggestions/conseils fréquents tirés de la pratique du formateur.
Beata Szylhabel, Krajowy Rejestr Długów Biuro Informacji Gospodarczej S.A.
Formation: Apache Spark Fundamentals
Machine Translated
Pas d'approche rigide de la formation. Flexibilité. Pas de formalités inutiles telles que "M.", "Mme", "ą", "ę".
Beata Szylhabel, Krajowy Rejestr Długów Biuro Informacji Gospodarczej S.A.
Python est un langage de programmation scalable, flexible et largement utilisé pour la science des données et l'apprentissage automatique. Spark est un moteur de traitement de données utilisé dans la recherche, l'analyse et la transformation de données grandes, tandis que Hadoop est un cadre de bibliothèque logicielle pour le stockage et le traitement de données à grande échelle.
Cette formation guidée par les instructeurs (online ou on-site) est destinée aux développeurs qui souhaitent utiliser et intégrer Spark, Hadoop, et Python pour traiter, analyser et transformer de grands et complexes ensembles de données.
À la fin de cette formation, les participants seront en mesure de :
Créez l’environnement nécessaire pour commencer à traiter les grandes données avec Spark, Hadoop, et Python.
Comprendre les caractéristiques, les composants de base et l'architecture de Spark et Hadoop.
Apprenez à intégrer Spark, Hadoop, et Python pour le traitement de données grandes.
Explorez les outils dans l'écosystème Spark (Spark MlLib, Spark Streaming, Kafka, Sqoop, Kafka, et Flume).
Construisez des systèmes de recommandations de filtration collaboratives similaires à Netflix, YouTube, Amazon, Spotify et Google.
Utilisez Apache Mahout pour échanger les algorithmes d’apprentissage automatique.
Le format du cours
Lecture et discussion interactives.
Beaucoup d’exercices et de pratiques.
La mise en œuvre dans un environnement de laboratoire en direct.
Options de personnalisation de cours
Pour demander une formation personnalisée pour ce cours, veuillez nous contacter pour organiser.
In this instructor-led, live training in France, participants will learn how to use Python and Spark together to analyze big data as they work on hands-on exercises.
By the end of this training, participants will be able to:
Learn how to use Spark with Python to analyze Big Data.
Work on exercises that mimic real world cases.
Use different tools and techniques for big data analysis using PySpark.
OBJECTIF: Ce cours présentera Apache Spark . Les étudiants apprendront comment Spark s'intègre dans l'écosystème du Big Data et comment utiliser Spark pour l'analyse de données. Le cours couvre le shell Spark pour l'analyse de données interactive, les composants internes de Spark, les API Spark, Spark SQL , le streaming Spark, ainsi que l'apprentissage automatique et graphX. PUBLIC : Développeurs / Analystes de données
Hortonworks Data Platform (HDP) est une plateforme de support Apache Hadoop source ouverte qui fournit une base stable pour le développement de solutions Big Data sur l’écosystème Apache Hadoop . Cette formation en direct animée par un instructeur (sur site ou à distance) présente Hortonworks Data Platform (HDP) et guide les participants dans le déploiement de la solution Spark + Hadoop . À la fin de cette formation, les participants seront en mesure de:
Utilisez Hortonworks pour exécuter Hadoop de manière fiable à grande échelle.
Unifiez les capacités de sécurité, de gouvernance et d'exploitation de Hadoop avec les workflows d'analyse agiles de Spark.
Utilisez Hortonworks pour étudier, valider, certifier et soutenir chacun des composants d’un projet Spark.
Traitez différents types de données, y compris les données structurées, non structurées, en mouvement et au repos.
Format du cours
Conférence interactive et discussion.
Beaucoup d'exercices et de pratique.
Mise en œuvre pratique dans un environnement de laboratoire réel.
Options de personnalisation du cours
Pour demander une formation personnalisée pour ce cours, veuillez nous contacter pour organiser cela.
Magellan est un moteur d'exécution distribué à source ouverte pour l'analyse géospatiale sur les grandes données. Imployé au-dessus de Apache Spark, il étend Spark SQL et fournit une abstraction relative pour l'analyse géospatiale.
Cette formation guidée par l'instructeur, en direct introduit les concepts et les approches pour la mise en œuvre d'analyse géospatiale et marche les participants à travers la création d'une application d'analyse prédictive en utilisant Magellan sur Spark.
À la fin de cette formation, les participants seront en mesure de :
Demandez efficacement, parse et rejoignez des données géospatiales à l'échelle
Implémentation des données géospatiales dans les applications d'intelligence d'affaires et d'analyse prédictive
Utilisez un contexte spatial pour étendre les capacités des appareils mobiles, des capteurs, des logs et des portables
Le format du cours
Lecture et discussion interactives.
Beaucoup d’exercices et de pratiques.
La mise en œuvre dans un environnement de laboratoire en direct.
Options de personnalisation de cours
Pour demander une formation personnalisée pour ce cours, veuillez nous contacter pour organiser.
Alluxio est un système de stockage distribué virtuel à source ouverte qui unifie des systèmes de stockage différents et permet aux applications d’interagir avec les données à vitesse de mémoire. Il est utilisé par des entreprises telles que Intel, Baidu et Alibaba.
Dans cette formation guidée par l'instructeur, les participants apprendront comment utiliser Alluxio pour broyer différents cadres de calcul avec les systèmes de stockage et gérer efficacement les données d'échelle multi-pétabytes au fur et à mesure qu'ils traversent la création d'une application avec Alluxio.
À la fin de cette formation, les participants seront en mesure de :
Développer une application avec Alluxio
Connectez les systèmes de données et les applications tout en conservant un seul espace de nom
Extrait efficace de la valeur des grandes données dans n'importe quel format de stockage
Améliorer la performance du travail
Déployer et gérer Alluxio indépendamment ou cluster
Audience
scientifique des données
Développeur
Système administrateur
Format du cours
Lecture partielle, discussion partielle, exercices et pratiques lourdes
Spark SQL est le module Apache Spark permettant de travailler avec des données structurées et non structurées. Spark SQL fournit des informations sur la structure des données ainsi que sur les calculs en cours. Ces informations peuvent être utilisées pour effectuer des optimisations. Les deux utilisations courantes de Spark SQL sont SQL suivantes: - pour exécuter SQL requêtes SQL . - lire les données d'une installation Hive existante. Lors de cette formation en direct animée par un instructeur (sur site ou à distance), les participants apprendront à analyser divers types de jeux de données à l'aide de Spark SQL . À la fin de cette formation, les participants seront en mesure de:
Installez et configurez Spark SQL .
Effectuer une analyse de données à l'aide de Spark SQL .
Interrogez des ensembles de données dans différents formats.
Visualisez les données et les résultats de la requête.
Format du cours
Conférence interactive et discussion.
Beaucoup d'exercices et de pratique.
Mise en œuvre pratique dans un environnement de laboratoire réel.
Options de personnalisation du cours
Pour demander une formation personnalisée pour ce cours, veuillez nous contacter pour organiser cela.
Stream Processing fait référence au traitement en temps réel de «données en mouvement», c’est-à-dire à l’exécution de calculs sur les données reçues. Ces données sont lues comme des flux continus à partir de sources de données telles que des événements de capteurs, l’activité des utilisateurs du site Web, des transactions financières, des balayages de carte de crédit, des flux de clics, etc. Stream Processing infrastructures de Stream Processing permettent de lire de grands volumes de données entrantes et fournissent des informations précieuses presque instantanément. Au cours de cette formation en direct animée par un instructeur (sur site ou à distance), les participants apprendront à configurer et à intégrer différents cadres de Stream Processing avec des systèmes de stockage de données volumineux existants ainsi que des applications logicielles et microservices connexes. À la fin de cette formation, les participants seront en mesure de:
Installez et configurez différents frameworks de Stream Processing , tels que Spark Streaming et Kafka Streaming.
Comprendre et sélectionner le cadre le plus approprié pour le travail.
Traitement des données en continu, simultanément et enregistrement par enregistrement.
Intégrez les solutions de Stream Processing continu aux bases de données, aux entrepôts de données, aux lacs de données, etc. existants
Intégrez la bibliothèque de traitement de flux la plus appropriée aux applications d'entreprise et aux microservices.
Public
Les développeurs
Architectes logiciels
Format du cours
Partie de conférence, partie de discussion, exercices et exercices intensifs
Remarques
Pour demander une formation personnalisée pour ce cours, veuillez nous contacter pour organiser cela.
L'analyse de données volumineuses implique l'examen de grandes quantités d'ensembles de données variés afin de découvrir des corrélations, des modèles cachés et d'autres informations utiles. L'industrie de la santé dispose de quantités massives de données médicales et cliniques hétérogènes complexes. L'application de l'analyse de données volumineuses sur les données de santé présente un potentiel énorme pour la compréhension de l'amélioration de la prestation des soins de santé. Cependant, l'énormité de ces ensembles de données pose de grands défis pour les analyses et les applications pratiques dans un environnement clinique. Au cours de cette formation en direct animée par un instructeur (à distance), les participants apprendront à effectuer des analyses de données volumineuses dans le domaine de la santé tout en effectuant une série d'exercices pratiques en laboratoire. À la fin de cette formation, les participants seront en mesure de:
Installer et configurer des outils d'analyse de données volumineuses tels que Hadoop MapReduce et Spark
Comprendre les caractéristiques des données médicales
Appliquer des techniques Big Data pour traiter des données médicales
Etudiez les systèmes de données volumineuses et les algorithmes dans le contexte d'applications de santé
Public
Développeurs
Data Scientists
Format du cours
Partie lecture, partie discussion, exercices et exercices intensifs.
Remarque
Pour demander une formation personnalisée pour ce cours, veuillez nous contacter pour organiser cela.
La courbe d'apprentissage d' Apache Spark augmente lentement au début, il faut beaucoup d'efforts pour obtenir le premier retour. Ce cours vise à passer à travers la première partie difficile. Après avoir suivi ce cours, les participants comprendront les bases d’ Apache Spark , ils différencieront clairement RDD de DataFrame, ils apprendront les API Python et Scala , ils comprendront les exécuteurs et les tâches, etc. En suivant également les meilleures pratiques, ce cours est fortement axé sur déploiement en nuage, Databricks et AWS. Les étudiants comprendront également les différences entre AWS EMR et AWS Glue, l'un des derniers services Spark d'AWS. PUBLIC: Ingénieur de données, DevOps , Data Scientist
Scala est une version condensée de Java pour la programmation fonctionnelle à grande échelle et orientée objet. Apache Spark Streaming est un composant étendu de l'API Spark permettant de traiter des ensembles de données volumineux sous forme de flux en temps réel. Ensemble, Spark Streaming et Scala permettent la diffusion en continu de données volumineuses. Cette formation en direct, animée par un instructeur (sur site ou à distance), est destinée aux ingénieurs en logiciel qui souhaitent diffuser des données volumineuses avec Spark Streaming et Scala . À la fin de cette formation, les participants seront en mesure de:
Créez des applications Spark avec le langage de programmation Scala .
Utilisez Spark Streaming pour traiter des flux de données continus.
Traiter des flux de données en temps réel avec Spark Streaming.
Format du cours
Conférence interactive et discussion.
Beaucoup d'exercices et de pratique.
Mise en œuvre pratique dans un environnement de laboratoire réel.
Options de personnalisation du cours
Pour demander une formation personnalisée pour ce cours, veuillez nous contacter pour organiser cela.
SMACK est une collection de logiciels de plateforme de données, à savoir Apache Spark, Apache Mesos, Apache Akka, Apache Cassandra, et Apache Kafka. Grâce à la barre SMACK, les utilisateurs peuvent créer et échanger des plateformes de traitement des données.
Cette formation guidée par des instructeurs, en direct (online ou sur site) est destinée à des scientifiques de données qui souhaitent utiliser le SMACK stack pour construire des plateformes de traitement de données pour des solutions de big data.
À la fin de cette formation, les participants seront en mesure de :
Implémentation d'une architecture de pipeline de données pour le traitement de données grandes.
Développer une infrastructure de cluster avec Apache Mesos et Docker.
Analyse des données avec Spark et Scala.
Gérer les données non structurées avec Apache Cassandra.
Le format du cours
Lecture et discussion interactives.
Beaucoup d’exercices et de pratiques.
La mise en œuvre dans un environnement de laboratoire en direct.
Options de personnalisation de cours
Pour demander une formation personnalisée pour ce cours, veuillez nous contacter pour organiser.
Apache Spark est un moteur d'analyse conçu pour distribuer les données à travers un groupe afin de les traiter en parallèle. Il contient des modules pour le streaming, SQL, l'apprentissage automatique et le traitement graphique.
Cette formation guidée par les instructeurs, en direct (online ou sur site) est destinée aux ingénieurs qui souhaitent déployer Apache Spark un système pour le traitement de très grandes quantités de données.
À la fin de cette formation, les participants seront en mesure de :
Installer et configurer Apache Spark.
Comprendre la différence entre Apache Spark et Hadoop MapReduce et quand utiliser qui.
Lisez rapidement dans et analysez des ensembles de données très grands.
Intégrer Apache Spark avec d'autres outils d'apprentissage automatique.
Le format du cours
Lecture et discussion interactives.
Beaucoup d’exercices et de pratiques.
La mise en œuvre dans un environnement de laboratoire en direct.
Options de personnalisation de cours
Pour demander une formation personnalisée pour ce cours, veuillez nous contacter pour organiser.
Apache Spark est un moteur de traitement distribué pour l'analyse de grands ensembles de données. Il peut traiter les données en lots et en temps réel, ainsi que effectuer l'apprentissage automatique, les demandes d'ad-hoc et le traitement de graphiques. .NET pour Apache Spark est un cadre gratuit, open-source et cross-platform de big data analytics qui soutient les applications écrites en C# ou F#.
Cette formation guidée par les instructeurs, en direct (online ou on-site) est destinée aux développeurs qui souhaitent effectuer une grande analyse de données en utilisant Apache Spark dans leurs applications.NET.
À la fin de cette formation, les participants seront en mesure de :
Installer et configurer Apache Spark.
Comprendre comment.NET implémentera les APIs Spark afin qu’ils puissent être accessibles à partir d’une application.NET.
Développer des applications de traitement de données en utilisant C# ou F#, capables de traiter des ensembles de données dont la taille est mesurée en terabytes et pedabytes.
Développer des fonctionnalités d'apprentissage automatique pour une application.NET en utilisant Apache Spark capacités.
Exécutez des analyses exploratoires en utilisant SQL des requêtes sur les grands ensembles de données.
Le format du cours
Lecture et discussion interactives.
Beaucoup d’exercices et de pratiques.
La mise en œuvre dans un environnement de laboratoire en direct.
Options de personnalisation de cours
Pour demander une formation personnalisée pour ce cours, veuillez nous contacter pour organiser.
Apache Hadoop est un cadre de traitement de données populaire pour le traitement de grands ensembles de données sur de nombreux ordinateurs.
Cette formation guidée par les instructeurs, en direct (online ou sur site) est destinée aux administrateurs de systèmes qui souhaitent apprendre à configurer, déployer et gérer Hadoop des clusters dans leur organisation.
À la fin de cette formation, les participants seront en mesure de :
Installer et configurer Apache Hadoop.
Comprendre les quatre principaux composants de l'écosystème Hadoop : HDFS, MapReduce, YARN et Hadoop Common.
Utilisez Hadoop Système de fichiers distribué (HDFS) pour échanger un cluster à des centaines ou des milliers de nœuds.   ;
Configurez HDFS pour fonctionner en tant que moteur de stockage pour les déploiements Spark en prévision.
Configurez Spark pour accéder à des solutions de stockage alternatives telles que les systèmes de base de données Amazon S3 et NoSQL telles que Redis, Elasticsearch, Couchbase, Aerospike, etc.
Exécuter des tâches administratives telles que la fourniture, la gestion, le suivi et la sécurité d'un cluster Apache.
Le format du cours
Lecture et discussion interactives.
Beaucoup d’exercices et de pratiques.
La mise en œuvre dans un environnement de laboratoire en direct.
Options de personnalisation de cours
Pour demander une formation personnalisée pour ce cours, veuillez nous contacter pour organiser.
This instructor-led, live training in France (online or onsite) is aimed at data scientists and developers who wish to use Spark NLP, built on top of Apache Spark, to develop, implement, and scale natural language text processing models and pipelines.
By the end of this training, participants will be able to:
Set up the necessary development environment to start building NLP pipelines with Spark NLP.
Understand the features, architecture, and benefits of using Spark NLP.
Use the pre-trained models available in Spark NLP to implement text processing.
Learn how to build, train, and scale Spark NLP models for production-grade projects.
Apply classification, inference, and sentiment analysis on real-world use cases (clinical data, customer behavior insights, etc.).
MLlib est la bibliothèque d'apprentissage automatique (ML) de Spark. Son objectif est de rendre l'apprentissage pratique pratique évolutif et facile. Il comprend des algorithmes et des utilitaires d'apprentissage courants, notamment la classification, la régression, la mise en cluster, le filtrage collaboratif, la réduction de la dimensionnalité, ainsi que des primitives d'optimisation de niveau inférieur et des API de pipeline de niveau supérieur. Il se divise en deux paquets:
spark.mllib contient l'API d'origine construite sur les RDD.
spark.ml fournit des API de niveau supérieur construites à partir de DataFrames pour la construction de pipelines ML.
Public Ce cours s’adresse aux ingénieurs et aux développeurs qui souhaitent utiliser une bibliothèque de machines intégrée à Apache Spark
This course is aimed at developers and data scientists who wish to understand and implement AI within their applications. Special focus is given to Data Analysis, Distributed AI and NLP.
De nombreux problèmes du monde réel peuvent être décrits en termes de graphiques. Par exemple, le graphique Web, le graphique de réseau social, le graphique de réseau de train et le graphique de langue. Ces graphiques ont tendance à être extrêmement volumineux. leur traitement nécessite un ensemble spécialisé d'outils et de processus - ces outils et processus peuvent être appelés Graph Computing (également appelé Graph Analytics). Dans cette formation en direct animée par un instructeur, les participants découvriront les offres technologiques et les approches de mise en œuvre pour le traitement des données graphiques. Le but est d'identifier les objets du monde réel, leurs caractéristiques et leurs relations, puis de modéliser ces relations et de les traiter sous forme de données à l'aide d'une approche Graph Computing (également appelée Graph Analytics). Nous commençons par un aperçu général et nous concentrons sur des outils spécifiques lorsque nous abordons une série d’études de cas, d’exercices pratiques et de déploiements en direct. À la fin de cette formation, les participants seront en mesure de:
Comprendre comment les données de graphique sont persistées et parcourues.
Sélectionnez le meilleur framework pour une tâche donnée (des bases de données graphiques aux frameworks de traitement par lots).
Implémentez Hadoop , Spark, GraphX et Pregel pour effectuer des calculs graphiques sur plusieurs machines en parallèle.
Affichez les problèmes de données volumineuses dans le monde réel en termes de graphiques, de processus et de parcours.
Format du cours
Partie de conférence, partie de discussion, exercices et exercices intensifs
Weekend Apache Spark cours, Soir Spark formation, Spark stage d’entraînement, Spark formateur à distance, Spark formateur en ligne, Spark formateur Online, Spark cours en ligne, Spark cours à distance, Apache Spark professeur à distance, Spark visioconférence, Spark stage d’entraînement intensif, Spark formation accélérée, Apache Spark formation intensive, Formation inter Apache Spark, Formation intra Apache Spark, Formation intra Enteprise Apache Spark, Formation inter Entreprise Apache Spark, Weekend Apache Spark formation, Soir Apache Spark cours, Apache Spark coaching, Apache Spark entraînement, Apache Spark préparation, Spark instructeur, Apache Spark professeur, Apache Spark formateur, Spark stage de formation, Apache Spark cours, Spark sur place, Apache Spark formations privées, Spark formation privée, Apache Spark cours particulier, Spark cours particuliers
Réduction spéciale
No course discounts for now.
Newsletter offres spéciales
Nous respectons le caractère privé de votre adresse mail. Nous ne divulguerons ni ne vendrons votre adresse email à quiconque Vous pouvez toujours modifier vos préférences ou vous désinscrire complètement.
Nos clients
is growing fast!
Nous recherchons des formateurs alliant compétences techniques et savoir-être en France!
En tant que formateur NobleProg, vous serez responsable de :
délivrer des formations dans le monde entier
préparer les supports de cours
apporter des améliorations au fil des formations
fournir des prestations de conseil
Pour le moment, nous nous concentrons sur les domaines suivants :
Statistic, Forecasting, Big Data Analysis, Data Mining, Evolution Alogrithm, Natural Language Processing, Machine Learning (recommender system, neural networks .etc...)
SOA, BPM, BPMN
Hibernate/Spring, Scala, Spark, jBPM, Drools
R, Python
Mobile Development (iOS, Android)
LAMP, Drupal, Mediawiki, Symfony, MEAN, jQuery
Si vous avez de la patience et de l'empathie pour les personnes que vous formez, vous êtes fait pour rejoindre NobleProg.
Pour postuler, veuillez s'il vous plaît créer votre profil formateur en cliquant sur le lien ci-dessous :