Formation SMACK Stack for Data Science
SMACK est une collection de logiciels de plateforme de données, à savoir Apache Spark, Apache Mesos, Apache Akka, Apache Cassandra, et Apache Kafka. Grâce à la barre SMACK, les utilisateurs peuvent créer et échanger des plateformes de traitement des données.
Cette formation guidée par des instructeurs, en direct (online ou sur site) est destinée à des scientifiques de données qui souhaitent utiliser le SMACK stack pour construire des plateformes de traitement de données pour des solutions de big data.
À la fin de cette formation, les participants seront en mesure de :
- Implémentation d'une architecture de pipeline de données pour le traitement de données grandes.
- Développer une infrastructure de cluster avec Apache Mesos et Docker.
- Analyse des données avec Spark et Scala.
- Gérer les données non structurées avec Apache Cassandra.
Format du cours permettant d'évaluer les participants
- Lecture et discussion interactives.
- Beaucoup d’exercices et de pratiques.
- La mise en œuvre dans un environnement de laboratoire en direct.
Options de personnalisation de cours
- Pour demander une formation personnalisée pour ce cours, veuillez nous contacter pour organiser.
Plan du cours
Introduction
Aperçu de la pile SMACK
- Qu'est-ce qu'Apache Spark ? Fonctionnalités d'Apache Spark
- Qu'est-ce qu'Apache Mesos ? Fonctionnalités d'Apache Mesos
- Qu'est-ce qu'Apache Akka ? Fonctionnalités d'Apache Akka
- Qu'est-ce qu'Apache Cassandra ? Fonctionnalités d'Apache Cassandra
- Qu'est-ce qu'Apache Kafka ? Fonctionnalités d'Apache Kafka
Scala Langue
- Scala syntaxe et structure
- Scala flux de contrôle
Préparation de l'environnement de développement
- Installation et configuration de la pile SMACK
- Installation et configuration Docker
Apache Akka
- Utilisation des acteurs
Apache Cassandra
- Création d'une base de données pour les opérations de lecture
- Travailler avec des sauvegardes et des restaurations
Connecteurs
- Création d'un flux
- Construire une application Akka
- Stocker des données avec Cassandra
- Examiner les connecteurs
Apache Kafka
- Travailler avec des grappes
- Créer, publier et consommer des messages
Apache Mesos
- Allocation des ressources
- Exécution des grappes
- Travailler avec Apache Aurora et Docker
- Exécuter des services et des tâches
- Déployer Spark, Cassandra et Kafka sur Mesos
Apache Spark
- Gérer les flux de données
- Travailler avec des RDD et des cadres de données
- Effectuer des analyses de données
Dépannage
- Gestion des défaillances des services et des erreurs
Résumé et conclusion
Pré requis
- Une compréhension des systèmes de traitement des données
Public
- Data Scientists
Les formations ouvertes requièrent plus de 3 participants.
Formation SMACK Stack for Data Science - Booking
Formation SMACK Stack for Data Science - Enquiry
SMACK Stack for Data Science - Demande d'informations consulting
Demande d'informations consulting
Nos clients témoignent (1)
very interactive...
Richard Langford
Formation - SMACK Stack for Data Science
Cours à venir
Cours Similaires
Kaggle
14 heuresCette formation en France (en ligne ou sur site) est destinée aux data scientists et aux développeurs qui souhaitent apprendre et développer leur carrière dans Data Science en utilisant Kaggle.
A l'issue de cette formation, les participants seront capables de :
- S'informer sur la science des données et l'apprentissage automatique.
- Explorer l'analyse des données.
- En savoir plus sur Kaggle et son fonctionnement.
Accelerating Python Pandas Workflows with Modin
14 heuresCette formation en direct avec instructeur dans France (en ligne ou sur site) est destinée aux scientifiques des données et aux développeurs qui souhaitent utiliser Modin pour construire et mettre en œuvre des calculs parallèles avec Pandas afin d'accélérer l'analyse des données.
A la fin de cette formation, les participants seront capables de :
- Mettre en place l'environnement nécessaire pour commencer à développer des flux de travail Pandas à l'échelle avec Modin.
- Comprendre les caractéristiques, l'architecture et les avantages de Modin.
- Connaître les différences entre Modin, Dask et Ray.
- Effectuer des opérations Pandas plus rapidement avec Modin.
- Mettre en œuvre l'ensemble de l'API et des fonctions Pandas.
GPU Data Science with NVIDIA RAPIDS
14 heuresCette formation en France (en ligne ou sur site) s'adresse aux data scientists et aux développeurs qui souhaitent utiliser RAPIDS pour construire des pipelines de données, des workflows et des visualisations accélérés par GPU, en appliquant des algorithmes d'apprentissage automatique, tels que XGBoost, cuML, etc.
A la fin de cette formation, les participants seront capables de :
- Mettre en place l'environnement de développement nécessaire pour construire des modèles de données avec NVIDIA RAPIDS.
- Comprendre les caractéristiques, les composants et les avantages de RAPIDS.
- Exploiter les GPU pour accélérer les pipelines de données et d'analyse de bout en bout.
- Mettre en œuvre la préparation des données et l'ETL accélérés par GPU avec cuDF et Apache Arrow.
- Apprendre à réaliser des tâches d'apprentissage automatique avec les algorithmes XGBoost et cuML.
- Construire des visualisations de données et exécuter des analyses graphiques avec cuXfilter et cuGraph.
Anaconda Ecosystem for Data Scientists
14 heuresCette formation en direct avec instructeur en France (en ligne ou sur site) s'adresse aux data scientists qui souhaitent utiliser l'écosystème Anaconda pour capturer, gérer et déployer des packages et des workflows d'analyse de données dans une plateforme unique.
A la fin de cette formation, les participants seront capables de :
- Installer et configurer les composants et les bibliothèques Anaconda.
- Comprendre les concepts de base, les fonctionnalités et les avantages de Anaconda.
- Gérer les paquets, les environnements et les canaux à l'aide du Anaconda Navigator.
- Utiliser Conda, R et les paquets Python pour la science des données et l'apprentissage automatique.
- Connaître des cas d'utilisation pratiques et des techniques pour gérer des environnements de données multiples.
Python and Spark for Big Data (PySpark)
21 heuresAu cours de cette formation en direct avec instructeur à France, les participants apprendront à utiliser Python et Spark ensemble pour analyser les données volumineuses (big data) en travaillant sur des exercices pratiques.
A la fin de cette formation, les participants seront capables de :
- Apprendre à utiliser Spark avec Python pour analyser Big Data.
- Travailler sur des exercices qui imitent des cas réels.
- Utiliser différents outils et techniques pour l'analyse des big data en utilisant PySpark.
Introduction to Graph Computing
28 heuresAu cours de cette formation en direct à France, les participants découvriront les offres technologiques et les approches de mise en œuvre pour le traitement des données graphiques. L'objectif est d'identifier les objets du monde réel, leurs caractéristiques et leurs relations, puis de modéliser ces relations et de les traiter en tant que données à l'aide d'une approche Graph Computing (également connue sous le nom de Graph Analytics). Nous commençons par une vue d'ensemble et nous nous concentrons sur des outils spécifiques à travers une série d'études de cas, d'exercices pratiques et de déploiements en direct.
A la fin de cette formation, les participants seront capables de :
- Comprendre comment les données graphiques sont persistées et parcourues.
- Sélectionner le meilleur framework pour une tâche donnée (des bases de données de graphes aux frameworks de traitement par lots).
- Mettre en œuvre Hadoop, Spark, GraphX et Pregel pour effectuer des calculs de graphes sur de nombreuses machines en parallèle.
- Voir les problèmes de big data du monde réel en termes de graphes, de processus et de traversées.
Artificial Intelligence - the most applied stuff - Data Analysis + Distributed AI + NLP
21 heuresCe cours s'adresse aux développeurs et aux scientifiques des données qui souhaitent comprendre et mettre en œuvre l'IA dans leurs applications. Une attention particulière est accordée à l'analyse des données, à l'IA distribuée et au traitement du langage naturel.
Apache Spark MLlib
35 heuresMLlib est la bibliothèque d'apprentissage automatique (ML) de Spark. Son objectif est de rendre l'apprentissage pratique pratique évolutif et facile. Il comprend des algorithmes et des utilitaires d'apprentissage courants, notamment la classification, la régression, la mise en cluster, le filtrage collaboratif, la réduction de la dimensionnalité, ainsi que des primitives d'optimisation de niveau inférieur et des API de pipeline de niveau supérieur.
Il se divise en deux paquets:
spark.mllib contient l'API d'origine construite sur les RDD.
spark.ml fournit des API de niveau supérieur construites à partir de DataFrames pour la construction de pipelines ML.
Public
Ce cours s’adresse aux ingénieurs et aux développeurs qui souhaitent utiliser une bibliothèque de machines intégrée à Apache Spark
Introduction to Data Science and AI using Python
35 heuresIl s'agit d'une introduction de 5 jours à Data Science et à l'IA.
Le cours est livré avec des exemples et des exercices utilisant Python
Apache Airflow for Data Science: Automating Machine Learning Pipelines
21 heuresCette formation en France (en ligne ou sur site) est destinée aux participants de niveau intermédiaire qui souhaitent automatiser et gérer les flux de travail d'apprentissage automatique, y compris la formation, la validation et le déploiement des modèles à l'aide de Apache Airflow.
A la fin de cette formation, les participants seront capables de :
- Configurer Apache Airflow pour l'orchestration de flux de travail d'apprentissage automatique.
- Automatiser le prétraitement des données, l'entraînement des modèles et les tâches de validation.
- Intégrer Airflow avec des frameworks et des outils d'apprentissage automatique.
- Déployer des modèles d'apprentissage automatique en utilisant des pipelines automatisés.
- Contrôler et optimiser les workflows d'apprentissage automatique en production.
AWS Cloud9 for Data Science
28 heuresCette formation en direct avec instructeur à France (en ligne ou sur site) est destinée aux data scientists et analystes de niveau intermédiaire qui souhaitent utiliser AWS Cloud9 pour rationaliser les flux de travail de la science des données.
A l'issue de cette formation, les participants seront en mesure de :
- Configurer un environnement de science des données dans AWS Cloud9.
- Effectuer des analyses de données à l'aide de Python, R et Jupyter Notebook dans Cloud9.
- Intégrer AWS Cloud9 avec les services de données AWS comme S3, RDS et Redshift.
- Utiliser AWS Cloud9 pour le développement et le déploiement de modèles d'apprentissage automatique.
- Optimiser les flux de travail basés sur le cloud pour l'analyse et le traitement des données.
Big Data Business Intelligence for Telecom and Communication Service Providers
35 heuresRésumé
Les fournisseurs de services (CSP) sont confrontés à une pression pour réduire les coûts et maximiser le revenu moyen par utilisateur (ARPU), tout en assurant une excellente expérience client, mais les volumes de données continuent de croître. Le trafic mondial de données mobiles va croître à un taux de croissance annuel combiné (CAGR) de 78 % à 2016, atteignant 10,8 exabytes par mois.
Pendant ce temps, les CSP génèrent de grands volumes de données, y compris les enregistrements détaillés des appels (CDR), les données réseau et les données client. Les entreprises qui exploitent pleinement ces données gagnent une limite concurrentielle. Selon une récente enquête de The Economist Intelligence Unit, les entreprises qui utilisent la prise de décision basée sur les données bénéficient d’une augmentation de productivité de 5-6%. Cependant, 53% des entreprises n’utilisent que la moitié de leurs données précieuses, et un quart des répondants a noté que de vastes quantités de données utiles ne sont pas utilisées. Les volumes de données sont si élevés que l'analyse manuelle est impossible, et la plupart des systèmes logiciels héréditaires ne peuvent pas se maintenir, ce qui entraîne que les données précieuses sont déchirées ou ignorées.
Avec Big Data & Analytics’ logiciel de big data à grande vitesse, scalable, les CSPs peuvent miner tous leurs données pour une meilleure prise de décision en moins de temps. Différents Big Data produits et techniques fournissent une plate-forme logicielle end-to-end pour la collecte, la préparation, l'analyse et la présentation d'informations sur les grandes données. Les domaines d'application comprennent la surveillance des performances du réseau, la détection de fraudes, la détection du client et l'analyse du risque de crédit. Big Data & Scale des produits d'analyse pour gérer des terabytes de données mais la mise en œuvre de ces outils nécessite un nouveau type de système de base de données basé sur le cloud comme Hadoop ou un processeur de calcul parallèle à grande échelle (KPU, etc.)
Ce cours travaille sur Big Data BI pour Telco couvre toutes les nouvelles zones émergentes dans lesquelles les CSP investissent pour augmenter la productivité et ouvrir de nouveaux flux de revenus d'affaires. Le cours fournira une vue complète de 360 degrés sur Big Data BI à Telco afin que les décideurs et les gestionnaires puissent avoir un aperçu très large et complet des possibilités de Big Data BI à Telco pour la productivité et l'amélioration des revenus.
Objectifs du cours
L'objectif principal du cours est d'introduire de nouvelles Big Data techniques d'intelligence d'affaires dans 4 secteurs de Telecom Business (Marketing/Ventes, Opération réseau, Opération financière et Relation client Management). Les étudiants seront introduits à suivre :
- Introduction à Big Data-ce qui est 4Vs (volume, vitesse, variété et veracité) dans Big Data- Génération, extraction et gestion de la perspective Telco
- Comment Big Data l'analytique diffère de l'analytique des données d'héritage
- La justification intérieure de la Big Data -Telco perspective
- Introduction à Hadoop Écosystème- familiarité avec tous les Hadoop outils tels que Hive, Pig, SPARC – quand et comment ils sont utilisés pour résoudre Big Data problème
- Comment Big Data est extrait pour l'analyse pour les outils d'analyse-comment Business Analysis’s peuvent réduire leurs points de douleur de collecte et d'analyse des données grâce à une approche intégrée Hadoop de tableau de bord
- Introduction fondamentale de l'analyse Insight, de l'analyse de la visualisation et de l'analyse prédictive pour Telco
- L'analyse client Churn et Big Data-comment Big Data peut réduire l'analyse client Churn et l'insatisfaction des clients dans les études de cas Telco
- Analyse d'échecs réseau et d'échecs de service à partir des méta-data réseau et IPDR
- Analyse financière-fraude, fraude et estimation du ROI à partir des ventes et des données opérationnelles
- Problème d'acquisition client-Marketing cible, segmentation client et cross-sales à partir des données de vente
- Introduction et résumé de tous Big Data produits d'analyse et où ils s'adaptent à l'espace d'analyse Telco
- Conclusion-comment prendre une approche étape par étape pour introduire Big Data Business Intelligence dans votre organisation
Audience cible
- Opération réseau, gestionnaires financiers, gestionnaires CRM et gestionnaires informatiques de premier plan dans le bureau du CIO de Telco.
- Business Analystes à Telco
- Gestionnaire de bureau / analystes
- gestionnaires opérationnels
- Général QA
Introduction to Google Colab for Data Science
14 heuresCette formation en direct avec instructeur en France (en ligne ou sur site) s'adresse aux data scientists débutants et aux professionnels de l'informatique qui souhaitent apprendre les bases de la science des données en utilisant Google Colab.
À la fin de cette formation, les participants seront en mesure de :
- Configurer et naviguer dans Google Colab.
- Écrire et exécuter du code Python de base.
- Importer et manipuler des ensembles de données.
- Créer des visualisations à l'aide de bibliothèques Python.
A Practical Introduction to Data Science
35 heuresLes participants qui suivent cette formation acquièrent une compréhension pratique et concrète du Data Science et des technologies, méthodologies et outils qui y sont associés.
Les participants auront l'occasion de mettre en pratique ces connaissances par le biais d'exercices pratiques. L'interaction en groupe et le retour d'information de l'instructeur constituent une composante importante du cours.
Le cours commence par une introduction aux concepts élémentaires de Data Science, puis progresse vers les outils et méthodologies utilisés dans Data Science.
Public
- Développeurs
- Analystes techniques
- Consultants en informatique
Format du cours
- En partie conférence, en partie discussion, exercices et pratique intensive.
Remarque
- Pour demander une formation personnalisée pour ce cours, veuillez nous contacter.
Data Science for Big Data Analytics
35 heuresLes données volumineuses sont des ensembles de données si volumineux et complexes qu'un logiciel de traitement de données traditionnel ne permet pas de les traiter. Les défis du Big Data incluent la capture, le stockage, l'analyse, la recherche, le partage, le transfert, la visualisation, l'interrogation, la mise à jour et la confidentialité des informations.