Formation From Data to Decision with Big Data and Predictive Analytics
Public
Si vous essayez de comprendre les données auxquelles vous avez accès ou souhaitez analyser des données non structurées disponibles sur le réseau (comme Twitter, Linked in, etc.), ce cours est pour vous.
Il s’adresse principalement aux décideurs et aux personnes qui doivent choisir les données qui méritent d’être collectées et celles qui méritent d’être analysées.
Cela ne vise pas les personnes qui configurent la solution, ces personnes bénéficieront d'une vue d'ensemble.
Mode de livraison
Pendant le cours, des exemples concrets de technologies principalement open source seront présentés aux délégués.
De courtes conférences seront suivies de présentations et d'exercices simples des participants.
Contenu et logiciel utilisés
Tous les logiciels utilisés sont mis à jour à chaque exécution du cours, nous vérifions donc les dernières versions possibles.
Il couvre le processus d'obtention, de formatage, de traitement et d'analyse des données, afin d'expliquer comment automatiser le processus de prise de décision avec l'apprentissage automatique.
Plan du cours
Rapide vue d'ensemble
- Les sources de données
- Attention aux données
- Systèmes de recommandation
- Cible Marketing
Types de données
- Structuré vs non structuré
- Statique ou diffusé en continu
- Données comportementales, comportementales et démographiques
- Analyse basée sur les données ou basée sur l'utilisateur
- validité des données
- Volume, vitesse et variété des données
Des modèles
- Modèles de construction
- Modèles statistiques
- Apprentissage automatique
Classification des données
- Regroupement
- kGroups, k-means, les voisins les plus proches
- Colonies de fourmis, oiseaux affluant
Modèles prédictifs
- Arbres de décision
- Machine à vecteurs de support
- Classification naïve de Bayes
- Les réseaux de neurones
- Modèle de Markov
- Régression
- Méthodes d'ensemble
Retour sur investissement
- Rapport bénéfice/coût
- Coût du logiciel
- Coût de développement
- Des bénéfices potentiels
Modèles de construction
- Préparation des données (MapReduce)
- Nettoyage des données
- Choisir des méthodes
- Modèle en développement
- Modèle de test
- Évaluation du modèle
- Déploiement et intégration de modèles
Présentation des logiciels Open Source et commerciaux
- Sélection du package R-project
- Python bibliothèques
- Hadoop et Mahout
- Projets Apache sélectionnés liés à Big Data et Analytics
- Solution commerciale sélectionnée
- Intégration avec les logiciels et sources de données existants
Pré requis
Compréhension des méthodes traditionnelles de gestion et d'analyse des données telles que SQL, les entrepôts de données, la veille économique, OLAP, etc... Compréhension des statistiques de base et des probabilités (moyenne, variance, probabilité, probabilité conditionnelle, etc....)
Les formations ouvertes requièrent plus de 3 participants.
Formation From Data to Decision with Big Data and Predictive Analytics - Booking
Formation From Data to Decision with Big Data and Predictive Analytics - Demande d'informations
From Data to Decision with Big Data and Predictive Analytics - Demande d'informations Consulting
Nos Clients témoignent (2)
Le contenu, car je l'ai trouvé très intéressant et je pense qu'il m'aidera dans ma dernière année d'études à l'université.
Krishan - NBrown Group
Formation - From Data to Decision with Big Data and Predictive Analytics
Traduction automatique
Richard's training style kept it interesting, the real world examples used helped to drive the concepts home.
Jamie Martin-Royle - NBrown Group
Formation - From Data to Decision with Big Data and Predictive Analytics
Upcoming Courses
Cours Similaires
Predictive AI in DevOps: Enhancing Software Delivery
14 heuresCette formation en direct avec instructeur en France (en ligne ou sur site) s'adresse aux professionnels DevOps de niveau intermédiaire qui souhaitent intégrer l'IA prédictive dans leurs pratiques DevOps.
À l'issue de cette formation, les participants seront en mesure de :
- Mettre en œuvre des modèles d'analyse prédictive pour prévoir et résoudre les défis dans le pipeline DevOps.
- Utiliser des outils pilotés par l'IA pour améliorer la surveillance et les opérations.
- Appliquer des techniques d'apprentissage automatique pour améliorer les flux de livraison de logiciels.
- Concevoir des stratégies d'IA pour la résolution proactive des problèmes et l'optimisation.
- Naviguer dans les considérations éthiques de l'utilisation de l'IA dans DevOps.
Introduction to Predictive AI
21 heuresCette formation en direct avec instructeur à France (en ligne ou sur site) est destinée aux professionnels de l'informatique de niveau débutant qui souhaitent saisir les principes fondamentaux de l'IA prédictive.
A l'issue de cette formation, les participants seront en mesure de :
- Comprendre les concepts fondamentaux de l'IA prédictive et ses applications.
- Collecter, nettoyer et prétraiter les données pour l'analyse prédictive.
- Explorer et visualiser les données pour découvrir des informations.
- Construire des modèles statistiques de base pour faire des prédictions.
- Évaluer la performance des modèles prédictifs.
- Appliquer les concepts de l'IA prédictive à des scénarios réels.
Data Vault: Building a Scalable Data Warehouse
28 heuresDans cette formation en direct, dirigée par un instructeur, les participants apprendront à construire un Data Vault.
A l'issue de cette formation, les participants seront capables de :
- Comprendre l'architecture et les concepts de conception derrière Data Vault 2.0, et son interaction avec le Big Data, le NoSQL et l'IA.
- Utiliser les techniques de mise en voûte des données pour permettre l'audit, le traçage et l'inspection des données historiques dans un entrepôt de données.
- Développer un processus ETL (Extract, Transform, Load) cohérent et reproductible.
- Construire et déployer des entrepôts hautement évolutifs et reproductibles.
Spark Streaming with Python and Kafka
7 heuresCette formation en <loc> ; (en ligne ou sur site) est destinée aux ingénieurs de données, aux scientifiques de données et aux programmeurs qui souhaitent utiliser les fonctionnalités Spark Streaming dans le traitement et l'analyse de données en temps réel.
À l'issue de cette formation, les participants seront en mesure d'utiliser Spark Streaming pour traiter des flux de données en direct destinés à être utilisés dans des bases de données, des systèmes de fichiers et des tableaux de bord en direct.
Confluent KSQL
7 heuresCette formation en direct avec instructeur (en ligne ou sur site) s'adresse aux développeurs qui souhaitent mettre en œuvre le traitement des flux Apache Kafka sans écrire de code.
A l'issue de cette formation, les participants seront capables de :
- Installer et configurer Confluent KSQL.
- Mettre en place un pipeline de traitement de flux en utilisant uniquement des commandes SQL (pas de codage Java ou Python).
- Exécuter le filtrage des données, les transformations, les agrégations, les jointures, le fenêtrage et la sessionnalisation entièrement en SQL.
Apache Ignite for Developers
14 heuresCette formation en direct avec instructeur (en ligne ou sur site) s'adresse aux développeurs qui souhaitent apprendre les principes du stockage en mémoire pur et persistant, tout en créant un exemple de projet de calcul en mémoire.
A l'issue de cette formation, les participants seront capables de :
-
Utilisez Ignite pour la persistance en mémoire, sur disque, ainsi que pour une base de données en mémoire purement distribuée.
Réaliser la persistance sans synchroniser les données avec une base de données relationnelle.
Utilisez Ignite pour effectuer des jointures SQL et distribuées.
Améliorer les performances en rapprochant les données de l'unité centrale, en utilisant la mémoire vive comme stockage.
Répartir les ensembles de données sur un cluster pour obtenir une évolutivité horizontale.
Intégrer Ignite avec des SGBDR, NoSQL, Hadoop et des processeurs d'apprentissage automatique.
Unified Batch and Stream Processing with Apache Beam
14 heuresApache Apex: Processing Big Data-in-Motion
21 heuresApache Storm
28 heuresApache Storm est un moteur de calcul distribué en temps réel utilisé pour permettre l'intelligence d'affaires en temps réel. Il le fait en permettant aux applications de traiter de manière fiable les flux de données illimité (par exemple. Traitement de flux).
"Storm est pour le traitement en temps réel ce qui Hadoop est pour le traitement de pièces!"
Dans cette formation en direct guidée par l'instructeur, les participants apprendront comment installer et configurer Apache Storm, puis développer et déployer une Apache Storm application pour traiter de grands données en temps réel.
Certains des sujets inclus dans cette formation comprennent :
- Apache Storm dans le contexte de Hadoop
- Travailler avec des données illimitées
- Comptabilité continue
- Analyse en temps réel
- Traitement distribué RPC et ETL
Demandez ce cours maintenant!
Audience
- Développeurs de logiciels et ETL
- Les professionnels de mainframe
- Les scientifiques de données
- Les grands analystes de données
- [ 0 ] Les professionnels
Format du cours
- Lecture partielle, discussion partielle, exercices et pratiques lourdes
Apache NiFi for Administrators
21 heuresDans cette formation dirigée par un instructeur (sur site ou à distance), les participants apprendront à déployer et à gérer Apache NiFi dans un environnement de laboratoire réel.
A l'issue de cette formation, les participants seront capables de :
- Installer et configurer Apachi NiFi.
- Sourcez, transformez et gérez des données provenant de sources de données disparates et distribuées, notamment des bases de données et des big data lakes.
- Automatiser les flux de données.
- Autoriser l'analyse en continu.
- Appliquer diverses approches pour l'ingestion de données.
- Transformer Big Data et en informations commerciales.
Apache NiFi for Developers
7 heuresDans cette formation en direct, dirigée par un instructeur, les participants apprendront les principes fondamentaux de la programmation basée sur le flux en développant un certain nombre d'extensions, de composants et de processeurs de démonstration à l'aide de Apache NiFi.
A l'issue de cette formation, les participants seront capables de :
- Développer son propre processeur Apache Nifi.
- Ingérer et traiter des données en temps réel à partir de formats de fichiers et de sources de données disparates et peu courants.
Apache Flink Fundamentals
28 heuresCette formation en direct avec instructeur (en ligne ou sur site) présente les principes et les approches qui sous-tendent le traitement distribué des données en flux et par lots, et accompagne les participants dans la création d'une application de flux de données en temps réel dans Apache Flink.
A l'issue de cette formation, les participants seront capables de :
-
Mettre en place un environnement pour développer des applications d'analyse de données.
Comprendre le fonctionnement de la bibliothèque de traitement de graphes d'Apache Flink (Gelly).
Compiler, exécuter et surveiller des applications de streaming de données basées sur Flink et tolérantes aux pannes.
Gérer diverses charges de travail.
Effectuer des analyses avancées.
Mettre en place un cluster Flink à plusieurs nœuds.
Mesurer et optimiser les performances.
Intégrer Flink à différents systèmes Big Data.
Comparer les capacités de Flink avec celles d'autres frameworks de traitement des big data.
Python and Spark for Big Data (PySpark)
21 heuresDans cette formation en direct, dirigée par un instructeur, les participants apprendront à utiliser Python et Spark ensemble pour analyser les données volumineuses en travaillant sur des exercices pratiques.
A l'issue de cette formation, les participants seront capables de :
- Apprendre à utiliser Spark avec Python pour analyser les Big Data.
- Travailler sur des exercices qui imitent des cas réels.
- Utiliser différents outils et techniques pour l'analyse des Big Data en utilisant PySpark.
Introduction to Graph Computing
28 heuresDans cette formation en direct, dirigée par un instructeur, les participants découvriront les offres technologiques et les approches de mise en œuvre pour le traitement des données graphiques. L'objectif est d'identifier les objets du monde réel, leurs caractéristiques et leurs relations, puis de modéliser ces relations et de les traiter en tant que données à l'aide d'une approche Graph Computing (également connue sous le nom de Graph Analytics). Nous commencerons par une vue d'ensemble et nous nous concentrerons sur des outils spécifiques au fil d'une série d'études de cas, d'exercices pratiques et de déploiements en direct.
A l'issue de cette formation, les participants seront capables de :
- Comprendre comment les données des graphes sont persistées et parcourues.
- Sélectionner le meilleur framework pour une tâche donnée (des bases de données de graphes aux frameworks de traitement par lots.)
- Mettre en œuvre Hadoop, Spark, GraphX et Pregel pour effectuer des calculs de graphes sur de nombreuses machines en parallèle.
- Voir les problèmes de big data du monde réel en termes de graphes, de processus et de traversées.
Apache Spark MLlib
35 heuresMLlib est la bibliothèque d'apprentissage automatique (ML) de Spark. Son objectif est de rendre l'apprentissage pratique pratique évolutif et facile. Il comprend des algorithmes et des utilitaires d'apprentissage courants, notamment la classification, la régression, la mise en cluster, le filtrage collaboratif, la réduction de la dimensionnalité, ainsi que des primitives d'optimisation de niveau inférieur et des API de pipeline de niveau supérieur.
Il se divise en deux paquets:
spark.mllib contient l'API d'origine construite sur les RDD.
spark.ml fournit des API de niveau supérieur construites à partir de DataFrames pour la construction de pipelines ML.
Public
Ce cours s’adresse aux ingénieurs et aux développeurs qui souhaitent utiliser une bibliothèque de machines intégrée à Apache Spark