Prenez contact avec nous

Plan du cours

PySpark & Machine Learning 

Module 1 : Fondamentaux du Big Data et de Spark

  • Aperçu de l'écosystème du Big Data et du rôle de Spark dans les plateformes de données modernes
  • Compréhension de l'architecture de Spark : pilote, exécuteurs, gestionnaire de cluster, évaluation paresseuse, DAG et planification d'exécution
  • Différences entre les API RDD et DataFrame et quand utiliser chaque approche
  • Création et configuration de SparkSession ainsi que compréhension des fondamentaux de la configuration des applications

Module 2 : DataFrames PySpark

  • Lecture et écriture de données depuis des sources et formats d'entreprise (CSV, JSON, Parquet, Delta)
  • Travail avec les DataFrames PySpark : transformations, actions, expressions de colonnes, filtrage, jointures et agrégations
  • Mise en œuvre d'opérations avancées telles que les fonctions fenêtrées, la gestion des horodatages et le traitement de données imbriquées
  • Application de contrôles de qualité des données et rédaction de code PySpark réutilisable et maintenable

Module 3 : Traitement efficace de grands volumes de données

  • Compréhension des fondamentaux de la performance : stratégies de partitionnement, comportement des mélanges (shuffle), mise en cache et persistance
  • Utilisation de techniques d'optimisation incluant les jointures par diffusion (broadcast joins) et l'analyse des plans d'exécution
  • Traitement efficace de grands ensembles de données et meilleures pratiques pour des workflows de données évolutifs
  • Compréhension de l'évolution des schémas et des formats de stockage modernes utilisés dans les environnements d'entreprise

Module 4 : Ingénierie des caractéristiques à grande échelle

  • Réalisation d'ingénierie des caractéristiques avec Spark MLlib : gestion des valeurs manquantes, codage des variables catégorielles et mise à l'échelle des caractéristiques
  • Conception d'étapes de prétraitement réutilisables et préparation des jeux de données pour les pipelines de Machine Learning
  • Introduction à la sélection de caractéristiques et à la gestion des jeux de données déséquilibrés

Module 5 : Machine Learning avec Spark MLlib

  • Compréhension de l'architecture de MLlib et du modèle Estimateur/Transformateur
  • Entraînement de modèles de régression et de classification à grande échelle (Régression linéaire, Régression logistique, Arbres de décision, Forêts aléatoires)
  • Comparaison des modèles et interprétation des résultats dans des workflows de Machine Learning distribués

Module 6 : Pipelines ML de bout en bout

  • Construction de pipelines de Machine Learning complets combinant prétraitement, ingénierie des caractéristiques et modélisation
  • Application de stratégies de division des données en ensembles d'entraînement, de validation et de test
  • Réalisation de validation croisée et de réglage des hyperparamètres à l'aide de recherches par grille et aléatoires
  • Structuration d'expériences de Machine Learning reproductibles

Module 7 : Évaluation des modèles et prise de décision pratique en Machine Learning

  • Application de métriques d'évaluation appropriées pour les problèmes de régression et de classification
  • Identification du surapprentissage et du sous-apprentissage et prise de décisions pratiques concernant le choix des modèles
  • Interprétation de l'importance des caractéristiques et compréhension du comportement des modèles

Module 8 : Pratiques de production et d'entreprise

  • Persistance et chargement de modèles dans Spark
  • Mise en œuvre de workflows d'inférence par lots sur de grands ensembles de données
  • Compréhension du cycle de vie du Machine Learning dans les environnements d'entreprise
  • Introduction aux concepts de versionnage, de suivi d'expériences et aux stratégies de test de base

 

Résultat pratique

  • Capacité à travailler de manière autonome avec PySpark
  • Capacité à traiter efficacement de grands volumes de données
  • Capacité à réaliser une ingénierie des caractéristiques à grande échelle
  • Capacité à construire des pipelines de Machine Learning évolutifs

Pré requis

Les participants doivent posséder les prérequis suivants :

Connaissances de base en programmation Python, notamment l'utilisation de fonctions, de structures de données et de bibliothèques
Compréhension fondamentale des concepts d'analyse de données, tels que les jeux de données, les transformations et les agrégations
Connaissances de base en SQL et sur les concepts des données relationnelles
Introduction aux concepts de Machine Learning, tels que les jeux de données d'entraînement, les caractéristiques et les métriques d'évaluation
Il est recommandé d'être familier avec les environnements en ligne de commande et les pratiques de base du développement logiciel

Une expérience avec Pandas, NumPy ou d'autres bibliothèques de traitement de données similaires est utile mais non obligatoire.

 21 Heures

Nombre de participants


Prix par participant

Nos clients témoignent (1)

Cours à venir

Catégories Similaires