Plan du cours

1. Introduction à l'Apprentissage par Renforcement Profond

  • Qu'est-ce que l'apprentissage par renforcement ?
  • Différences entre apprentissage supervisé, non supervisé et par renforcement
  • Applications de l'ALR en 2025 (robotique, santé, finance, logistique)
  • Comprendre la boucle d'interaction agent-environnement

2. Fondements de l'Apprentissage par Renforcement

  • Processus Décisionnels de Markov (MDP)
  • État, action, récompense, politique et fonctions de valeur
  • Compromis entre exploration et exploitation
  • Méthodes de Monte Carlo et apprentissage par différence temporelle (TD)

3. Mise en œuvre des Algorithmes Fondamentaux d'ALR

  • Méthodes tabulaires : programmation dynamique, évaluation de politique et itération
  • Q-Learning et SARSA
  • Exploration epsilon-greedy et stratégies décroissantes
  • Mise en œuvre d'environnements d'ALR avec OpenAI Gymnasium

4. Transition vers l'Apprentissage par Renforcement Profond

  • LIMITATIONS des méthodes tabulaires
  • Utilisation de réseaux de neurones pour l'approximation de fonctions
  • Architecture et workflow du Deep Q-Network (DQN)
  • Replay d'expérience et réseaux cibles

5. Algorithmes Avancés d'ALR Profond

  • Double DQN, Dueling DQN et Prioritized Experience Replay
  • Méthodes de gradient de politique : algorithme REINFORCE
  • Architectures Actor-Critic (A2C, A3C)
  • Proximal Policy Optimization (PPO)
  • Soft Actor-Critic (SAC)

6. Travail avec des Espaces d'Action Continus

  • Défis du contrôle continu
  • Utilisation de DDPG (Deep Deterministic Policy Gradient)
  • Twin Delayed DDPG (TD3)

7. Outils et Frameworks Pratiques

  • Utilisation de Stable-Baselines3 et Ray RLlib
  • Journalisation et surveillance avec TensorBoard
  • Ajustement des hyperparamètres pour les modèles d'ALR profond

8. Ingénierie des Récompenses et Conception des Environnements

  • Mise en forme des récompenses et équilibrage des pénalités
  • Concepts de transfert d'apprentissage sim-to-real
  • Création d'environnements personnalisés dans Gymnasium

9. Environnements Partiellement Observables et Généralisation

  • Gestion des informations d'état incomplètes (POMDPs)
  • Approches basées sur la mémoire utilisant LSTMs et RNNs
  • Amélioration de la robustesse et de la généralisation des agents

10. Théorie des Jeux et Apprentissage par Renforcement Multi-Agent

  • Introduction aux environnements multi-agents
  • Coopération vs. compétition
  • Applications dans l'entraînement adversarial et l'optimisation des stratégies

11. Études de Cas et Applications Réelles

  • Simulations de conduite autonome
  • Prix dynamiques et stratégies de trading financier
  • Robotique et automatisation industrielle

12. Dépannage et Optimisation

  • Diagnostics de l'entraînement instable
  • Gestion de la rareté des récompenses et du surapprentissage
  • Mise à l'échelle des modèles d'ALR profond sur GPU et systèmes distribués

13. Résumé et Étapes Suivantes

  • Bilan de l'architecture ALR et des algorithmes clés
  • Tendances industrielles et orientations de recherche (par exemple, RLHF, modèles hybrides)
  • Ressources supplémentaires et lectures recommandées

Pré requis

  • Maitrise de la programmation Python
  • Compréhension du Calcul et de l'Algèbre Linéaire
  • Connaissances de base en Probabilité et Statistiques
  • Expérience dans la construction de modèles d'apprentissage automatique à l'aide de Python et NumPy ou TensorFlow/PyTorch

Public cible

  • Développeurs intéressés par l'IA et les systèmes intelligents
  • Data Scientists explorant des cadres d'apprentissage par renforcement
  • Ingénieurs en Apprentissage Automatique travaillant avec des systèmes autonomes
 21 Heures

Nombre de participants


Prix ​​par Participant

Nos clients témoignent (5)

Cours à venir

Catégories Similaires