Plan du cours
1. Introduction à l'Apprentissage par Renforcement Profond
- Qu'est-ce que l'apprentissage par renforcement ?
- Différences entre apprentissage supervisé, non supervisé et par renforcement
- Applications de l'ALR en 2025 (robotique, santé, finance, logistique)
- Comprendre la boucle d'interaction agent-environnement
2. Fondements de l'Apprentissage par Renforcement
- Processus Décisionnels de Markov (MDP)
- État, action, récompense, politique et fonctions de valeur
- Compromis entre exploration et exploitation
- Méthodes de Monte Carlo et apprentissage par différence temporelle (TD)
3. Mise en œuvre des Algorithmes Fondamentaux d'ALR
- Méthodes tabulaires : programmation dynamique, évaluation de politique et itération
- Q-Learning et SARSA
- Exploration epsilon-greedy et stratégies décroissantes
- Mise en œuvre d'environnements d'ALR avec OpenAI Gymnasium
4. Transition vers l'Apprentissage par Renforcement Profond
- LIMITATIONS des méthodes tabulaires
- Utilisation de réseaux de neurones pour l'approximation de fonctions
- Architecture et workflow du Deep Q-Network (DQN)
- Replay d'expérience et réseaux cibles
5. Algorithmes Avancés d'ALR Profond
- Double DQN, Dueling DQN et Prioritized Experience Replay
- Méthodes de gradient de politique : algorithme REINFORCE
- Architectures Actor-Critic (A2C, A3C)
- Proximal Policy Optimization (PPO)
- Soft Actor-Critic (SAC)
6. Travail avec des Espaces d'Action Continus
- Défis du contrôle continu
- Utilisation de DDPG (Deep Deterministic Policy Gradient)
- Twin Delayed DDPG (TD3)
7. Outils et Frameworks Pratiques
- Utilisation de Stable-Baselines3 et Ray RLlib
- Journalisation et surveillance avec TensorBoard
- Ajustement des hyperparamètres pour les modèles d'ALR profond
8. Ingénierie des Récompenses et Conception des Environnements
- Mise en forme des récompenses et équilibrage des pénalités
- Concepts de transfert d'apprentissage sim-to-real
- Création d'environnements personnalisés dans Gymnasium
9. Environnements Partiellement Observables et Généralisation
- Gestion des informations d'état incomplètes (POMDPs)
- Approches basées sur la mémoire utilisant LSTMs et RNNs
- Amélioration de la robustesse et de la généralisation des agents
10. Théorie des Jeux et Apprentissage par Renforcement Multi-Agent
- Introduction aux environnements multi-agents
- Coopération vs. compétition
- Applications dans l'entraînement adversarial et l'optimisation des stratégies
11. Études de Cas et Applications Réelles
- Simulations de conduite autonome
- Prix dynamiques et stratégies de trading financier
- Robotique et automatisation industrielle
12. Dépannage et Optimisation
- Diagnostics de l'entraînement instable
- Gestion de la rareté des récompenses et du surapprentissage
- Mise à l'échelle des modèles d'ALR profond sur GPU et systèmes distribués
13. Résumé et Étapes Suivantes
- Bilan de l'architecture ALR et des algorithmes clés
- Tendances industrielles et orientations de recherche (par exemple, RLHF, modèles hybrides)
- Ressources supplémentaires et lectures recommandées
Pré requis
- Maitrise de la programmation Python
- Compréhension du Calcul et de l'Algèbre Linéaire
- Connaissances de base en Probabilité et Statistiques
- Expérience dans la construction de modèles d'apprentissage automatique à l'aide de Python et NumPy ou TensorFlow/PyTorch
Public cible
- Développeurs intéressés par l'IA et les systèmes intelligents
- Data Scientists explorant des cadres d'apprentissage par renforcement
- Ingénieurs en Apprentissage Automatique travaillant avec des systèmes autonomes
Nos clients témoignent (5)
Hunter est fabuleux, très engageant, extrêmement bien informé et sympathique. C'est très bien.
Rick Johnson - Laramie County Community College
Formation - Artificial Intelligence (AI) Overview
Traduction automatique
Very flexible.
Frank Ueltzhoffer
Formation - Artificial Neural Networks, Machine Learning and Deep Thinking
Traduction automatique
I liked the new insights in deep machine learning.
Josip Arneric
Formation - Neural Network in R
Traduction automatique
Ann created a great environment to ask questions and learn. We had a lot of fun and also learned a lot at the same time.
Gudrun Bickelq
Formation - Introduction to the use of neural networks
Traduction automatique
It was very interactive and more relaxed and informal than expected. We covered lots of topics in the time and the trainer was always receptive to talking more in detail or more generally about the topics and how they were related. I feel the training has given me the tools to continue learning as opposed to it being a one off session where learning stops once you've finished which is very important given the scale and complexity of the topic.
Jonathan Blease
Formation - Artificial Neural Networks, Machine Learning, Deep Thinking
Traduction automatique