Plan du cours

Introduction à l'apprentissage par renforcement et à l'IA agente

  • Prise de décision sous incertitude et planification séquentielle
  • Composants clés de l'AR : agents, environnements, états et récompenses
  • Rôle de l'AR dans les systèmes d'IA adaptative et agente

Processus de décision markovien (MDP)

  • Définition formelle et propriétés des MDP
  • Fonctions de valeur, équations de Bellman et programmation dynamique
  • Évaluation, amélioration et itération de politiques

Apprentissage par renforcement sans modèle

  • Apprentissage Monte Carlo et Temporal-Difference (TD)
  • Q-learning et SARSA
  • Pratique : implémentation de méthodes d'AR tabulaire en Python

Apprentissage par renforcement profond

  • Combinaison des réseaux neuronaux et de l'AR pour l'approximation de fonctions
  • Réseaux Q-Profonds (DQN) et mémoire d'expérience
  • Architectures acteur-critique et gradients de politique
  • Pratique : entraînement d'un agent en utilisant DQN et PPO avec Stable-Baselines3

Stratégies d'exploration et de façonnage des récompenses

  • Équilibrer l'exploration et l'exploitation (ε-greedy, UCB, méthodes d'entropie)
  • Conception de fonctions de récompense et évitement des comportements indésirables
  • Façonnage des récompenses et apprentissage par curriculum

Sujets avancés en AR et prise de décision

  • Apprentissage par renforcement multi-agent et stratégies coopératives
  • Apprentissage par renforcement hiérarchique et cadre des options
  • AR hors ligne et apprentissage par imitation pour un déploiement plus sûr

Environnements de simulation et évaluation

  • Utilisation d'OpenAI Gym et d'environnements personnalisés
  • Espaces d'action continu vs. discret
  • Métriques de performance, stabilité et efficacité échantillonnale des agents

Intégration de l'AR dans les systèmes d'IA agente

  • Combinaison de la raisonnement et de l'AR dans des architectures d'agents hybrides
  • Intégration de l'apprentissage par renforcement avec des agents utilisant des outils
  • Considérations opérationnelles pour le scaling et le déploiement

Projet final

  • Concevoir et implémenter un agent d'apprentissage par renforcement pour une tâche simulée
  • Analyser la performance de l'entraînement et optimiser les hyperparamètres
  • Démontrer un comportement adaptatif et une prise de décision dans un contexte agente

Résumé et étapes suivantes

Pré requis

  • Maîtrise approfondie de la programmation Python
  • Compréhension solide des concepts d'apprentissage automatique et d' apprentissage profond
  • Connaissance de l'algèbre linéaire, des probabilités et des méthodes d'optimisation de base

Public cible

  • Ingénieurs en apprentissage par renforcement et chercheurs en IA appliquée
  • Développeurs de robotique et d'automatisation
  • Équipes d'ingénierie travaillant sur des systèmes d'IA adaptative et agente
 28 heures

Nombre de participants


Prix par participant

Nos clients témoignent (3)

Cours à venir

Catégories Similaires