Plan du cours
Introduction
- Apprentissage par renforcement positif
Éléments de Reinforcement Learning
Termes importants (actions, états, récompenses, politique, valeur, valeur Q, etc.)
Aperçu des méthodes de solutions tabulaires
Création d'un agent logiciel
Comprendre les approches fondées sur la valeur, les politiques et les modèles
Travailler avec le processus de décision de Markov (PDM)
Comment les politiques définissent-elles le comportement d'un agent ?
Utilisation des méthodes de Monte Carlo
Apprentissage par différence temporelle
n-étape Bootstrapping
Méthodes de solutions approximatives
Prédiction sur la politique avec approximation
Contrôle de la politique avec approximation
Méthodes hors politique avec approximation
Comprendre les traces d'éligibilité
Utilisation des méthodes de gradient de politique
Résumé et conclusion
Pré requis
- Expérience avec l'apprentissage automatique
- Programming expérience
Audience
- Data scientists