Plan du cours
Introduction
- Apprentissage par renforcement positif
Elements de Reinforcement Learning
Termes importants (actions, états, récompenses, politique, valeur, valeur Q, etc.)
Aperçu des méthodes de solutions tabulaires
Création d'un agent logiciel
Comprendre les approches basées sur les valeurs, les politiques et les modèles
Travailler avec le processus de décision de Markov (PDM)
Comment les politiques définissent le comportement d'un agent
Utiliser les méthodes de Monte Carlo
Apprentissage par différence temporelle
Apprentissage à n étapes Bootstrapping
Méthodes de solutions approximatives
Prédiction sur la politique avec approximation
Contrôle de la politique en cours avec approximation
Méthodes hors politique avec approximation
Comprendre les traces d'éligibilité
Utiliser les méthodes de gradient de politique
Résumé et conclusion
Pré requis
- Expérience de l'apprentissage automatique
- Expérience Programming
Audience
- Scientifiques des données