Plan du cours

Introduction

  • Apprentissage par renforcement positif

Elements de Reinforcement Learning

Termes importants (actions, états, récompenses, politique, valeur, valeur Q, etc.)

Aperçu des méthodes de solutions tabulaires

Création d'un agent logiciel

Comprendre les approches basées sur les valeurs, les politiques et les modèles

Travailler avec le processus de décision de Markov (PDM)

Comment les politiques définissent le comportement d'un agent

Utiliser les méthodes de Monte Carlo

Apprentissage par différence temporelle

Apprentissage à n étapes Bootstrapping

Méthodes de solutions approximatives

Prédiction sur la politique avec approximation

Contrôle de la politique en cours avec approximation

Méthodes hors politique avec approximation

Comprendre les traces d'éligibilité

Utiliser les méthodes de gradient de politique

Résumé et conclusion

Pré requis

  • Expérience de l'apprentissage automatique
  • Expérience Programming

Audience

  • Scientifiques des données
 21 Heures

Nombre de participants


Prix ​​par Participant

Cours à venir

Catégories Similaires