Plan du cours

Introduction

  • Apprentissage par renforcement positif

Éléments de Reinforcement Learning

Termes importants (actions, états, récompenses, politique, valeur, valeur Q, etc.)

Aperçu des méthodes de solutions tabulaires

Création d'un agent logiciel

Comprendre les approches fondées sur la valeur, les politiques et les modèles

Travailler avec le processus de décision de Markov (PDM)

Comment les politiques définissent-elles le comportement d'un agent ?

Utilisation des méthodes de Monte Carlo

Apprentissage par différence temporelle

n-étape Bootstrapping

Méthodes de solutions approximatives

Prédiction sur la politique avec approximation

Contrôle de la politique avec approximation

Méthodes hors politique avec approximation

Comprendre les traces d'éligibilité

Utilisation des méthodes de gradient de politique

Résumé et conclusion

Pré requis

  • Expérience avec l'apprentissage automatique
  • Programming expérience

Audience

  • Data scientists
 21 heures

Nombre de participants



Prix par participant

Cours Similaires

AI and Robotics for Nuclear - Extended

120 heures

AI and Robotics for Nuclear

80 heures

Catégories Similaires