Plan du cours

Introduction

  • Apprentissage par renforcement positif

Éléments de Reinforcement Learning

Termes importants (actions, états, récompenses, politique, valeur, valeur Q, etc.)

Aperçu des méthodes de solutions tabulaires

Création d'un agent logiciel

Comprendre les approches fondées sur la valeur, les politiques et les modèles

Travailler avec le processus de décision de Markov (PDM)

Comment les politiques définissent-elles le comportement d'un agent ?

Utilisation des méthodes de Monte Carlo

Apprentissage par différence temporelle

n-étape Bootstrapping

Méthodes de solutions approximatives

Prédiction sur la politique avec approximation

Contrôle de la politique avec approximation

Méthodes hors politique avec approximation

Comprendre les traces d'éligibilité

Utilisation des méthodes de gradient de politique

Résumé et conclusion

Pré requis

  • Expérience avec l'apprentissage automatique
  • Programming expérience

Audience

  • Data scientists
  21 heures
 

Nombre de participants


Début

Fin


Dates are subject to availability and take place between 09:30 and 16:30.
Les formations ouvertes requièrent plus de 3 participants.

Cours Similaires

AI and Robotics for Nuclear - Extended

  120 heures

AI and Robotics for Nuclear

  80 heures

Catégories Similaires