Skip to content

v1.0.0

Latest
Compare
Choose a tag to compare
@manjavacas manjavacas released this 18 Jul 07:30
· 4 commits to main since this release

Esta primera versión del temario incluye:

  • La teoría correspondiente a métodos tabulares (I Tabular Solution Methods en Sutton & Barto (2018)).
    • Bandits, programación dinámica, métodos basados en muestreo, y planificación / model-based RL.
  • Código referenciado en el texto, con ejemplos representativos de los métodos de RL vistos en la parte teórica:
    • Iteración de la política en Gridworld, Monte Carlo en el entorno de Gymnasium Frozen Lake, comparativa entre SARSA, Q-learning y Expected SARSA en Cliffwalk, e implementación de Dyna-Q en GridMaze.