Release v1.0.0 · manjavacas/rl-temario

Esta primera versión del temario incluye:

La teoría correspondiente a métodos tabulares (I Tabular Solution Methods en Sutton & Barto (2018)).
- Bandits, programación dinámica, métodos basados en muestreo, y planificación / model-based RL.
Código referenciado en el texto, con ejemplos representativos de los métodos de RL vistos en la parte teórica:
- Iteración de la política en Gridworld, Monte Carlo en el entorno de Gymnasium Frozen Lake, comparativa entre SARSA, Q-learning y Expected SARSA en Cliffwalk, e implementación de Dyna-Q en GridMaze.

Provide feedback