本节的程序来源于项目 https://github.com/ashutoshkrjha/Cartpole-OpenAI-Tensorflow ，并做了适当修改。

直接运行：

python cartpole_pg.py

本章主要介绍的是Policy Gradient 算法，关于该算法的更多细节，可以参考论文Policy Gradient Methods for Reinforcement Learning with Function Approximation。
除了几种最基础的强化学习方法：Q Learning、SARSA、DQN 和 Policy Gradient 之外，还有一些常用的强化学习方法，读者可以参阅以下论文了解其细节：Continuous control with deep reinforcement learning（DDPG 算法）、Asynchronous Methods for Deep Reinforcement Learning（A3C 算法）、Proximal Policy Optimization Algorithms（PPO 算法）等。

Provide feedback

Saved searches