Skip to content

Latest commit

 

History

History
15 lines (9 loc) · 797 Bytes

File metadata and controls

15 lines (9 loc) · 797 Bytes

21. 策略梯度算法

本节的程序来源于项目 https://github.com/ashutoshkrjha/Cartpole-OpenAI-Tensorflow ,并做了适当修改。

直接运行:

python cartpole_pg.py

拓展阅读

  • 本章主要介绍的是Policy Gradient 算法,关于该算法的更多细节, 可以参考论文Policy Gradient Methods for Reinforcement Learning with Function Approximation。

  • 除了几种最基础的强化学习方法:Q Learning、SARSA、DQN 和 Policy Gradient 之外,还有一些常用的强化学习方法,读者可以参阅 以下论文了解其细节:Continuous control with deep reinforcement learning(DDPG 算法)、Asynchronous Methods for Deep Reinforcement Learning(A3C 算法)、Proximal Policy Optimization Algorithms(PPO 算法)等。