- 深度强化学习(DRL)算法汇总
- 深度强化学习(DRL)算法 1 —— REINFORCE
- 深度强化学习(DRL)算法 2 —— PPO 之 Clipped Surrogate Objective 篇
- 深度强化学习(DRL)算法 2 —— PPO 之 GAE 篇
- 深度强化学习(DRL)算法 3 —— Deep Q-learning(DQN)
- 深度强化学习(DRL)算法 4 —— Deep Deterministic Policy Gradient (DDPG)
- 深度强化学习(DRL)算法 5 —— Twin Delayed Deep Deterministic Policy Gradient (TD3)
- 深度强化学习(DRL)算法 6 —— Soft Actor-Critic (SAC)
- 深度强化学习(DRL)算法 附录 1 —— 贝尔曼公式
- 深度强化学习(DRL)算法 附录 2 —— 策略迭代和价值迭代
- 深度强化学习(DRL)算法 附录 3 —— 蒙特卡洛方法(MC)和时序差分(TD)
- 深度强化学习(DRL)算法 附录 4 —— 一些常用概念(KL 散度、最大熵 MDP etc.)
- 深度强化学习(DRL)算法 附录 5 —— CV 基础回顾篇
- 深度强化学习(DRL)算法 附录 6 —— NLP 基础回顾篇
-
单智能体
-
PPO
- discrete action
- continuous action
- atari
-
DDPG
-
SAC
-
DQN
- discrete action
- atari
-
TD3
-
多智能体
-
MAPPO(IPPO)
-
HATRPO/HAPPO
-
MA Transformer
- tao
- cleanrl
- sb3
- openai/baselines
git clone https://github.com/amulil/Tao.git && cd tao
poetry install
poetry run jupyter notebook # run examples in notebook
# train model
from tao import PPO
model = PPO(env_id="CartPole-v1")
model.learn()
# save model
import torch
is_save = True
if is_save:
torch.save(agent.state_dict(), "./ppo.pt")
# load model
model = PPO(env_id="CartPole-v1")
model.load_state_dict(torch.load("./ppo.pt", map_location="cpu"))
model.eval()