UmaMusumeRL 使用actor-critic计算的赛马娘决策AI。 game里写的是简化版的赛马娘游戏逻辑,只有训练和休息,没有比赛。 训练后能够比50体力以上时只选当回合加最大属性值的训练,50体力以下时休息的贪婪算法每局收益更高,证明《赛马娘》游戏存在跨回合策略。