UmaMusumeRL

使用actor-critic计算的赛马娘决策AI。

game里写的是简化版的赛马娘游戏逻辑，只有训练和休息，没有比赛。训练后能够比50体力以上时只选当回合加最大属性值的训练，50体力以下时休息的贪婪算法每局收益更高，证明《赛马娘》游戏存在跨回合策略。