这里提供了一些强化学习的示例:
演员-评论家算法 : 介绍使用 PaddlePaddle 实现演员-评论家算法。 深度确定梯度策略(DDPG) : 介绍使用 PaddlePaddle 实现 DDPG 算法。
演员-评论家算法 : 介绍使用 PaddlePaddle 实现演员-评论家算法。
深度确定梯度策略(DDPG) : 介绍使用 PaddlePaddle 实现 DDPG 算法。