强化学习¶
这里提供了一些强化学习的示例:
演员-评论家算法 : 介绍使用 PaddlePaddle 实现演员-评论家算法。
优势-演员-评论家算法(A2C) : 介绍使用 PaddlePaddle 实现 A2C 算法。
深度确定梯度策略(DDPG) : 介绍使用 PaddlePaddle 实现 DDPG 算法。
Deep Q-Network (DQN 算法) : 介绍使用 PaddlePaddle 基于 DQN 算法玩“合成大西瓜”。
AlphaZero 算法 : 介绍使用 PaddlePaddle 基于 AlphaZero 算法训练一个会下五子棋的 AI 模型。