PaddleWeekly | 无需TAS告别手残，AI带你玩转超级马里奥

发布日期：2021-08-27T12:45:33.000+0000 浏览量：1079次

开源发展至今，越来越多的开发者使用开源代码的同时，也开始将自己的项目和代码大方骄傲地分享出来，在开源当中找到了成就和价值。更多的开发者得益于开源的优势，从加入使用，到共同开发。如此正向循环，不断地推动开源生态发展，开源社区也不断地壮大。

当然，本期将是最后一期文字版本的PaddleWeekly，在此之后我们会对栏目升级为更通俗易懂的视频版PaddleWeekly，本期视频也发布在了下方小程序并在bilibili的视频评论区做了个小抽奖，感兴趣同学可以关注一波哦~

在上期解读《端到端无人驾驶小车模拟》后，不少小伙伴表示想进一步了解强化学习，那么本期我们就以超级马里奥为例，用简单的强化学习模型让AI来玩超级马里奥~

初识强化学习，相较于回归任务、分类任务、检测任务，强化学习任务，单从字面来看很难猜出“强化学习”是什么含义，“强化”的目的是什么？它又为什么要“学习”？

强化学习别名挺多，在部分资料中还被称之为再励学习、评价学习或增强学习，它是机器学习的范式和方法论之一，用于描述和解决智能体在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。

听不懂也没有关系，太专业的术语听起来很让人感到迷惑，但强化学习应用于生活也源于生活。不妨让我们回到10多年前，我将会以小学生小张和小王的视角来进行演绎，看完下面的小故事，相信你就能了解强化学习：

在08年的夏天，小张和他的朋友小王两人吹着小风扇蹲在电视旁玩着小霸王，屏幕中央正是当时家喻户晓的FC游戏--超级马里奥。虽然小霸王可以插入两只手柄，但马里奥只能一名玩家操控，两人只好轮流上场。

玩游戏，只有操控人物才算玩吗？当然不是，在小张上场时，小王虽然操控不了马里奥，但他却可以去讨论如何去玩，这也不乏是种乐趣。比如，在1-1中的烟囱下有宝藏，那个砖块里藏着一盆花，甚至在某个地方提前起跳可以拿到更好的分数...

游戏时，小张失误的地方，小王会告诉他哪些地方可以尝试去避免，小张没有探索过的地方，小王也会和他讨论要不要尝试那块区域。久而久之，在小王的帮助下，小张的水平越来越好，“游戏带师”也因此而生。

强化学习就是这样，我们可以让小张（行动网络）去尝试去探索游戏的操作，而小王（评估网络）则可以负责评估小张操作质量，以及如何引导小张去更好的操作发展，经过多次的模拟，最终我们就能收获一个“熟练”的模型。

在本周我们要推荐的PaddleMario强化学习小项目就是个很好的案例，在游戏环境模拟方面作者选择了目前热度较高的Gym库进行马里奥游戏环境模拟，载入游戏后将实时获取游戏内画面信息并传递给CNN行动网络，并让评估网络进行评估。经过多轮训练后，行动网络就会具备下方所示的过关的能力，此时的AI就可以玩转超级马里奥啦~

当然，不用怕眼睛会了手还不会，作者用优秀的代码能力和高昂的开源热情开源出了非常不错的完整代码，扫码下方二维码或项目链接，快来试试吧~

项目维护者：Wongziseoi（子端）

主要框架/工具组件：飞桨PaddlePaddle核心框架、gym

项目链接：

https://github.com/Wongziseoi/PaddleMario

扫码进入项目主页

开源项目不在规模大小，大的开源项目成为行业翘楚，提供全面解决思路和方式，但小项目一样激动人心，创意傲人。

如果你想推荐自己的项目，可将项目链接和简要的描述发送给GT，即有机会参与项目推荐并获得飞桨周边小礼品一份，你的代码也能给别人带来效率和价值！

（联系方式微信/QQ 1029550448）

长按下方二维码立即

Star

更多信息：

飞桨官方QQ群：793866180
飞桨官网网址：
www.paddlepaddle.org.cn/
飞桨开源框架项目地址：
GitHub:
github.com/PaddlePaddle/Paddle
Gitee:
gitee.com/paddlepaddle/Paddle
点击阅读原文，欢迎在飞桨论坛讨论交流~~

END

上一篇：七月：交通车辆管理、门禁考勤，智能化升级的最优方案你get到了吗？

下一篇：你好重庆！2021全国人工智能师资培训飞桨暑期高校行走进重庆大学