开源发展至今,越来越多的开发者使用开源代码的同时,也开始将自己的项目和代码大方骄傲地分享出来,在开源当中找到了成就和价值。更多的开发者得益于开源的优势,从加入使用,到共同开发。如此正向循环,不断地推动开源生态发展,开源社区也不断地壮大。
当然,本期将是最后一期文字版本的PaddleWeekly,在此之后我们会对栏目升级为更通俗易懂的视频版PaddleWeekly,本期视频也发布在了下方小程序并在bilibili的视频评论区做了个小抽奖,感兴趣同学可以关注一波哦~
在上期解读《端到端无人驾驶小车模拟》后,不少小伙伴表示想进一步了解强化学习,那么本期我们就以超级马里奥为例,用简单的强化学习模型让AI来玩超级马里奥~
初识强化学习,相较于回归任务、分类任务、检测任务,强化学习任务,单从字面来看很难猜出“强化学习”是什么含义,“强化”的目的是什么?它又为什么要“学习”?
强化学习别名挺多,在部分资料中还被称之为再励学习、评价学习或增强学习,它是机器学习的范式和方法论之一,用于描述和解决智能体在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。
听不懂也没有关系,太专业的术语听起来很让人感到迷惑,但强化学习应用于生活也源于生活。不妨让我们回到10多年前,我将会以小学生小张和小王的视角来进行演绎,看完下面的小故事,相信你就能了解强化学习:
在本周我们要推荐的PaddleMario强化学习小项目就是个很好的案例,在游戏环境模拟方面作者选择了目前热度较高的Gym库进行马里奥游戏环境模拟,载入游戏后将实时获取游戏内画面信息并传递给CNN行动网络,并让评估网络进行评估。经过多轮训练后,行动网络就会具备下方所示的过关的能力,此时的AI就可以玩转超级马里奥啦~
当然,不用怕眼睛会了手还不会,作者用优秀的代码能力和高昂的开源热情开源出了非常不错的完整代码,扫码下方二维码或项目链接,快来试试吧~
项目维护者:Wongziseoi(子端)
主要框架/工具组件:飞桨PaddlePaddle核心框架、gym
项目链接:
https://github.com/Wongziseoi/PaddleMario
扫码进入项目主页
开源项目不在规模大小,大的开源项目成为行业翘楚,提供全面解决思路和方式,但小项目一样激动人心,创意傲人。
如果你想推荐自己的项目,可将项目链接和简要的描述发送给GT,即有机会参与项目推荐并获得飞桨周边小礼品一份,你的代码也能给别人带来效率和价值!
长按下方二维码立即
Star
更多信息:
飞桨官方QQ群:793866180
飞桨官网网址:
www.paddlepaddle.org.cn/
飞桨开源框架项目地址:
GitHub:
github.com/PaddlePaddle/Paddle
Gitee:
gitee.com/paddlepaddle/Paddle
点击阅读原文,欢迎在飞桨论坛讨论交流~~
END