如何让看世界杯变得科技感十足?
如何在发朋友圈时自动配上优美的图片?
如何在工业安全生产环境下识别违规手机?
飞桨的年轻开发者们给出了自己的方案。
他们,借助飞桨及飞桨AI Studio,
开发了一个个令人惊艳的系统,
在实现AI梦想的同时,
也帮助更多人、更多行业解决难题。
他们正以AI为桨,划出时代的未来。
近日,百度CTO王海峰在WAVE SUMMIT+ 2022深度学习开发者峰会上公布了飞桨生态最新进展:飞桨已凝聚了535万位开发者,构建起全方位的产学研协同共创、共生、共赢的生态体系。其中,基于百度飞桨深度学习平台的学习与实训社区飞桨AI Studio,自2018年7月上线以来用户量也突破了200万。
让视频字幕提取更快更准确
Prompt 患者(飞桨社区用户名)
我加入飞桨AI Studio社区已经1306天,是加入社区比较早的开发者。三年前,我就注意到飞桨AI Studio是国内少有的AI学习平台,虽然我曾参与多项国内外顶级算法竞赛并获奖,如Deecamp&AIR全球大学生夏令营赛道冠军及总冠军、数字中国创新大赛冠军等。但2021年,参加由中国计算机学会主办的CCF BDCI大数据与计算智能大赛,让我印象尤为深刻。
我记得那次大赛上,主办方提出参赛者可以尝试使用任何框架迎接挑战,我过去习惯使用国外深度学习框架,这次我尝试使用飞桨框架,让我惊讶的是,在专一文本赛题方面,飞桨框架竟然效果最好!这次比赛印证了我的看法,即百度的深度学习技术运用到专业技术比赛场也能取得显著优势,与国外产品对比并没有丝毫的逊色。
除了技术以外,飞桨社区带给我全新的体验。比如,最近我看到一个与广告视觉算法有关的技术材料,这个材料涉及算法比较偏,内部也没有披露相关技术环节,我与一些圈内人探讨,但他们都没有得出合理的结论,于是我分享到飞桨AI Studio,有很多同学主动来加我,与我交流,甚至他们还请教了他们领域内的人,最后飞桨上有一个叫“坑姐”的开发者,帮我解决了这个问题,成功地推理出内部结论。
我当时有一种难以言表的激动,你知道吗?当有一群和你一样拥有技术情怀的人共同去探索AI时,那感觉真挺好。
可将一分钟左右的视频
在5秒内实现字幕快速提取,准确率达99%
让工业生产环境更安全
张赫航 北京科技大学
我首次接触到飞桨是通过参加去年12月飞桨AI Studio举办的常规赛。之后,我参与了飞桨举办的活动,跟一位PPDE(注:飞桨开发者技术专家 PaddlePaddle Developer Experts)入门做计算机视觉。他对飞桨 PaddleDetection 套件以及飞桨全流程开发工具PaddleX比较了解,记得有一次可能都晚上11点,他居然还秒回消息,帮我们检查项目。
接下来,我完成了中国交通标志图像分类、基于PP-PicoDet的工业安全生产环境违规使用手机的识别、基于JetsonNano工业安全手机识别部署、文心大模型教你搞定公众号图文生成等项目的开发,并在一些飞桨常规赛中拿到名次。
工业安全生产环境违规使用手机的识别应用样机
具体来说,我采用了计算机视觉、深度学习模型的方法,选择PaddleDetection套件,将其部署到开发板上(后续商业应用还可以部署到移动端上),用户只要将开发板连上电源,打开摄像头,输入命令,用摄像头对准你要检测的某一个区域,当区域内出现有人违规拿着手机时,就能进行识别,此时开发板所连接的显示器会呈现自动框选出来的目标手机。
让室友不再为朋友圈文案配图费心
彭腾宇 广西民族大学
随着AI科技的发展,我们的世界正因AI的参与变得越来越美好。举例来说,自动驾驶接管了我们的车辆,让驾驶员也能在旅途中作为一个观赏者去欣赏外面的风景,而不是辛苦地开车,将注意力集中在道路安全上。
另外受到我哥哥的影响,我高考志愿选择了智能科学与技术专业。他在华南理工大学读大三,专业也是AI方向,在我高考前的寒暑假,他每次回来都会给我分享展示他做过的项目。当时我就觉得好有趣!从那时起我就决定以后也往AI方向发展。
刚进大学那会,我查询了一些平台,想锻炼自己的专业能力,偶然的机会摸索到了飞桨平台,但真正近距离接触飞桨还是在学校的研习周,学院统一组织我们参加了飞桨文心大模型创意赛。
我觉得这次邂逅是我人生中第一次接触到了真正意义上的AI。我现在学校的专业学习基本上是训练编程能力和编程思维,但对我来说,会编程和编好程离AI还有非常遥远的距离,文心大模型中有上千亿的参数量,可以自行调节参数优化项目,搭建前端页面的新事物,这些是仅靠编程做不出来的。
加入飞桨AI Studio社区后发生了一件有意思的事。我经常听到室友抱怨发朋友圈写的文案找不到合适的配图。一个月前,我刚好接触到了飞桨文心大模型,知道文心大模型有根据文字生成图片的能力,我想尝试开发一个项目去解决这个问题。
我开发的“关键词句AI作画”系统,利用文心大模型的文本理解与创作能力,用户只要输入一段文字,复制粘贴到这个系统里,系统就可以提取段落句子里的关键词并自动生成图片。现在这个项目已经上升为文心创意赛的11月月赛的精选项目。
当然,开发项目过程中我也遇到过棘手的事。比如,文心把文字转化为图片是以网页链接的形式,而不是直接将图片展示给用户,这对用户的体验感会大打折扣。为了解决这个问题,我请教了我的指导老师蒋权,在他的帮助下,最终的项目实现了生成的图片可以在前端页面直接展示给用户。
室友用关键词句AI作画系统
生成朋友圈“秋天的第一杯奶茶”
让观众看世界杯更具科技感
卜宜凡 华东理工大学
我今年暑假参加飞桨AI Studio特训营接触到了飞桨。飞桨社区氛围很好,大家都愿意帮忙,彼此之间互相成长,社区活动也非常丰富,对我个人帮助很大。除了特训营,还有个创造营,社区给了我们这些开发者一些硬件来实操,还组织过英特尔工程师和我们交流。
足球赛识别追踪改良项目效果图
球类检测的难点在于,足球体积很小,往往难以定位追踪,特别是在镜头较远时,一般很难确切找到球在哪个位置。百度的指导老师卢飞翔对我帮助很大,在他的指导下发现是初期采集的数据不好造成的定位不准。
我们团队调用了一些数据,训练了一个球类检测模型,选择用PaddleDetection套件里的实验识别工具,将之前训练的模型串到一起,形成球员和球类识别追踪的可视化,这样观众在看球赛时可以实时标注赛场上的球员姓名、足球位置,并一键生成视频进行分享转发。这个小项目后来并入了PaddleSports的官方Repo(指Github上的代码仓库),同时还扩展了许多新的功能,包括号码识别、队伍识别等。
让AI变得更好玩
常钧淋 北京航空航天大学
虚拟现实技术与系统国家重点实验室 硕士在读
这些项目中,类MLP架构是我比较有成就感的。我想在点云场景中,找一个Transformer或MLP看能不能替换。我当时调研了图像分类领域的类MLP架构的论文,发现市场上Transformer比较火,但是自注意力机制到底是不是必要的存疑。而类MLP架构实际上要解决的问题是通过设计MLP去替换自注意力机制,换而言之,如果只用MLP能达到与Transform一样的性能,在图像分类目标检测,语义分割数据集上实现同样的效果,那么就可以证明自注意力机制并不是那么必要。后面李文博老师还推荐我去飞桨《开发者说》做分享,当时既惊喜又忐忑。
让媒体工作更方便快捷
周军 成都广播电视台
说来你可能不相信,我已经40多岁了。我大学不是学AI的,毕业后我就进入电台工作,现在融媒体发展部做新媒体、PHP开发相关的事情。电台是事业单位,可能有些人会很羡慕,但是其实有点像古代后妃困在深宫中一样熬人,一不小心十年、二十年过去了,我时常觉得我的人生可能就要这样浪费了,接触飞桨以后才让我重新燃起对生活的希望。
10月24日,周军参加飞桨组织的成都程序员节
现场与众多开发者互动
加入飞桨这段时间以来,我的个人生活和思维方式发生了巨大变化,我现在每天下班后第一件事情就是打开飞桨AI Studio看一看。工作上,我经常会不自觉地思考这个事情AI是不是能够解决?
我认为,AI在广播媒体行业是一种革新,可以让媒体传播制作变得更好。比如,AI可以帮助媒体资源管理库,进行音视频的语义分析;我之前尝试过做过一个AI主播,用了飞桨的套件和模型,虽然声音模仿上嘴型吻合得不是特别好,但能达到90%声音逼真效果;还尝试过开发字幕转换工具。
我现在实力还不够,就想着尽自己的能力多给在社区做点事,我希望自己能力强大时,成为一个贡献者,让飞桨变得更好。