如果说互联网的目标是连接一切,那么推荐系统的作用就是让用户与信息建立更高效的连接,提升用户体验及商业效益。在推荐系统中,主要的挑战是如何从交互数据和辅助信息中学习到User或Item的有效表示,并让两者能够以最有效的方法连接起来,从这个角度出发,推荐场景的交互行为数据就是非常经典的「图结构数据」。对于图来说万物皆可连接,而如何将不同的数据类型联合建图,并高效挖掘数据潜在特征、获取深层次的User和Item特征描述等是图技术需要面临的挑战。
通过上述案例可以看出,只要数据中的样本之间存在交互关系,就可以从图的视角构建图结构数据,并用图学习算法进行建模。
但在实际应用中,受限于相关工具能力的不足,GNN 也面临许多落地难题:
为了降低GNN的应用门槛,促进GNN在工业界广泛的应用落地,百度飞桨图学习(Paddle Graph Learning,PGL)推出了基于图神经网络技术开箱即用的图推荐工具库「Graph4Rec」,该工具库能够满足工业级推荐系统的应用要求,已经被百度内外部业务广泛使用验证,在实际业务落地场景中得到了一致好评。
优势一:
优势二:
在工业图推荐领域中,除了对图的规模要求高之外,还有复杂特征融合、游走策略、图聚合方式、算法组合多样化和例行训练等需求。Graph4Rec在设计之初就考虑到了这些问题,并在实现分布式图引擎时,就引入了多种不同类型特征的存储。同时,为了建模复杂异构图场景(包含不同类型节点、异构边),Graph4Rec为用户提供了可以自定义的异构游走路径定义能力,同时配合异构图聚合方法,有效建模复杂异构图场景。
另外,Graph4Rec预置了业界知名的30+图学习模型组合,更重要的是基于50+实际业务场景的落地经验,自研了多个创新算法,使得Graph4Rec在技术上更贴近实际业务需求场景,在落地上也获得更高的收益。
优势三:
第一部分:图的输入
第二部分:图采样
可实现多种图采样方法,包括图游走和图采样。图游走表示从一个节点出发,在图中随机游走,得到一条节点序列。图采样表示批量采样一个节点的若干邻居,形成子图,作为图模型的输入。
第三部分:图模型
优势四:
适用性广,众多落地场景
在网易云音乐主播推荐场景下,将歌曲、用户与主播之间的关联关系构造成复杂的异构图网络,利用 Graph4Rec把用户听歌的历史行为迁移到直播业务场景,成功解决直播冷启动难题。
在工具使用体验上,Graph4Rec不仅支持多种行为的图建模,如深挖用户在歌曲方面的播放、点赞行为。该工具还预置了常用的GNN模型、拥有高效的大规模分布式图引擎,能够极好地支持工业界大规模图模型训练,仅通过配置文件即可以快速应用到实际业务中,使用起来方便高效。
最后,在面临数据存储难题时,Graph4Rec提供了完整的分布式图存储方案,在无专业数据库存储底层能力的情况下,能够快速搭起若干个分布式网络,使存储成本降低70%+。在4亿节点与400亿边数据这样的场景下,Graph4Rec的分布式图引擎技术,以60弹性节点(4CPU,16GB)的配置,提供了比中心化数据库更简单、更灵活的存储服务。
Graph4Rec目前已全面开源,欢迎大家试用、转发推荐,如有疑问或交流需求,欢迎发邮件至pgl@baidu.com与我们联系。
飞桨PGL(Paddle Graph Learning)是一个基于飞桨(PaddlePaddle) 的高效易用图学习框架,依托于飞桨核心框架以及自研的高效大规模分布式图引擎,支持十亿节点百亿边的超巨图训练,原生支持异构图MetaPath采样以及Message Passing双模式,预置多种业界主流图学习算法以及自研模型等。同时具备分布式图存储以及图学习训练算法,例如,分布式Deep Walk和分布式GraphSage。结合飞桨框架,PGL 能够覆盖业界主流的图网络应用,包括图表示学习以及图神经网络。
好消息!图推荐Graph4Rec开播啦!
关注【飞桨PaddlePaddle】公众号
获取更多技术内容~
如果说互联网的目标是连接一切,那么推荐系统的作用就是让用户与信息建立更高效的连接,提升用户体验及商业效益。在推荐系统中,主要的挑战是如何从交互数据和辅助信息中学习到User或Item的有效表示,并让两者能够以最有效的方法连接起来,从这个角度出发,推荐场景的交互行为数据就是非常经典的「图结构数据」。对于图来说万物皆可连接,而如何将不同的数据类型联合建图,并高效挖掘数据潜在特征、获取深层次的User和Item特征描述等是图技术需要面临的挑战。
通过上述案例可以看出,只要数据中的样本之间存在交互关系,就可以从图的视角构建图结构数据,并用图学习算法进行建模。
但在实际应用中,受限于相关工具能力的不足,GNN 也面临许多落地难题:
为了降低GNN的应用门槛,促进GNN在工业界广泛的应用落地,百度飞桨图学习(Paddle Graph Learning,PGL)推出了基于图神经网络技术开箱即用的图推荐工具库「Graph4Rec」,该工具库能够满足工业级推荐系统的应用要求,已经被百度内外部业务广泛使用验证,在实际业务落地场景中得到了一致好评。
优势一:
优势二:
在工业图推荐领域中,除了对图的规模要求高之外,还有复杂特征融合、游走策略、图聚合方式、算法组合多样化和例行训练等需求。Graph4Rec在设计之初就考虑到了这些问题,并在实现分布式图引擎时,就引入了多种不同类型特征的存储。同时,为了建模复杂异构图场景(包含不同类型节点、异构边),Graph4Rec为用户提供了可以自定义的异构游走路径定义能力,同时配合异构图聚合方法,有效建模复杂异构图场景。
另外,Graph4Rec预置了业界知名的30+图学习模型组合,更重要的是基于50+实际业务场景的落地经验,自研了多个创新算法,使得Graph4Rec在技术上更贴近实际业务需求场景,在落地上也获得更高的收益。
优势三:
第一部分:图的输入
第二部分:图采样
可实现多种图采样方法,包括图游走和图采样。图游走表示从一个节点出发,在图中随机游走,得到一条节点序列。图采样表示批量采样一个节点的若干邻居,形成子图,作为图模型的输入。
第三部分:图模型
优势四:
适用性广,众多落地场景
在网易云音乐主播推荐场景下,将歌曲、用户与主播之间的关联关系构造成复杂的异构图网络,利用 Graph4Rec把用户听歌的历史行为迁移到直播业务场景,成功解决直播冷启动难题。
在工具使用体验上,Graph4Rec不仅支持多种行为的图建模,如深挖用户在歌曲方面的播放、点赞行为。该工具还预置了常用的GNN模型、拥有高效的大规模分布式图引擎,能够极好地支持工业界大规模图模型训练,仅通过配置文件即可以快速应用到实际业务中,使用起来方便高效。
最后,在面临数据存储难题时,Graph4Rec提供了完整的分布式图存储方案,在无专业数据库存储底层能力的情况下,能够快速搭起若干个分布式网络,使存储成本降低70%+。在4亿节点与400亿边数据这样的场景下,Graph4Rec的分布式图引擎技术,以60弹性节点(4CPU,16GB)的配置,提供了比中心化数据库更简单、更灵活的存储服务。
Graph4Rec目前已全面开源,欢迎大家试用、转发推荐,如有疑问或交流需求,欢迎发邮件至pgl@baidu.com与我们联系。
飞桨PGL(Paddle Graph Learning)是一个基于飞桨(PaddlePaddle) 的高效易用图学习框架,依托于飞桨核心框架以及自研的高效大规模分布式图引擎,支持十亿节点百亿边的超巨图训练,原生支持异构图MetaPath采样以及Message Passing双模式,预置多种业界主流图学习算法以及自研模型等。同时具备分布式图存储以及图学习训练算法,例如,分布式Deep Walk和分布式GraphSage。结合飞桨框架,PGL 能够覆盖业界主流的图网络应用,包括图表示学习以及图神经网络。
好消息!图推荐Graph4Rec开播啦!
关注【飞桨PaddlePaddle】公众号
获取更多技术内容~