\u200E
飞桨螺旋桨发布第一性原理启发的化合物表征大模型HelixGEM-2,量子化学属性预测和虚拟筛选任务双突破
发布日期:2022-11-04T07:36:57.000+0000 浏览量:791次

单纯数据驱动的模型构建方式已不足以支撑生物计算领域的技术创新,百度飞桨螺旋桨团队发布第一性原理启发的化合物表征大模型HelixGEM-2,首次提出基于长程多体交互的分子建模新技术,同时刷新大规模量子化学属性预测任务及虚拟筛选任务,显示出其在药物研发领域的巨大应用潜力。

 

今年2月,百度飞桨螺旋桨团队在《Nature》旗下子刊 《Machine Intelligence》上发表了题为《Geometry Enhanced Molecular Representation Learning for Property Prediction》的文章,首次将化合物的空间结构信息引入到大规模的预训练模型中,在下游十多项的药物属性预测任务中取得SOTA,即HelixGEM模型。HelixGEM 从数据驱动的角度出发,使用千万级别的化合物数据进行预训练,并设计基于几何构象的自监督学习任务,使得模型具备推理化合物三维空间结构的能力。

但在标注数据相对稀少的场景上,数据+领域知识驱动的模型构建方式已经不足以更好的表征分子特性,而需要引入更多的原理机制,以提升模型的泛化能力。基于此想法,螺旋桨团队近期发布了第一性原理启发的化合物表征大模型HelixGEM-2,并公开文章《Next Generation Molecular Property Prediction Network by Modeling Full-range Many-body Interactions》,在业界首次提出基于长程多体交互的分子建模新框架,并同时刷新大规模量子化学属性预测任务及虚拟筛选任务,取得新的技术突破。



第一性原理启发的长程多体交互的
化合物表征模型HelixGEM-2
在微观层面上,化合物的性质取决于它的分子内部相互作用以及与环境中其他分子的相互作用,这些相互作用的尺度是如此之小,以至于无法通过经典力学规律来描述,而必须考虑非经典的量子力学效应。从量子力学的角度来看,化合物及其环境是一个多粒子体系,预测其性质的难点在于如何准确描述粒子间复杂的多体(Many-body)和长程(Long-range)相互作用。
为了描述这些相互作用,螺旋桨团队受到量子力学仿真方法的启发(如:密度泛函理论density functional theory,简称DFT),创新性地设计网络结构,从而高效地建模化合物中的多体以及长程相互作用,以全面提升化合物建模在属性预测与药物筛选中的效果。

相关链接

  • 文章arxiv链接

https://arxiv.org/abs/2208.05863

  • 开源地址

https://github.com/PaddlePaddle/PaddleHelix/tree/dev/apps/pretrained_compound/ChemRL/GEM-2



核心创新点1

多体长程关系的基础建模

化合物中的多个原子作为一个整体可看作是一个多体,而多体之间的关系建模已被量子力学的方法证明其重要性。一个化合物被表示为多个高阶张量,分别表示单体(1-body),双体(2-body),三体(3-body),…,的表征。HelixGEM-2的网络中包含多个轨道(track),每个轨道分别学习同阶的多体之间的长程关系,并更新相应的表征。此外,不同阶的多体的信息亦可跨轨道进行相互间的传输,进一步提升建模的效果。



核心创新点2

多体长程建模的加速

直接完整建模所有多体之间关系的开销代价非常大,建模包含N个原子的化合物的所有m阶多体间关系的时间复杂度为O(N^(2m)),而当原子数量与阶数增加时这个复杂度往往难以容忍。鉴于此,HelixGEM-2堆叠多个维度的Axial Attention模块去逼近直接完整建模的效果,极大地降低了时间复杂度。


结果

大幅提升量子化学属性预测与药物发现效果
PCQM4Mv2是国际权威榜单Open Graph Benchmark(OGB)上的一个与量子化学属性预测相关的任务,该数据集关注与量子化学属性HOMO-LUMO gap的预测,与化合物的反应性,光激发和电荷传输等息息相关,是目前规模最大的分子属性预测数据集。
LIT-PCBA是斯特拉斯堡大学Didier Rognan团队创建的专门为虚拟筛选和机器学习而设计的无偏数据库,收集自PubChem湿实验数据集,包括15个靶标,9780个确认的活性化合物和407893个确认的非活性化合物,也是目前进行虚拟筛选算法验证的最佳数据集。
HelixGEM-2不仅在PCQM4Mv2上取得了不俗的成绩,大幅度超越无多体建模或长程建模的方法,而且也在药物研发直接相关的虚拟筛选数据集LIT-PCBA上,超越现有方法,展现出巨大的应用潜力。
与NLP、CV等领域的基于数据驱动的大模型不同,生物计算需要对物理、化学、生物等基础原理进行深入探究,以数据驱动+原理驱动结合的方式来构建大模型。百度飞桨螺旋桨团队已基于该思想,对化合物表征问题进行了验证。
接下来,螺旋桨团队还将针对蛋白领域,深入挖掘大模型潜力,结合数据驱动和第一性原理驱动,构建蛋白领域的表征大模型,更好的服务于下游抗体设计和结构预测等任务。

更多信息可访问

  • https://paddlehelix.baidu.com/

  • https://github.com/PaddlePaddle/PaddleHelix


WAVE SUMMIT+2022

WAVE SUMMIT+2022将于11月30日在深圳举办,欢迎大家扫码关注飞桨公众号,回复WAVE提前加入官方社群了解详情。

WAVE SUMMIT+2022报名入口





关注【飞桨PaddlePaddle】公众号
获取更多技术内容~