飞桨螺旋桨发布第一性原理启发的化合物表征大模型HelixGEM-2，量子化学属性预测和虚拟筛选任务双突破

发布日期：2022-11-04 07:36浏览量：1198次

单纯数据驱动的模型构建方式已不足以支撑生物计算领域的技术创新，百度飞桨螺旋桨团队发布第一性原理启发的化合物表征大模型HelixGEM-2，首次提出基于长程多体交互的分子建模新技术，同时刷新大规模量子化学属性预测任务及虚拟筛选任务，显示出其在药物研发领域的巨大应用潜力。

‍今年2月，百度飞桨螺旋桨团队在《Nature》旗下子刊《Machine Intelligence》上发表了题为《Geometry Enhanced Molecular Representation Learning for Property Prediction》的文章，首次将化合物的空间结构信息引入到大规模的预训练模型中，在下游十多项的药物属性预测任务中取得SOTA，即HelixGEM模型。HelixGEM 从数据驱动的角度出发，使用千万级别的化合物数据进行预训练，并设计基于几何构象的自监督学习任务，使得模型具备推理化合物三维空间结构的能力。

但在标注数据相对稀少的场景上，数据+领域知识驱动的模型构建方式已经不足以更好的表征分子特性，而需要引入更多的原理机制，以提升模型的泛化能力。基于此想法，螺旋桨团队近期发布了第一性原理启发的化合物表征大模型HelixGEM-2，并公开文章《Next Generation Molecular Property Prediction Network by Modeling Full-range Many-body Interactions》，在业界首次提出基于长程多体交互的分子建模新框架，并同时刷新大规模量子化学属性预测任务及虚拟筛选任务，取得新的技术突破。

第一性原理启发的长程多体交互的

化合物表征模型HelixGEM-2

在微观层面上，化合物的性质取决于它的分子内部相互作用以及与环境中其他分子的相互作用，这些相互作用的尺度是如此之小，以至于无法通过经典力学规律来描述，而必须考虑非经典的量子力学效应。从量子力学的角度来看，化合物及其环境是一个多粒子体系，预测其性质的难点在于如何准确描述粒子间复杂的多体（Many-body）和长程（Long-range）相互作用。

为了描述这些相互作用，螺旋桨团队受到量子力学仿真方法的启发（如：密度泛函理论density functional theory，简称DFT），创新性地设计网络结构，从而高效地建模化合物中的多体以及长程相互作用，以全面提升化合物建模在属性预测与药物筛选中的效果。

相关链接

文章arxiv链接

https://arxiv.org/abs/2208.05863

开源地址

https://github.com/PaddlePaddle/PaddleHelix/tree/dev/apps/pretrained_compound/ChemRL/GEM-2

核心创新点1

多体长程关系的基础建模

化合物中的多个原子作为一个整体可看作是一个多体，而多体之间的关系建模已被量子力学的方法证明其重要性。一个化合物被表示为多个高阶张量，分别表示单体(1-body)，双体(2-body),三体(3-body)，…，的表征。HelixGEM-2的网络中包含多个轨道(track)，每个轨道分别学习同阶的多体之间的长程关系，并更新相应的表征。此外，不同阶的多体的信息亦可跨轨道进行相互间的传输，进一步提升建模的效果。