多客科技 发表于 2025-8-21 20:34

Meta AI携手Technion发布FusionProt:突破传统AI蛋白质建模局限,首创序列结构迭代融合新范式

作者:微信文章
科研、项目、商务合作:nnhhce(注明来意,清北硕博团队专注于AI for Science自研大模型,接受天使轮投资,欢迎投资者咨询)

————————————

本文内容独家整理,盗用必究


来自Meta AI和以色列理工学院(Technion)的研究团队近日发表重磅论文,提出了革命性的FusionProt框架,在蛋白质功能预测领域取得显著突破。该方法通过创新的融合token机制,实现了蛋白质序列信息与三维结构信息的深度迭代融合,在多项基准测试中刷新了最先进性能记录。
为什么传统方法无法充分利用蛋白质的结构信息?

蛋白质作为生命活动的基础分子机器,其功能很大程度上由其三维结构决定。然而,当前主流的蛋白质表示学习方法存在严重局限性。传统的蛋白质语言模型如ESM、ProteinBERT等虽然在序列建模方面表现出色,但完全忽略了至关重要的三维结构信息。而基于图神经网络的结构模型如GearNet虽然能够捕获空间几何特征,但缺乏序列上下文的深层理解。

更为关键的是,现有的融合方法如ESM-GearNet仅采用简单的单次融合策略,将一种模态的信息作为另一种模态的静态上下文输入,导致大量关键的结构-序列关联信息在融合过程中丢失。这种浅层融合无法充分发挥多模态信息的协同优势,限制了模型对蛋白质复杂功能特性的理解能力。
FusionProt如何实现序列与结构的深度协同?

FusionProt的核心创新在于引入了一个可学习的融合token(learnable fusion token),该token充当序列模型和结构模型之间的动态桥梁,实现了真正意义上的迭代式深度融合。



上图Figure 1展示了FusionProt的预训练架构全貌。整个框架包含两个核心组件:基于ESM-2的序列编码器和基于GearNet的结构编码器,二者通过创新的融合token机制实现深度耦合。
序列层的数学建模

在序列建模层面,FusionProt基于transformer架构构建。给定蛋白质序列,其中表示残基数量,模型首先将融合token连接到序列末尾,形成增强序列。

序列层的更新机制遵循标准的多头自注意力计算:

其中代表融合token在第层的中间表示,为第层的输出表示,为嵌入维度。
结构层的图卷积建模

结构建模层面采用多关系残基图表示蛋白质三维结构,其中为残基节点集合,为边集合,为边类型集合。边集合包含三种类型的有向边:

其中为序列距离阈值,Å为空间距离阈值,表示节点的个最近邻。

结构层采用关系图卷积进行消息传递:

其中为节点在边类型下的邻居集合,为ReLU激活函数,为每种边类型对应的可学习权重矩阵。
关键创新:迭代融合机制

FusionProt的核心突破在于融合token的双向迭代传递机制。在每个融合周期中,融合token首先在序列模型中通过注意力机制聚合上下文信息,随后通过线性变换投影到结构模型的表示空间:

接着,融合token作为新增节点加入到蛋白质结构图中,**与所有残基节点建立双向连接,形成新的边类型**。这种全连接设计确保融合token能够捕获全局结构信息。

经过结构层处理后,融合token的表示再次通过反向线性变换回到序列空间:

这种迭代过程在模型的多个层级重复进行,使得序列信息和结构信息能够在训练过程中持续交互和相互增强,最终形成更加丰富和准确的蛋白质表示。
实验结果有多惊艳?

研究团队在多个权威基准数据集上进行了全面评估,结果令人瞩目。

Table 1展示了在酶委员会(EC)号预测和基因本体(GO)预测任务上的详细结果对比:
MethodPLMStructure Info.EC FmaxGO-BP FmaxGO-MF FmaxGO-CC FmaxProtBERT-BFD ✓×0.8380.2790.4560.408ESM-2 ✓×0.8770.3450.6680.411GearNet ×✓0.8710.4810.6500.476ESM-GearNet ✓✓0.8860.5120.6700.495SaProt-GearNet ✓✓0.8860.5120.6720.504FusionProt✓✓0.904*±0.0030.524*±0.0040.689*±0.0020.518*±0.004
FusionProt在所有任务上都取得了统计显著的最佳性能,相比强基线方法实现了显著提升。在EC预测任务上,得分达到0.904,比最强基线提升了约3%。在GO预测的三个子任务中,FusionProt同样保持领先,特别是在生物过程(GO-BP)预测中表现尤为突出。

Table 2展示了突变稳定性预测任务的结果:
MethodPLMStructureMSP (AUROC)ESM-GearNet ✓✓0.599GVP (SOTA)✓✓0.709FusionProt✓✓0.745*±0.006
在突变稳定性预测这一关键任务中,FusionProt相比当前最先进的GVP方法提升了5.1%的AUROC,这一提升幅度在该领域具有重要意义。
技术创新的深层价值何在?

FusionProt的技术突破不仅体现在性能指标的提升,更重要的是其为蛋白质AI研究开辟了新的技术路径。

计算复杂度方面,FusionProt通过巧妙的架构设计实现了性能与效率的平衡。相比基线方法,模型仅增加2-5%的运行时开销,每1000个残基的推理延迟从约0.012秒增加到0.014秒,实现了几乎常数级的复杂度增长。

生物学洞察方面,研究团队通过案例分析展示了FusionProt捕获的生物学机。

Figure 2展示了两个典型案例的蛋白质三维结构:(a) DNA定向RNA聚合酶亚基omega和(b) D-丙氨酸-D-丙氨酸连接酶。

对于RNA聚合酶ω亚基这样的小分子结构亚基,传统序列模型由于序列信号微弱而难以准确分类。FusionProt通过迭代融合机制成功捕获了与β'亚基接触面相关的界面特征,这些特征对于全酶复合物的组装和稳定性至关重要。模型以0.90的高置信度给出正确的EC号预测,而ESM-GearNet仅为0.21。

对于D-丙氨酸-D-丙氨酸连接酶这类ATP依赖性肽连接酶,FusionProt通过迭代优化进一步增强了配体结合口袋周围可动环区的局部结构特征表示,使得模型对这些功能关键区域的微妙构象变化更加敏感。
这项技术将如何影响生物医学研究?

FusionProt的技术突破为多个生物医学应用领域带来了新的可能性。在药物发现领域,更准确的蛋白质功能预测能够帮助研究人员更好地理解靶点蛋白的作用机制,加速先导化合物的发现过程。

在精准医学方面,突变稳定性预测能力的大幅提升为遗传病变分析和个性化治疗方案设计提供了更可靠的计算工具。研究团队展示的5.1%的AUROC提升在临床应用中具有重要价值,可能显著改善疾病风险评估的准确性。

在合成生物学领域,FusionProt的统一表示学习能力为蛋白质工程和人工酶设计提供了更强大的计算基础。通过更好地理解序列-结构-功能关系,研究人员能够更精确地设计具有特定功能的人工蛋白质。

FusionProt代表了蛋白质AI研究的重要进展,其创新的迭代融合机制为多模态生物分子建模开辟了新的技术方向。随着AlphaFold等结构预测工具的不断发展,结合FusionProt这样的表示学习框架,蛋白质科学研究正迎来前所未有的机遇期。

论文引用:Kalifa, Dan, et al. "FusionProt: Fusing Sequence and Structural Information for Unified Protein Representation Learning." bioRxiv (2025): 2025.08.06.668973.


页: [1]
查看完整版本: Meta AI携手Technion发布FusionProt:突破传统AI蛋白质建模局限,首创序列结构迭代融合新范式