dxy logo
首页丁香园病例库全部版块
搜索
登录

MedComm-FutMed重磅综述 | 深度学习在蛋白质结构预测中的进展与挑战

发布于 01-08 · 浏览 2499 · IP 北京北京

如何实现从氨基酸序列到蛋白质三维结构的准确预测?这个问题在生物学研究和药物开发中具有至关重要的意义,因为蛋白质的功能直接由其三维结构决定。2024年诺贝尔化学奖的一半授予了David Baker,以表彰他对计算蛋白质设计的贡献,另一半则授予了Demis Hassabis和John Jumper,以表彰他们在蛋白质结构预测领域的突破性成就。这项荣誉不仅凸显了科学界在理解蛋白质折叠和功能方面取得的重要进展,也激励着科学家不断探索这一领域。

传统蛋白质结构预测方法,历经数十年的发展,已形成了一套综合应用序列分析、生物物理建模和计算算法的成熟技术体系。尽管在多个方面取得了成功,但面对非同源或无明显相似模板的新蛋白质结构预测时显示出局限性。随着计算能力的显著提升以及算法的持续进化,特别是深度学习技术的融入,传统方法正在逐步转变,采用更加综合的数据驱动方法,在功能、动态性和互作性层面开展结构预测,为蛋白质结构预测领域带来了一个全新的“神经化”时代。

img

点击此处即可免费获取论文原文

近期,来自澳门科技大学医学院(Macau University of Science and Technology,(MUST))于希教授和钟恬教授团队MedComm–Future Medicine期刊发表了题为“Deep Learning Methods for Protein Structure Prediction”的综述[1]文章全面回顾了蛋白质结构预测方法,以及深度学习技术在蛋白质结构预测中的最新进展与挑战,并讨论了AlphaFold 3等开创性工具的应用与突破。

img

图1. 蛋白质结构预测的传统和现代深度学习方法概览

img

传统方法的局限性

传统的结构预测方法可分为基于模板的方法(Template-based Methods)和无模板建模(Ab Initio Modeling,也称非同源建模)。这两种方法均依赖于精细的计算模型来预测蛋白质的三维结构。

img

图2. 蛋白质结构预测技术分类

点击此处即可免费获取论文原文

基于模板的方法主要包括同源建模(Homology Modeling)、折叠识别(Fold Recognition)和比较建模(Comparative Modeling)。这些方法通过利用已知的同源蛋白质序列作为参考模板,来指导目标蛋白的结构预测。同源建模依赖于高度同源的蛋白质序列,可以实现相对精确的结构预测。然而,这类方法的主要局限性在于无法预测缺乏同源对偶物的新蛋白质结构。无模板建模(Ab Initio Modeling)主要通过两种策略实现:基于片段的组装方法(fragment-based assembly)和从头开始或从头开始折叠方法(ab initio/de novo folding),可以在不使用任何潜在模板结构的情况下开发蛋白质结构,这使其可以预测所有蛋白质结构。这些方法通过基于物理和化学原理的计算,探索蛋白质可能的空间构象,尽管这种方法在预测大型或复杂蛋白质结构时面临较大的挑战。

img

深度学习方法实现端到端结构预测

深度学习已经彻底改变了蛋白质结构预测的游戏规则。传统方法通常依赖于同源性,需要较高的序列相似性阈值,且在无同源模板时预测精度较低。而最新的混合深度学习方法,通过集成多种网络架构,打破了对传统物理和化学实验的依赖,使研究人员能够仅凭氨基酸序列直接预测其三维结构。其中,卷积神经网络(CNN)、循环神经网络(RNN)、图神经网络(GNN)、长短期记忆网络(LSTM)和Transformer以及生成对抗网络(GAN)是最为突出和广泛应用的几种深度神经网络。特别是AlphaFold系统的成功,标志着从序列到结构“端到端”预测方法的重大突破,为生物医学研究开辟了新的路径。 

点击此处即可免费获取论文原文

img

预测模型的训练、验证和评估

自AlphaFold 2发布以来,优化蛋白质结构预测模型的性能已成为计算生物学家关注的重点。在模型训练阶段核心目的是最大化预测的精度和泛化能力。该阶段主要包括数据准备和预处理、前向传播与特征学习、损失计算、反向传播、参数更新以及迭代优化。

特征提取是模型训练的核心环节之一。位置特异性评分矩阵(PSSM)通过统计多序列比对中的氨基酸保守性,为序列相似性提供了重要指标。此外,ESM(进化尺度建模)利用Transformer架构从庞大的蛋白质序列数据库中学习,能有效捕捉序列中的局部和长程依赖关系,这对于无模板预测尤为重要。简化了高维结构数据的计算需求,自动编码器(Autoencoders)与多尺度特征提取则通过结合局部与全局特征显著提升了模型的准确性和适应性。

验证和评估阶段则依赖客观指标来衡量模型的预测准确性。TM-score和预测配准误差(PAE)是常用的评估指标,前者用于评估蛋白质拓扑结构的相似性,后者则用于量化残基-残基之间的预测误差。局部距离差异检验(lDDT)在评估局部模型质量时尤为重要,尤其是在结构域偏移的情况下,其无叠加评分能够提供稳健的评估结果。此外,pLDDT作为AlphaFold中的每残基置信度指标,已成为评估模型置信度的关键工具。

img

图3. 预测对齐误差(PAE)图示例。PUX4和PUX10蛋白与预测结构的PAE图如图所示。在PAE图中,每个位置(x, y)的预测位置误差用不同深浅的绿色表示,颜色深度与模型预测的置信度成正比。此外,图中标记方块的位置(A-L)和范围可以对应形成结构域的氨基酸。这些预测可能为进一步的实验研究提供线索,但应被视为可检验的假设,而不是确定的事实。

点击此处即可免费获取论文原文

img

未来展望:向复杂系统的拓展

随着深度学习在蛋白质结构预测领域的不断突破,蛋白质结构预测的精度和应用范围将不断扩大。文章中讨论了当前面临的挑战,包括动态结构预测、模型的可解释性以及计算资源的需求等。未来,通过整合深度学习与物理模型的优势,蛋白质结构预测将在动态行为建模和多组分系统的研究中取得更多突破,同时也将更深入地探索蛋白质动态性和复杂生物分子系统的预测。

蛋白质结构预测技术的飞跃,不仅推动了基础生物学的前沿探索,也为药物研发、精准医疗、合成生物学等多个领域开启了广阔的新纪元,预示着生命科学未来的无限潜力。

最后编辑于 01-08 · 浏览 2499

1 收藏3

全部讨论0

默认最新
avatar
1
分享帖子
share-weibo分享到微博
share-weibo分享到微信
认证
返回顶部