dxy logo
首页丁香园病例库全部版块
搜索
登录

人工智能(AI)赋能药物研发现状和挑战

发布于 03-04 · 浏览 1035 · IP 广东广东
img

近期DeepSeek的横空出世,使得AI再一次成为关注焦点《Nature Medicine》2025年1月刊,题目为是“Artificial intelligence in drug development”,即人工智能在药物开发中的应用。文章详细探讨了人工智能技术,尤其是大型语言模型(LLMs)和生成式人工智能(Generative AI)在药物开发全流程中的应用现状、挑战和未来发展方向。

img


一. 背景知识

药物开发是一个复杂且耗时的过程,传统方法依赖于经验丰富开发者和一系列临床前以及临床实验来逐步验证,研发成功临床应用后还需上市后监测。开发一种新药约需要26亿美元的投资,耗时几年至十几年不等,且成功率低于10%。这一过程面临诸多挑战,包括疾病复杂性、药物开发流程复杂性、化学药物靶点筛查以及严格的监管要求。为了克服这些挑战,科学家们开始探索新技术,其中人工智能(AI)被认为具有彻底改变药物开发领域的潜力。


二. AI助力药物研发


文章综述AI在药物开发全流程中的应用,包括药物靶点识别、药物开发、临床前研究、临床试验和上市后监测。AI技术通过处理大量数据,加速并改善药物开发过程。以下是AI在药物开发各阶段的具体应用:

img

(图1 AI助力药物研发流程一览表)


2.1 疾病靶点识别(Target identification)

AI通过分析多组学数据(包括基因组学、转录组学、蛋白质组学)和生物网络,识别与疾病相关的分子模式和因果关系。例如,利用自然语言处理(NLP)技术将基因功能映射到高维空间,增强靶点识别的敏感性。此外,AI还可以结合知识图谱,将多组学数据与科学文献整合,从而发现疾病与基因之间的关联。利用生物医学大型语言模型(LLMs)与生物网络或知识图谱功能深度整合,为疾病、基因和生物过程之间的关联提供高效且精确的预测方法。例如,PandaOmics平(https://pharma.ai/pandaomics/)成功利用多组学数据和生物网络分析,识别出TRAF2和NCK相互作用激酶(TNIK)作为抗纤维化治疗的潜在靶点,并推动了特异性TNIK抑制剂(INS018_055)的开发。此外,在利用自然语言处理已发表文献中的数据时,注意潜在的发表偏倚,实际应用中仍需结合体外验证等方法来确保准确识别新颖且有效的药物靶点。

同时,真实世界数据(如病历资料、患者自我报告、电子健康记录 [EHRs]等)为理解复杂疾病和促进靶点发现提供了必要的文本背景信息。但真实世界数据通常也包含非结构化文本信息,其缺乏统一及标准化,并且可能存在信息偏差。利用真实世界数据训练出有效的模型,通过先进的数据挖掘算法,同时结合专家知识,将有助于进一步促进多维数据增和整合,提高药物靶点研发效能。

2.2 虚拟筛选(Virtual screening)

虚拟筛选是识别潜在药物候选分子的关键策略。AI技术通过预测配体-受体相互作用,优化对接(Docking)姿态,并生成结合构象。例如,基于AlphaFold2和RosettaFold的共折叠网络可直接从序列信息预测生物大分子复杂结构,同时适配配体结合位点。然而,这类方法可产生不切实际的配体受体结合构象,需要后处理或几何约束来优化对接姿态。

目前,精确预测受体-配体相互作用仍然是挑战。尽管早期在亲和力基于深度学习的机器学习算法模型备受关注,此类模型通过处理三维结构和非结构化数据,表现超越传统评分函数的性能,但其表现严重依赖于配体姿态的准确性,并且主要适用于已知的受体结构。当目标结构缺失或不完整时,基于对接的虚拟筛选的直接应用是不可取的。另外,对缺乏靶点的疾病(例如罕见病)和广泛表型疾病(例如衰老),基于表型的虚拟筛选至关重要。然而,此类模型通常依赖于特定病例的表型特征数据,仅依赖配体化学结构的基于AI的活性预测同样面临数据稀疏性、不平衡性和活性悬崖等问题。新进研究表明,整合细胞形态和转录组学等相关的生物学信息可提高模型预测性能,为更准确的活性预测提供新的研究方向。

 

2.3 从头设计(De novo design)

从头设计涉及自主创建满足特定分子特征的新化学结构。AI深度学习使自动化识别满足特定要求的新结构成为可能。例如,深度学习驱动的从头设计已成功应用于开发小分子抑制剂、PROTACs、肽和功能性蛋白质,并通过湿实验验证。

深度学习驱动的从头设计(见图2)中,分子生成组件是核心:

(1)利用化学语言模型将分子生成任务转化为序列生成任务,例如SMILES字符串(“简化分子线性输入系统”,一种基于以线性文本格式表示化学结构的符号系统)。尽管此类模型需要深度预训练,并且可因语法错误而产生无效的SMILES字符串,但该类错误可通过过滤样本来使模型进行自我修正。

(2)长短期记忆模型(一种分析序列数据的深度学习模型)存在信息压缩瓶颈,阻碍其学习全局序列特征,可通过Transformer架构来捕捉全局属性。最近的研究将结构化的状态-空间序列整合到化学语言模型中,揭示高化学空间相似性,并与天然产物设计关键特征一致,证明了模型在从头设计中的实用性。

(3)基于图数据模型将分子表示为图,使用自回归或非自回归策略生成结构。自回归方法以原子-原子构建分子,可导致化学上不合理的中间体并引入偏差。相比之下,非自回归方法一次性生成整个分子图,但需要额外步骤来确保图的有效性。然而,此类模型对分子拓扑结构的有限感知可导致结构缺陷。

(4)鉴于类药物化学空间的广阔性,从头生成通常会引导设计朝目标特征方向发展,使用基于相似性评分函数的优化机制,例如与已知活性分子的相似性和预测的生物活性。引入强化学习进行迭代优化是一种有效的方法,但设计合适的评分函数具有挑战性,因为难以直接量化合成可行性和类药性等目标。此外,强化学习的广泛优化步骤突出了样本效率的挑战,这可以通过主动学习或课程学习策略来缓解。

(5)除了引入评分函数外,还可以通过引入约束条件——例如疾病相关的基因表达特征、药效团、蛋白质序列或结构、结合亲和力以及蛋白质-配体相互作用——来引导模型生成所需的分子。例如, PocketFlow模型以蛋白质口袋为条件,有效地生成了针对HAT1和YTHDC1靶点的实验验证活性化合物,展示了其药物设计能力。此外,模型可以通过限制输出到特定的骨架或来自候选物的片段来优化先导化合物。

img
img

(图2 AI驱动药物分子从头研发流程)  

2.4 ADMET预测

 

ADMET(吸收、分布、代谢、排泄和毒性)在决定药物疗效和安全性方面起着关键作用。AI通过使用预定义的特征(如分子指纹或描述符)预测ADMET特性。例如,拜耳公司in silico ADMET平台使用随机森林和SVM等机器学习技术,结合循环扩展连接性指纹等描述符,确保预测的准确性和相关性。

在过去的几十年中,人们已经开发了多种用于ADMET预测的描述符。然而,这些基于特征的方法所涉及的特征工程仍然复杂,限制了其通用性和灵活性。

如今,深度学习推动ADMET预测的发展,能从简单的输入数据中自动提取有意义的特征。

各种神经网络架构,包括用于有效处理序列数据的Transformer模型、用于图像和视频识别任务的卷积神经网络(CNN),以及图神经网络(GNN,用于处理图结构数据,如分子结构),在从SMILES字符串和分子图等格式建模分子特性方面表现出色。其中,SMILES字符串提供了紧凑的分子表示,能够明确表达分支、环和手性等亚结构,但缺乏拓扑感知能力;而图神经网络(如GeoGNN模型)则整合了几何信息,在ADMET预测中表现出更优的性能。新近研究显示,使用SMILES输入的Transformer模型在完整结构识别方面存在困难。

对于涉及毒性等特性的预测,这些模型可能在训练初期就达到性能瓶颈,训练后改进有限。

志得思考的是:

尽管新型深度学习算法推动了该领域的进步,但ADMET预测仍面临挑战。高昂的成本和大量的时间投入导致ADMET预测中标记数据稀缺,从而可能导致过拟合。无监督学习和自监督学习提供了可能的解决方案。


2.5 合成规划与自动化题

 

化学合成是小分子药物开发的瓶颈之一。AI驱动的计算机辅助合成规划(CASP)和有机化合物的自动化合成可以减轻化学家的重复性劳动。例如,基于Transformer模型的CASP工具可以用于逆合成分析,预测区域选择性和立体选择性,并提取反应指纹。

img

(图3 AI驱动药物研发合成和自动化流程)

img

(图4 多组学数据结合AI驱动药靶识别和预测)



三. AI在临床试验和真实世界实践中的应用


img

(图5 利用AI推动临床试验和真实世界研究进程)


1.标记物识别

2.预测药物的药代动力学特性

3.药物重定位

4. 提高临床试验效率和预测试验结果


四. 关键结论与观点

 

尽管目前AI在药物开发中取得了显著进展,但仍面临诸多挑战:

  1. 数据质量与稀缺性:高质量的训练数据获取成本高,且存在隐私和数据共享限制,尤其是罕见疾病或新靶点的数据。
  2. 模型可解释性:AI模型的“黑箱”特性限制了其在临床实践中的应用。增强模型的可解释性至关重要。
  3. 多模态数据整合:当前的AI方法大多依赖单一数据类型,忽略了不同生物系统之间的复杂关系。整合多模态数据可以提取更全面的见解。
  4. 计算资源与算法适配性:AI算法的高计算需求对小型研究团队构成障碍,需要开发更适合药物开发的算法。



五. 未来方向


  1. 解决数据稀缺问题:开发新的AI算法,如“稀疏”AI方法,以从有限数据中产生准确预测。
  2. 多模态融合:整合多种数据类型(如基因组学、转录组学、临床记录)以发现新的药物靶点和生物标志物。
  3. 物理定律融入AI:将物理定律纳入数据驱动的AI算法,减少对数据的依赖,提高模型的准确性和泛化能力。
  4. 虚拟临床试验:通过计算机建模和生成对抗网络(GANs)创建数字孪生,优化临床试验设计,提高试验效率。
  5. 个性化医疗:AI将通过分析健康数据和基因组学,提供精准风险预测和优化治疗方案。


六. 总结

 

文章强调,尽管AI技术在药物开发中取得了显著进展,但AI并非万能。AI的优势在于处理大数据和辅助快速决策,以补充人类功能并增强人类能力,而不是完全取代人类智慧。AI设计的药物和预测的特性仍需通过湿实验验证,人类的输入对于确定AI研究的方向至关重要。随着AI能力的不断提升和大型模型的开源,我们可以对AI在加速药物开发和改善人类健康方面的潜力持谨慎乐观的态度。

最后编辑于 03-04 · 浏览 1035

回复收藏3

全部讨论0

默认最新
avatar
分享帖子
share-weibo分享到微博
share-weibo分享到微信
认证
返回顶部