传统药物研发普遍存在周期长、成本高、成功率低的问题。从早期药物发现到最终上市,往往需要十年以上时间,并且需要投入大量资金和实验资源。即使经过多轮筛选和临床试验,真正能够成功上市的候选药物仍然很少。
在这样的背景下,人工智能辅助药物研发逐渐成为新药发现的重要技术路径。AI 不仅可以用于靶点发现、性质预测和虚拟筛选,还可以进一步参与“分子生成”,也就是让模型学习已有分子的结构规律和药理特征,自动设计具有潜在成药价值的新分子。
文章指出,小分子药物设计的核心任务,是在极其庞大的化学空间中高效筛选或生成具有理想药理性质的候选分子。传统高通量筛选依赖已有化合物库,难以充分探索全新结构;而深度生成模型可以通过建模化学结构、性质分布和药理关联,在高维化学空间中进行分子生成与优化。
简单来说,AI 药物设计正在从“筛分子”走向“造分子”。
文章首先介绍了分子生成所依赖的数据基础。相关数据资源主要包括三类:
一是小分子数据,如 ZINC、ChEMBL、PubChem、DrugBank 等,主要用于模型预训练、性质预测和虚拟筛选。
二是蛋白质和复合物数据,如 RCSB PDB、AlphaFold DB、PDBBind、BindingDB 等,主要用于靶点引导分子生成和结构药物设计。
三是基准评估数据,如 MoleculeNet、MOSES、GuacaMol、TDC、ADMET Lab 等,用于评价生成分子的有效性、新颖性、多样性、类药性和安全性。
在分子表示方面,文章梳理了从一维序列、二维图结构到三维几何表示的发展路径。简单来说,SMILES 适合序列建模,分子图适合表达原子和化学键关系,三维结构则更适合描述分子构象和蛋白-配体结合关系。当前趋势是多模态融合,即综合利用分子结构、蛋白信息、三维构象和文本知识。
文章第二部分总结了主流分子生成模型,包括 VAE、GAN、标准化流、RNN、Transformer、扩散模型和大语言模型。
其中,VAE 适合潜在空间优化,GAN 强调生成器与判别器的对抗训练,Transformer 适合处理 SMILES 等序列分子,大语言模型则进一步推动了自然语言引导的交互式分子设计。
扩散模型是近年来的重点方向。它通过“加噪—去噪”的过程学习分子生成规律,在三维分子生成、构象生成和蛋白口袋约束生成中表现突出。
文章还指出,分子生成的目标正在发生变化:早期主要关注结构有效性、新颖性和多样性;现在则更加重视属性可控、多目标优化和真实药物研发需求。也就是说,AI 分子生成正在从“能生成分子”走向“能生成有用的分子”。
文章第三部分介绍了生成模型在药物发现中的典型应用。
首先是无条件分子生成,即模型不依赖额外约束,直接学习已有分子分布并生成新结构。这类方法适合探索化学空间,但后续仍需要筛选和优化。
其次是条件分子生成,包括靶点结构引导、药效团约束、片段约束和多目标优化等。其中,靶点结构引导生成与结构药物设计关系密切,可以根据蛋白口袋生成潜在配体分子;药效团和片段方法则可以把传统药物化学知识引入生成过程,提高生成结果的合理性。
多目标优化也是重要方向。真实候选药物不仅要有较好活性,还要兼顾 ADMET 性质、低毒性、合成可行性和结构稳定性。因此,一个完整的 AI 药物设计流程,不能只停留在“生成分子”,还需要进一步筛选、验证和综合评价。
文章还提到,跨模态融合和大语言模型正在推动分子设计走向自动化和交互化。未来研究者可以通过自然语言描述目标,由模型完成分子生成、性质预测、虚拟筛选和候选排序。
简单来说,AI 药物设计正在从“筛分子”走向“造分子”。总体来看,AI 驱动的小分子生成已经成为药物发现的重要方向。分子生成模型从早期的 VAE、GAN,逐渐发展到 Transformer、扩散模型和大语言模型,生成能力和可控性不断提升。
不过,该领域仍面临一些问题,例如高质量数据不足、物理化学约束建模不充分、模型泛化能力有限、评价体系不够完善等。
未来,AI 分子生成的发展重点可能包括三个方面:构建更高质量的 AI-ready 数据集,提升模型的可控生成和泛化能力,建立更贴近真实药物研发流程的综合评价体系。
这篇综述给 AI 药物设计选题提供了清晰思路:如果只是做普通分子生成,创新性可能有限;如果结合具体靶点,并加入活性、毒性、ADMET、药效团或蛋白口袋等多条件约束,就更容易形成完整研究闭环。
因此,未来更有价值的方向不是简单生成“像药”的分子,而是生成更可能具有活性、安全性和开发潜力的候选分子。