清华新年首篇Science!AI助力药物虚拟筛选提速百万倍

发布日期:2026-01-09

目前,人类对靶向药物的探索约覆盖人体全部可成药靶点的10%,面对数以万计的潜在靶点,如何在广阔的化学空间中快速筛选苗头化合物已成为该领域里的瓶颈。

清华大学智能产业研究院(AIR)兰艳艳教授联合生命学院、化学系团队(以下简称:联合团队)创新研发AI驱动的超高通量药物虚拟筛选平台DrugCLIP。DrugCLIP筛选速度对比传统方法实现了百万倍提升,同时在预测准确率上也取得显著突破。依托该平台,团队首次完成了覆盖人类基因组规模的药物虚拟筛选,为创新药物发现带来了新的可能性

北京时间1月9日,研究成果以《深度对比学习实现基因组级别药物虚拟筛选》(Deep contrastive learning enables genome-wide virtual screening)为题在线发表于《科学》(Science

 

 

现有工具制约 靶点筛选效率

受限于自动移液工作站、超级计算机等工具的高昂成本,目前,绝大多数潜在靶点和化合物仍未被充分探索——人类基因组编码2万余个蛋白,然而现有蛋白靶点开发只覆盖其中小部分。为解决更多分子机制不同的疾病科研工作者仍在积极探索,但若使用当前最先进的分子对接工具筛选1万个蛋白靶点,假设每个靶点面对109个候选分子,则需完成约1013次蛋白-配体打分,一台计算机即使日夜不休也需数百年才可完成计算,严重制约了新靶点与新分子之间匹配的筛选效率。DrugCLIP将该计算量缩短为一台计算节点(高性能计算或分布式计算系统中的一个基本单元)一天的机时。

 

准确有效 药物筛选提速百万倍

荣获2024年诺贝尔化学奖的AlphaFold算法解决了蛋白质结构预测问题,而DrugCLIP则首次打通了从蛋白结构预测到药物发现的关键通道,实现覆盖人类基因组规模的虚拟筛选。硬件方面,基于128核中央处理器(CPU)和8张图形处理器(GPU)的计算节点,DrugCLIP即可实现万亿级蛋白口袋小分子对打分日吞吐能力,其核心突破在于将传统的分子对接转化为蛋白口袋与小分子在向量空间中的高效语义检索,较分子对接等传统方法的速度提升百万倍。一开始,联合团队对于筛选的准确性并没有把握,第一次在湿实验室实验就取得了成功,初步验证了平台的有效性,让联合团队成员信心大增。

 

基于DrugCLIP的超高速全基因组虚拟筛选

 

在生命学院副教授闫创业团队协作下,DrugCLIP模型从160万个候选分子中为去甲肾上腺素转运体(NET)靶点筛选出约100个高评分分子,同位素配体转运实验检测显示其中15%为有效抑制剂,其中12个分子结合能力优于现有抗抑郁药物安非他酮,尤其是在冷冻电镜技术的帮助下解析了多个分子与NET蛋白的复合物结构,进一步验证了DrugCLIP筛选结果的生物学可信度。

化学系教授刘磊团队则通过DrugCLIP针对E3泛素连接酶TRIP12(thyroid hormone receptor interactor 12)进行了虚拟筛选与实验验证。过往研究发现,TRIP12是多种肿瘤、帕金森综合征的潜在靶点,但是TRIP12缺少已知的小分子配体和复合物结构,通过使用TRIP12的AlphaFold结构,DrugCLIP模型从160万个候选分子中高通量筛选出约50个高评分分子,实验证实其中10个分子与TRIP12有结合能力,两个亲和力较高的分子也对TRIP12的泛素连接酶活性有一定抑制活性。这验证了DrugCLIP支持对AlphaFold预测的蛋白结构和无配体状态下的蛋白口袋进行筛选,扩大了其在真实药物发现场景中的适用性。

 

平台化赋能 从免费开源到产业生态

依托DrugCLIP联合团队首次完成了人类基因组规模的虚拟筛选项目,可覆盖约1万个蛋白靶点、2万个蛋白口袋,分析筛选超过5亿个类药小分子,总共富集出超过200万个潜在活性分子,构建了目前已知最大规模的蛋白-配体筛选数据库,该数据库已免费面向全球科研社区开放。为基础研究与早期药物发现提供了强大数据支持。

 

人类基因组规模的蛋白虚拟筛选数据库

 

同时,筛选服务平台也已同步上线,支持对用户上传的靶点和蛋白口袋进行定制化筛选。截止到论文发表,半年来该平台已经累计服务1400余名用户,完成了13500余次筛选。

 

 

人类基因组规模筛选项目覆盖的蛋白数目与现有数据库对比(左:覆盖的靶蛋白空间,使用ESM1b编码并进行t-SNE降维可视化;右:覆盖的UniProt ID数量)

 

未来,DrugCLIP将与科研与产业生态伙伴深度合作,在抗癌、传染病、罕见病等方向加速新靶点与First-in-class药物(首创新药)的发现,联合团队将持续优化引擎性能拓展支持模态,助力构建一个更智能、高效与普惠的全球药物创新生态。

 

该项目得到了国家科技部重点研发项目、国家自然科学基金委项目、新基石研究基金等项目的支持,同时还有清华大学无锡应用技术研究院智能产业创新中心、北京智源人工智能研究院和北京结构高精尖中心等机构的支持。清华大学智能产业研究院(AIR)博士后贾寅君、计算机系博士生高博文、生命学院博士后谭佳鑫、化学系博士后郑济青以及智能产业研究院(AIR)博士后洪鑫为共同一作;通讯作者为智能产业研究院(AIR)兰艳艳教授,生命学院、清华-IDG/麦戈文脑科学研究院张伟;生命学院闫创业副教授以及化学系刘磊教授。

 

 

 

原文链接:https://doi.org/10.1126/science.ads9530