实验缩短至十分之一?利用少量数据加速药物研发的AI正在改变化学研究

实验缩短至十分之一?利用少量数据加速药物研发的AI正在改变化学研究

药物开发中引入了AI。听到这个,许多人可能会联想到蛋白质结构预测或新药候选物的筛选。然而,在实际的药物开发现场,时间和金钱大量消耗的地方,是在找到“看似不错的分子”之后。如何高效地制造目标分子,并且以期望的立体结构制造出来。在这个看似不起眼却繁重的过程中,终于出现了一种可能真正有效的AI。由美国犹他大学和UCLA等研究团队发表的新方法,不以庞大的学习数据为前提,即使是少量的实验数据也能相当聪明地缩小下一步应尝试的反应条件范围。Phys.org在3月9日的报道中提到,这项研究的重点并不是AI取代化学家的工作。相反,它在于先为化学家筛选出真正应该尝试的实验候选。


此次研究的主题是被称为不对称合成的领域。药物分子中,即使相同的原子以相同的顺序结合,也可能存在仅三维配置为镜像的“右手型”和“左手型”关系。虽然它们外观相似,但在生物体内可能表现出完全不同的行为。一方可能作为药物起作用,而另一方可能不显示预期效果,甚至可能产生副作用。因此,在制药中,以高比例选择和制造所需“手”的分子极为重要。Phys.org的文章中也介绍了,正是这种“分子的利手”控制的难度,成为推高药物开发成本和时间的因素。


研究团队致力于预测使用镍催化剂的不对称交叉偶联反应。简单来说,这是一种将多个碳骨架连接起来,组装成更复杂、更有价值的分子的技术。然而,这不仅仅涉及金属催化剂,还包括结合催化剂并影响反应方向和立体选择性的“配体”,以及底物结构的影响。换句话说,只需稍微改变条件,结果就会改变。传统上,只能通过摸索大量组合来寻找最佳条件。此次论文旨在通过基于统计模型和机制描述的特征量设计,大幅缩短这种试错过程。Nature发表的论文摘要中指出,采用了将催化剂或底物变化可能改变决定对映选择性阶段的描述符生成策略,展示了将预测转移到未见过的配体或反应对象的可能性。


有趣的是,这种方法稍微偏离了“AI通过大量数据变得强大”的常规模式。正如研究团队自己强调的那样,在化学中,收集高质量实验数据本身就是高成本的。因此,他们从少量现有数据中提取出符合反应机制的特征量,并以非黑箱的形式将其与预测联系起来。Nature的论文页面解释说,即使在反应例子有限的情况下,也能从已报道的反应群中学到的知识“定量地转移”到新的化学空间。根据诺特丹大学的C-CAS的介绍,只要对反应的机制信息有一定了解,就可以应用于催化剂探索和反应优化,从而减少昂贵且耗时的实验。


这项研究在实际应用中之所以引人注目,是因为其数字具体。根据Phys.org的报道,合著者Erin Bucci表示,传统上需要进行50到60次反应的场合,使用这一工具可能缩小到5到10次。每次实验包括试剂的购买费、自制成本、设备使用时间、分析的麻烦以及失败样本的处理。如果能将这些缩小到十分之一左右,即使在实验室层面也会产生巨大影响,更不用说制药公司了。尤其是在临床前和临床试验用原药合成中,“有文献反应,但不一定适用于自家目标化合物”的壁垒屡屡出现。研究团队设想的应用场景正是接近于这种“最后的收尾”。


重要的是,这种方法不仅仅是一个节省时间的工具。Phys.org的文章中,合著者Abigail Doyle解释说,这个工作流程不是一个黑箱,即使预测不准确,也能从中学习化学。也就是说,不是简单地相信AI的答案,而是通过将“为什么推荐这些条件”和“为什么不准确”与人类的化学知识对比,深化对机制的理解。作为AI与化学家的角色分工来看,这是相当健康的。在生成AI的热潮中,常常会有“可以全部自动化”的说法。然而,在现实的合成化学中,除了反应是否进行,还有许多粗糙的论点,例如哪些副反应会出现,纯化是否成立,放大时是否可再现。正因为如此,此次研究受到评价,是因为它没有将AI万能化,而是作为补充现场判断的工具。


从SNS和周边的在线反应来看,关注点集中在这里。在X上,化学新闻类账户介绍了这篇论文,至少在公开搜索范围内,给人的印象是更偏向于专业社区的分享,而不是面向大众的轰动性传播。Nature的论文页面显示Altmetric为28,显示出论文发布后在学术和行业周边被稳步引用的情况。另一方面,与其说是人人都在狂热,不如说“这是减少实验探索的现实辅助线”的接受更为中心。在公开搜索中找到的LinkedIn帖子中,在药物开发和化学的背景下,“从有限的数据中预测对映选择性的重要性”和“可能减少成本和废弃物”的评价尤为突出。


然而,SNS反应的量本身目前并不爆炸性。这一点需要冷静看待。在公开搜索中确认的范围内,尚未出现如面向普通消费者的AI新闻那样的大规模传播。相反,论文介绍和研究社区内的分享在先进行。这从反面说明,这一成果并不是“仅仅吸引眼球的AI”,而是对实际动手的研究者和药物开发从业者更有价值的技术。AI药物开发的话题常常伴随着“新药很快被发现”的期待,但对现场来说,迫切的是如何高效、快速、低成本地制造出好的候选物。对此作出回应的研究,往往在广泛传播之前,先受到专家的静默评价。


当然,也有局限性。这项研究主要验证了特定的反应群,特别是使用镍催化剂的不对称C(sp3)偶联,并没有声称可以立即推广到所有合成反应。Nature论文的摘要也以能够获得机制上有意义的特征量为前提。换句话说,对于机制理解薄弱的反应或实验条件波动较大的系统,未必能以相同精度使用。尽管如此,其意义在于,它对“没有大规模数据AI就无用”这一半成常识化的观念提出了化学背景下的另一种路径。即,用机制知识和特征量设计来弥补数据量的不足。这不仅限于药物开发,也是实验科学全般的思考方式。

实际上,这项研究的影响不仅限于制药公司的研究所。对于大学的合成实验室来说,有限预算下优先哪种反应是生死攸关的问题。在试剂价格上涨、学生和研究人员时间限制、安全管理严格化的背景下,盲目的穷举实验变得越来越困难。从少量实验中高概率地找到下一步的技术,也有助于研发的民主化。不仅是资金充裕的大企业,中小规模的实验室也有了竞争的空间。C-CAS的介绍中提到,这个工作流程是公开访问的,可以应用于有机制信息的反应。如果今后进一步完善,依赖于“经验丰富的名人的直觉”的部分,可能会转变为可共享的半定量知识。


当AI进入科学研究时,真正重要的不是夺走研究者的工作,而是让研究者重新获得可用的时间。这项研究相当诚实地体现了这一原则。不是基于大量数据的华丽万能论,而是结合少量数据和机制理解,聪明地减少下一步实验。换句话说,这是在现实成本范围内,将科学家的假设形成和试错推向更高一层的工具。药物开发既不能仅靠灵感,也不能仅靠计算。最终只能在试管中验证。然而,如果能改变这种“验证方式”,药物制造的速度和失败的质量都会发生巨大变化。此次的AI并不是一种魔法般地创造新药的装置。但作为缩短药物诞生前的迂回路程的技术,已经相当接近真实。



出处URL

  1. Phys.org 今研究的一般向解说、研究者评论、实验次数从50〜60减少到5〜10的可能性等描述的确认。
    https://phys.org/news/2026-03-ai-tool-drug-synthesis-lab.html

  2. Nature刊登的原论文页面。论文标题、作者、发布日期、摘要、研究的技术定位、Altmetric值的确认。
    https://www.nature.com/articles/s41586-026-10239-7

  3. DOI页面。原论文的正式识别符的参考来源。
    https://doi.org/10.1038/s41586-026-10239-7

  4. University of Notre Dame / NSF Center for Computer Assisted Synthesis 的介绍文章。研究背景、少量数据、基于机制的特征量、未见反应的转移可能性、公开访问可能的工作流程的说明确认。
    https://ccas.nd.edu/news-events/news/accelerated-article-preview-from-doyle-and-sigman-labs-published-by-nature/

  5. X上的Chemistry News的论文介绍帖子。公开范围内确认的SNS分享的一个例子。
    https://x.com/ChemistryNews/status/2021718428965646726

  6. LinkedIn上的Joel Walker的帖子。作为专业社区侧的分享例子确认。
    https://www.linkedin.com/posts/joel-walker-23764715_transferable-enantioselectivity-models-from-activity-7428082839583313920-Gan6

  7. LinkedIn上的INFO FIELDS帖子。从少量数据的预测和对药物开发・合成效率化的期待的分享例子作为参考。
    https://www.linkedin.com/posts/info-fields_transferable-enantioselectivity-models-from-activity-7427386888996597760-S51-