跳转到主要内容
ukiyo journal - 日本と世界をつなぐ新しいニュースメディア 标志
  • 全部文章
  • 🗒️ 注册
  • 🔑 登录
    • 日本語
    • English
    • Español
    • Français
    • 한국어
    • Deutsch
    • ภาษาไทย
    • हिंदी
cookie_banner_title

cookie_banner_message 隐私政策 cookie_banner_and Cookie政策 cookie_banner_more_info

Cookie设置

cookie_settings_description

essential_cookies

essential_cookies_description

analytics_cookies

analytics_cookies_description

marketing_cookies

marketing_cookies_description

functional_cookies

functional_cookies_description

改变医药开发的未来!操控“分子语言”的AI:与Rhodium合作的化学LLM的潜力

改变医药开发的未来!操控“分子语言”的AI:与Rhodium合作的化学LLM的潜力

2025年08月16日 00:57

1|新闻要点——“将分子视为‘语言’”的药物研发AI

Southwest Research Institute(SwRI)发布了一种专注于化学领域的大规模语言模型(LLM)“GAMES”。GAMES能够理解和生成用行业标准SMILES(简化分子输入线条条目系统)表示的分子结构,旨在加速包括虚拟筛选在内的药物研发过程。发布日期为2025年8月14日,Phys.org也对此进行了报道。swri.org


GAMES设计旨在与SwRI的分子对接软件“Rhodium”协同工作。Rhodium负责三维对接和物性可视化,而GAMES则扩展了探索空间的“文本侧”,提供更多样和合理的SMILES候选。swri.org


2|技术内容——通过LoRA/QLoRA进行轻量微调,抑制无效SMILES

根据SwRI的说明,GAMES通过结合LoRA和QLoRA进行高效微调,以降低学习和推理所需的硬件和能源负担。实验显示,有效SMILES的生成比例增加,无效输出减少。虽然处于初期阶段,但将其纳入Rhodium的工作流程中可能加速药物设计的一般化方法。swri.org


技术选择的背景在于,将化学视为“字符串”而非“图形”,并将通用LLM的语言能力适用于化学语言的最新趋势。例如,SmileyLlama和SMILES-Mamba等研究自2024年起越来越多地将LLM转用于化学语言模型(CLM)。


此外,使用LLaMA系LLM进行的SMILES嵌入在分子特性预测中与竞争模型相媲美甚至超越的报告也存在。GAMES的方向性被视为在这一背景下的延续。


3|为何“会说SMILES的LLM”能加速药物研发

药物研发是从庞大的化学空间中寻找“可能成为药物”的候选的探索问题。SMILES可以将分子表示为一连串的字符串,因此能够自然地映射到LLM的擅长领域(生成和转换令牌序列)。生成的大量候选文本被传递给像Rhodium这样的结构基础方法,通过对接、物性预测和过滤进行筛选。GAMES通过更聪明、更快速地进行这一前期的“候选展开”,旨在提高整体的吞吐量。swri.org


SwRI提出,未来方向包括基于GAMES对化合物库的“药物相似性”进行排名,以及系统性化学景观的探索。这是缩短生成模型与物性和安全性(ADMET)评估循环的实现,可能缓解实验室的瓶颈。swri.org


4|SNS的反应——期待与怀疑并存

发布当天,SwRI的官方X账号宣布了“加速药物研发的化学LLM GAMES”。社区中有积极的声音表示“欢迎将AI应用于药物研发”,但整个讨论中也混杂了对具体基准和实际收益的需求。


另一方面,在化学与LLM的通用讨论中,Reddit的化学和AI子版块反复提出“(通用)LLM不擅长SMILES转换或机器可读的结构化”的怀疑。在某个讨论中,专家(化学信息学)分享了“LLM在SMILES方面较弱”的观点。GAMES针对这一痛点,通过领域特定数据和微调来提高“合理率”是其关键点。swri.org


此外,在Hacker News上,“LLM/AGI可能在药物研发等大量使用并行实验和模拟的领域带来巨大提升”的积极观点在近期讨论中频繁出现。然而,也有反对意见指出湿实验的并行化和自动化成本及物理限制。社区的“温度感”正处于寻找期待与现实平衡的阶段。


5|风险与局限——“正确的SMILES”还不够

即使LLM能够排列正确的词汇,这与“可合成性”和“无毒性或代谢陷阱”是不同的问题。GAMES的说明提到减少无效SMILES(提高语法合理性),但合成可能性(SA)和ADMET的“现实适应性”仍需下游评估和验证来保障。swri.org


此外,在化学领域中LLM的安全性方面,通过SMILES或程序表达的“越狱(Jailbreak)”脆弱性也被指出。在模型发布和运营时,设计和治理以避免危险物质合成信息的扩散和误用是不可或缺的。


6|周边研究的背景——“通用LLM→化学语言”的桥梁

自2024年起,适应通用LLM为化学语言的方法(SFT、DPO、自监督预训练等)不断涌现,并在分子特性预测和引导生成中报告了有效性。GAMES可以说是将这一趋势推进到产业化实施(Rhodium协作)的实例。


另一方面,耐用的评估设计——避免泄露的数据分割、规范化、去重、现实的基准比较——也是过去研究所教导的。我们期待SwRI在下一阶段公开的评估指标和数据的披露水平。


7|“什么才算成功”——从实务视角的KPI

  • 合理SMILES率与新颖性的平衡:不仅仅是“有效率”,还需附上化学多样性和合成容易性(SA评分)。

  • 下游任务的改善:Rhodium中的对接评分分布、后续实验中的实际命中率、误检(false positive)减少。

  • 计算效率:通过LoRA/QLoRA的训练和推理成本(GPU时间/电力)及吞吐量的改善幅度。swri.org

  • 安全性:危险化学信息的输出抑制和检测,日志和审计制度。


8|编辑部的看法——“用语言切入化学”策略的现实性

GAMES的意义在于,通过“将化学视为文本”,能够将通用LLM的生态系统(轻量微调、提示设计、工具协作)引入药物研发。研究所内的实际项目已经受到影响的评论,可能是超越PoC的实质反馈。然而,真正的价值在于实验系统的成果——命中化合物的实际测量和再现性——得到展示时才会被确认。期待的是基准的公开、外部验证以及开放的评估协议。swri.org


参考文章

为加速药物发现而开发的化学LLM(大规模语言模型)
来源: https://phys.org/news/2025-08-chemistry-llm-faster-drug-discovery.html

Powered by Froala Editor

← 返回文章列表

联系我们 |  服务条款 |  隐私政策 |  Cookie政策 |  Cookie设置

© Copyright ukiyo journal - 日本と世界をつなぐ新しいニュースメディア All rights reserved.