跳转到主要内容
ukiyo journal - 日本と世界をつなぐ新しいニュースメディア 标志
  • 全部文章
  • 🗒️ 注册
  • 🔑 登录
    • 日本語
    • English
    • Español
    • Français
    • 한국어
    • Deutsch
    • ภาษาไทย
    • हिंदी
cookie_banner_title

cookie_banner_message 隐私政策 cookie_banner_and Cookie政策 cookie_banner_more_info

Cookie设置

cookie_settings_description

essential_cookies

essential_cookies_description

analytics_cookies

analytics_cookies_description

marketing_cookies

marketing_cookies_description

functional_cookies

functional_cookies_description

AI生成论文“量产”时代:生产力提高,但能看出质量吗?

AI生成论文“量产”时代:生产力提高,但能看出质量吗?

2025年12月23日 12:46

“AI使论文增加”是好消息吗?

2025年12月,一项大规模研究引起了关注,该研究捕捉到了生成AI(大型语言模型:LLM)对学术界带来的巨大变化。据Phys.org报道,使用LLM(例如:ChatGPT)的科学家比不使用的科学家论文产量显著增加。而且,这种增长在领域和地区上存在偏差,特别是对“非英语母语的研究者”来说是一个强劲的推动力。Phys.org


这则新闻之所以引人注目,是因为它同时揭示了学术出版中本已存在的“结构性瓶颈”和生成AI带来的“新瓶颈”。对于研究者来说,“写作时间”减少是个好消息。然而,对于审稿人、编辑以及使用研究成果的社会来说,“阅读/识别负担”却大幅增加。效率化的好处在其他地方以成本的形式反弹,这就是这里的情况。


研究是如何测量“AI使用”的?

本次分析的基础是预印本(在同行评审前公开的论文)。康奈尔大学和加州大学伯克利分校的研究人员以arXiv、bioRxiv和SSRN这些大型预印本服务器上提交的超过200万篇摘要(2018年1月至2024年6月)为对象。Phys.org


这里重要的是如何推测“谁使用了LLM”。据Phys.org报道,研究团队让GPT-3.5(GPT-3.5 Turbo-0125)基于2023年之前的摘要生成“AI风格的摘要”,学习其与人类文本的不同(措辞和统计特征),并创建了一个算法来检测这些“指纹”是否出现在后续的摘要中。Phys.org


此外,据EurekAlert!介绍,通过追踪LLM引入前后的变化,使用差分中的差分(difference-in-differences)方法比较引入后的生产力变化。EurekAlert!


也就是说,这不是“本人申报的AI使用”,而是“从文章特征推测”。这其中存在局限(例如文体模板化或校对工具的影响可能混入)。然而,由于规模大,更容易抓住个别例子中难以看到的“整体趋势”。


结果1:论文的“生产力”确实提高了

数据相当强劲。Phys.org介绍了按领域的增长:社会科学和人文学科增长59.8%,生物和生命科学增长52.9%,物理和数学增长36.2%。Phys.org


康奈尔纪事报对此进行了补充,称arXiv上的增长约为三分之一(约36%),而在bioRxiv和SSRN上增长超过50%。康奈尔纪事报


这里容易误解的是,与其说“AI产生了研究想法导致增加”,不如说“写作、整理、投稿准备的摩擦减少”效果更大。即使在实验和分析上花费相同的时间,仅仅因为写作速度加快,“可发表的数量”就会增加。特别是摘要、引言、相关研究的整理和表达的打磨,是LLM擅长的领域。


结果2:非英语地区的“差距缩小”显现

本次研究中最具象征意义的是地区差异。Phys.org报道“亚洲研究者增长最多达89%”,并提到英语为必需的顶级期刊文化对非英语地区的不利历史。Phys.org


康奈尔纪事报进一步指出,亚洲机构的研究者投稿增长达43.0%〜89.3%,而英语国家机构或“高加索”名字的作者则为23.7%〜46.2%,相对较低。康奈尔纪事报


EurekAlert!也总结道,生产力的提升幅度为23.7%〜89.3%,语言障碍较高的人受益更大。EurekAlert!


这表明学术界长期存在的“英语流利性溢价”可能会减弱。如果相比研究内容,“用英语整理的能力”被过度评价,那么这种扭曲确实有可能得到纠正。


另一方面,这也是“竞争规则的改变”。那些曾经凭借英语能力取胜的人优势减少,评价可能转向其他信号(所属机构、指导教师、品牌)。Phys.org警告称,随着文章判断标准的崩溃,可能会依赖于“作者的背景和所属等地位指标”。Phys.org


结果3:文章变得“高级”,但质量标准逆转

这是这项研究最可怕的地方。传统上,能够写出易读且专业的文章通常与研究质量相关。审稿人和编辑在繁忙中依赖文章的完成度作为“快速评估”的依据。


然而,据康奈尔纪事报报道,人类撰写的论文中,“文章复杂度越高越容易被接受”的趋势在可能涉及LLM的论文中逆转,出现了“复杂文章越不容易被接受”的趋势。康奈尔纪事报


TechXplore(The Conversation的再版)也同样指出,在AI支持下,“复杂语言”可能被用来掩盖薄弱的内容。TechXplore


简单来说,“文章写得好=好研究”这一捷径被打破。更准确地说,“文章写得好变得比以前更容易获得”。因此,仅凭文章判断“命中”的概率降低。


结果4:引用和探索的“多样化”带来的意外好处

并非全是坏消息。康奈尔纪事报介绍说,AI的使用也影响了相关研究的探索,AI搜索(例如:Bing Chat)更容易访问新文献和书籍,相对削弱了传统搜索中常见的“旧且被大量引用的经典”偏见。康奈尔纪事报


EurekAlert!也总结道,LLM使用者倾向于阅读和引用更多样的文献(书籍、更新的研究、引用较少的文献)。EurekAlert!


这可能会扩展研究的“思维宽度”,但也带来了其他担忧。引用越多、越多样化,检查引用准确性的负担也会增加。如果生成AI的幻觉(看似合理的错误)混入,可能成为错误引用链的温床。


“论文洪水”和审稿的未来:什么会堵塞?

将以上内容总结成一张图表如下。

  • 研究者:写作过程缩短 → 投稿数量增加

  • 期刊/审稿人:阅读数量增加+文章完成度难以筛选

  • 研究评价(录用/晋升/资助):数量指标进一步扭曲(数量过多)

  • 社会:获取可信见解的成本增加


Phys.org建议的对策包括“更深入的检查”或“基于AI的审稿支持代理”。Phys.org


TechXplore(The Conversation)则考虑到论文投稿数量的增加和编辑负担,暗示可能需要使用AI审稿支持来应对。TechXplore


然而,用AI来裁定AI的结构也带来了新的风险。检测器的偏差、误判、工具竞争(规避检测的文本优化)等,可能会引发“猫捉老鼠”的局面。重要的是将评价标准从“打击AI风格”转向“验证研究的稳健性”。


SNS的反应(趋势):赞成与反对的分歧点在这里

※以下并非对个别帖子的全面统计,而是整理了在文章化、再版、讨论中反复出现的论点(=SNS上易传播的“反应模式”)。


1) “非英语地区的希望”派:期待研究的民主化

亚洲研究者增长43.0〜89.3%的数字非常强烈,容易与“英语壁垒扭曲了研究竞争”的体感联系起来。康奈尔纪事报


“即使英语不好也能凭内容取胜”“校对成本降低是正义”等语境下,容易被积极接受。


2) “警惕AI低质泛滥”派:精美文章增加“噪音”

另一方面,正如TechXplore用“AI slop(低质量生成物泛滥)”这一强烈词汇讨论的那样,审稿和编辑已经到了极限,精美文章的涌入是危险的,这种反应也容易出现。TechXplore


康奈尔纪事报也传达了编辑者“流入了写得好但科学价值低的稿件”的“现场感”。康奈尔纪事报##

← 返回文章列表

联系我们 |  服务条款 |  隐私政策 |  Cookie政策 |  Cookie设置

© Copyright ukiyo journal - 日本と世界をつなぐ新しいニュースメディア All rights reserved.