跳转到主要内容
ukiyo journal - 日本と世界をつなぐ新しいニュースメディア 标志
  • 全部文章
  • 🗒️ 注册
  • 🔑 登录
    • 日本語
    • English
    • Español
    • Français
    • 한국어
    • Deutsch
    • ภาษาไทย
    • हिंदी
cookie_banner_title

cookie_banner_message 隐私政策 cookie_banner_and Cookie政策 cookie_banner_more_info

Cookie设置

cookie_settings_description

essential_cookies

essential_cookies_description

analytics_cookies

analytics_cookies_description

marketing_cookies

marketing_cookies_description

functional_cookies

functional_cookies_description

“思考するAI”的幻想 ─ AI的瓶颈在哪里?Apple论文和CNBC报道触及的核心

“思考するAI”的幻想 ─ AI的瓶颈在哪里?Apple论文和CNBC报道触及的核心

2025年06月27日 00:51

1. 介绍:狂热背后膨胀的不安感

生成AI热潮的第二幕关键词是“推理(Reasoning)”。当ChatGPT和Google Gemini引入类似“思考链”的〈Chain-of-Thought〉时,产品发布的幕后响起了“这次更接近人类思维”的喝彩。然而,6月26日,CNBC抛出的一个疑问给庆祝的气氛泼了一盆冷水。——“展示思考的模型真的变聪明了吗?” 这个问题引发了一场风暴,几乎不需要时间。


2. CNBC文章的骨架:精度崩溃的临界点

根据CNBC的数字版和电视节目TechCheck,多项独立研究再现了“模型进行阶段性推理时,一旦超过某个复杂度,正确率急剧下降”的现象。其象征是苹果的论文The Illusion of Thinking。研究团队比较了20多个最先进的LLM在数学、编程和未知概念三个领域,展示了生成思考轨迹的模型在“临界复杂度”边界处性能垂直下降的图表。模型输出冗长的推理,但最终答案错误,犯下“思考却失误”的失态。theverge.com


CNBC将这种行为命名为“准确性崩溃”。报道称,投资者开始质疑“是否值得引入高成本的推理模型”。


3. 什么是Reasoning模型——方便的“长独白”

与LLM的标准模式“下一个词预测”相比,推理模型的卖点是“分步显示思考”。排列计算公式、调用函数、列举知识——这些过程以人类可读的形式保留下来,因此调试性和问责性被认为有所提高。然而,苹果论文指出“所见并非思考,而是‘自我联想游戏’的痕迹”。即使看似逻辑性强,但一旦复杂性超越阈值,模型会突然缩短思考,甚至出现与“我不知道”同义的简短输出。itpro.com


4. 反驳的风暴:Anthropic和Meta的反击

针对苹果的挑衅性结论,Anthropic立即反驳称“基准测试是错误的”,并与Open Philanthropy联合进行再验证。结果表明“只是因为格式指定或超时导致失分”,并强调**“思考模型依然健在”**。Meta在被报道Safe Superintelligence收购失败的同时,解释其自家开发模型Behemoth的延迟是“为了精度调整”,并在CNBC的追加采访中评论称“从长远来看,思考型是不可或缺的”。rcrwireless.com


5. 社交媒体的反应:#ReasoningGate的炎上剧

在X(旧Twitter)上,文章发布24小时内〈#ReasoningGate〉成为趋势。“模型不是‘Thinking Out Loud’,而是‘Guessing Out Loud’”“我们被AI的独白欺骗了吗”等讽刺接踵而至。尤其是风险投资家@AIThesis发帖称“透明度高并不意味着正确。投资需看清实质”,获得了2.3万个赞。媒体官方账号@CNBC也以“Why ‘thinking’ models may not actually be smarter”为标题发布了短视频,观看次数突破14.5万次。

 



另一方面,在Reddit的/r/ArtificialIntelligence中,〈Are current AI models really reasoning, or just predicting the next token?〉的帖子再次浮现,“归根结底只是自动补全的延长版” vs. “联想也是思考的一种形式”的激烈辩论展开。帖子在48小时内记录了超过1200条评论。reddit.com


6. 技术性论点:过度思考与临界复杂度

IEEE Spectrum的分析报告称“推理模型‘思考过度’时成功率下降”。增加思考步骤的行为不一定能提高精度,反而会引发“过度思考惩罚”。此外,NUS和Johns Hopkins的研究指出“由于缺乏人类工作记忆机制,无法保持中途路径导致自相矛盾”。spectrum.ieee.orgarxiv.org


7. 行业影响:资金和路线图的重组

在投资者方面,计算推理链的额外成本被估算为“每个代币价格+30〜50%”,价格优势受到动摇。一些风险投资公司开始重新组合投资组合,认为“与其盲目增加模型数量,不如在API层面模块化连接现有LLM更具风险抵抗力”。像DeepSeek这样的廉价高效模型获得了更高的评价,Google和Nvidia的巨额GPU投资再次受到质疑。reuters.com


8. 替代路线:混合型和神经符号

作为解决问题的关键浮现的是神经符号AI和模块化代理。这是将“符号规则”和“深度学习”的长处结合起来,明确分离出“思考”部分的方法。Gary Marcus等人提倡这种方法,认为“因果推理可以在电路级别得到保证”,在ReasoningGate后初创企业资金流入激增。en.wikipedia.org


9. 什么是“思考”——哲学视角

John Mark Bishop早在2020年就发表了题为“AI is stupid and causal reasoning won’t fix it”的论文,指出“计算不是理解”。此次风波将这一警句更新为2025年版。人类进行的“意义理解”和LLM进行的“统计联想”之间的差距依然未被填补。arxiv.org


10. 未来展望:超越透明性与妥当性的二元对立

短期内,(1) 重新设计基准测试,(2) 思考轨迹的自动验证工具,(3) 硬件效率化是当务之急。另一方面,作为长期愿景,“AI的工作记忆内置”“因果建模的本地实现”“多代理协作中的错误修正”等,设计哲学本身将被重新考虑。


参考文章

AI推理问题——为什么“思考”模型实际上可能不聪明
来源: https://www.cnbc.com/2025/06/26/ai-reasoning-models-problem.html

← 返回文章列表

联系我们 |  服务条款 |  隐私政策 |  Cookie政策 |  Cookie设置

© Copyright ukiyo journal - 日本と世界をつなぐ新しいニュースメディア All rights reserved.