跳转到主要内容
ukiyo journal - 日本と世界をつなぐ新しいニュースメディア 标志
  • 全部文章
  • 🗒️ 注册
  • 🔑 登录
    • 日本語
    • English
    • Español
    • Français
    • 한국어
    • Deutsch
    • ภาษาไทย
    • हिंदी
cookie_banner_title

cookie_banner_message 隐私政策 cookie_banner_and Cookie政策 cookie_banner_more_info

Cookie设置

cookie_settings_description

essential_cookies

essential_cookies_description

analytics_cookies

analytics_cookies_description

marketing_cookies

marketing_cookies_description

functional_cookies

functional_cookies_description

AI仍然无法解决的“简单谜题”的深层原因 - 探索人类大脑的惊人力量:人类有“秒”,AI有“迷宫”

AI仍然无法解决的“简单谜题”的深层原因 - 探索人类大脑的惊人力量:人类有“秒”,AI有“迷宫”

2025年09月02日 01:04

「人类只需几秒,AI却难以解决」——ARC揭示的“通用性”壁垒与下一个战场

8月31日(美国时间),Live Science发表的采访文章再次揭示了一个悖论:最新的大型AI在“人类只需几秒即可解决的谜题”上苦苦挣扎。主题是AI研究者弗朗索瓦·肖莱于2019年设计的ARC(Abstraction and Reasoning Corpus)。在色彩网格上识别“隐藏规则”,并将其应用于未见的棋盘,这一简单的任务,其核心在于从少量例子中进行概括的能力。


ARC比起高分的学历测试或高等数学证明,更能揭示AI的“学习方式”。本文以ARC Prize Foundation的格雷格·卡姆拉特的解释为基础,深入解析这种“人类轻松/AI困难”现象的意义、社交媒体的反应,以及下一个战场——**互动“游戏型”评估(ARC-AGI-3)**。 Live ScienceScientific American


为何ARC是AI的“弱点传感器”

ARC测量的是少样本情况下的抽象化和迁移。换句话说,就是在“教科书之外初次遇到的情况时,能多快提取并应用‘规则’”。卡姆拉特表示,“AGI是指在学习效率上与人类相当,或者找不到人类能解而AI不能解的问题时”。现状正好相反——人类在ARC-AGI-2上的平均得分为约66%,而AI仍然有明显的失误。人类的样本效率极高,这是产生差异的根本原因。 Scientific American


“o3冲击”和“基准饱和”争论

尽管如此,AI的反击也很快。2024年底,OpenAI的o3在ARC-AGI-1的半私有评估中取得了75.7%(规定计算量)/87.5%(高计算量)的成绩,引发了全球关注。这引发了“已经是AGI了吗?”的热议,以及“这只是高计算调优的峰值性能”的冷静反驳。ARC方面的技术博客分析称,**带有搜索的思考(搜索与采样)**等技巧取得了成功,但同时也暗示,测量“真正的泛化”的任务设计必须不断进化。 ARC Prize


下一个舞台:ARC-AGI-3=100款新视频游戏

ARC Prize Foundation将从一问一答的“无状态”基准中毕业。2025年,将通过100款2D像素游戏,评估需要探索、计划、记忆的“环境内技能获得”ARC-AGI-3的预览。在内部测试阶段,有报告称“没有AI能通过第一关”,并已转向对短期记忆和目标估计等代理能力的全面测量。7-8月,与Hugging Face合作进行了为期30天的预览竞赛,结果摘要也已公开。 Live ScienceARC Prize



社交媒体反应揭示的“三个温度带”

1) 怀疑派:“那不是AI,而是LLM”

在Reddit的r/technology上,许多人表示“‘AI’这个名称改变了期望值,应该称之为LLM或推理模型”。还有人评论称“只是统计预测机器”。对术语的不满反映了对“AGI到来”营销的反感。 Reddit


2) 生活者的疲劳感:“谁来叠衣服?”

在同一线程中,“AI没有减少家务”“只会大量生产艺术品,侵蚀爱好”等“生活者视角的不满”也很突出。研究基准的热情与日常问题的未解决感之间的差距显而易见。 Reddit


3) 技术派:围绕基准设计和分数解读的激烈讨论

 


在Hacker News上,“ARC-AGI-2是人类小组平均得分在60%左右”“‘100%’意味着‘所有问题都被某人解决’”等对评估设计的解读成为讨论焦点。对于o3的高分,也有“高计算条件导致的”“是探索强化的胜利,而非泛化”的分析被分享。 Hacker NewsarXiv


此外,在X(前Twitter)上,科技影响者介绍了Live Science的文章,同时可视化了**“对人类简单,对AI困难”**的扭曲。ARC官方账号在宣布o3的分数成就的同时,将视线转向新一代基准。 X (formerly Twitter)



是什么产生了“秒解力”:人类的三个优势

  1. 具身化的直觉
    人类从幼儿期开始,通过身体经验自然获得物体的“整体性”或“洞”“旋转对称”等概念。像ARC这样的网格任务在这种朴素物理和格式塔的延续中被处理。

  2. 极端的样本效率
    从几个例子中,可以瞬间生成和消除可能的规则假设。相比之下,深度学习在从先验分布中外推方面较弱。

  3. 作为元学习的语用学
    人类从问题描述或呈现方式中“读出出题者的意图”。这是一种在形式规则之外的元线索。


正如卡姆拉特所强调的,现在的AI是**“尖峰地聪明,但在面上却贫乏”**。在广泛的未知情况下的“学习方式”正是其弱点。 Scientific American



未来的战场:静态图像→行为,文字→环境

从静止的输入输出填空到环境内的探索、计划、记忆。ARC-AGI-3以视频游戏的形式出现,是为了超越基准的“无状态性”限制。在研究背景下,代理评估也与安全性直接相关。


无法测量计划和自我检查的模型容易发生思维的失控(幻觉的增强)。Live Science/Scientific American所指的方向可以说是基准的世代交替宣言。 Live ScienceScientific American



将“现在能做的”和“还不能做的”语言化

  • 现实: o3之后的“推理增强型”显示了一定的新任务适应。然而,这是一种依赖重度探索和成本的尖峰能力,与人类的快速泛化不同。 ARC PrizearXiv

  • 下一个评估: 不再是一问一答,而是环境内技能获得的测量ARC-AGI-3。游戏的公开预览正在进行,社区竞赛的总结也已开始发布。即使不是研究人员,亲自玩游戏并用自己的大脑验证也更快。 three.arcprize.orgARC Prize


体验的建议:ARC-AGI-1/2/3的公开任务可以在官方网站上供任何人尝试。首先花几分钟,比较自己的直觉强度与AI的绊脚石。 Live

← 返回文章列表

联系我们 |  服务条款 |  隐私政策 |  Cookie政策 |  Cookie设置

© Copyright ukiyo journal - 日本と世界をつなぐ新しいニュースメディア All rights reserved.