跳转到主要内容
ukiyo journal - 日本と世界をつなぐ新しいニュースメディア 标志
  • 全部文章
  • 🗒️ 注册
  • 🔑 登录
    • 日本語
    • English
    • Español
    • Français
    • 한국어
    • Deutsch
    • ภาษาไทย
    • हिंदी
cookie_banner_title

cookie_banner_message 隐私政策 cookie_banner_and Cookie政策 cookie_banner_more_info

Cookie设置

cookie_settings_description

essential_cookies

essential_cookies_description

analytics_cookies

analytics_cookies_description

marketing_cookies

marketing_cookies_description

functional_cookies

functional_cookies_description

AI夺得金牌的那一天 ─ Gemini Deep Think与数学的未来蓝图

AI夺得金牌的那一天 ─ Gemini Deep Think与数学的未来蓝图

2025年07月24日 01:21

1. 背景——“AI vs. 数学奥林匹克”这一舞台

国际数学奥林匹克(IMO)自1959年创立以来,被誉为人类最高水平的智力竞技。参赛者需在4.5小时内解答6道题目,只有前8%的选手才能获得金牌。DeepMind的大型语言模型“Gemini Deep Think(以下简称GDT)”参与挑战,获得了35分(满分42分),并被正式授予金牌。36Kr


2. 什么是“官方”

去年,AlphaProof/AlphaGeometry通过将证明转换为“Lean”等形式语言进行评分,而GDT则直接以英语读取题目,并生成自然语言证明。评审员根据与人类相同的评分标准进行评分,这成为“官方认证”的依据。36Kr


3. Deep Think 模式与并行推理

GDT配备了“Deep Think”扩展推理模式,通过并行展开和整合多条思维路径,实现解答精度与速度的平衡。

  • 并行推理:同时生成多种假设,并通过收敛判断算法进行筛选

  • 强化学习:通过过去的IMO解答语料库进行自我改进

  • 时间管理:在4.5小时的限制内动态分配计算资源

最终,GDT完整解答了5道题,获得了35分。36Kr


4. 各题亮点

问题领域人类顶尖解法的典型GDT的独特方法
解析几何 (P1)点集的划分 & 投影通过可视化点覆盖问题,利用**“阳光线”**概念进行分类
几何 (P2)轮廓辅助点和角度追踪通过外心→切线→垂心逐步归纳
函数不等式 (P3)最大值的渐近分析命名为Bonza函数,进行案例划分,证明上界4=下界4
整数数列 (P4)不变量+反证法通过“偶数且为3的倍数”固定不变量
组合游戏 (P5)对称策略·临界值以λ<√2/1 和 λ>√2/1 为分水岭构建必胜策略

(※P6 未挑战)


5. 社交媒体上的热情与质疑

 


  • Sundar Pichai(Google CEO)

    “从银牌到金牌仅用一年——令人惊叹的进步!”X(前称Twitter)

  • Google DeepMind 官方

    “首个达到IMO金牌标准的AI,解决了5/6的问题。”X(前称Twitter)

  • Hacker News / Reddit 上讨论热烈,“自然语言的完整证明令人震惊”,“P3比往年更简单”是热门话题。techmeme.com

  • 埃隆·马斯克 简短回复“恭喜”,同时讽刺道“AI抢走人类工作的时间表又提前了”。The Times of India

另一方面,OpenAI声称其GPT-Grok系列模型也非正式达到金牌水平,围绕评分方法的透明性争论不断。


6. 为什么有意义

  1. 推理的普及
    数学是自然语言推理的极致,在此领域的突破将影响法律、科学研究、工程设计等高精度推理领域。

  2. 作为工具的AI
    此次成果显示出AI作为“人类数学家的辅助线”的潜力。应用包括提出证明思路、错误检测、训练题目创建等。

  3. 缩小教育差距
    如果能实现支持IMO级别问题理解的免费/低成本工具,将有助于纠正数学教育的地区差距。


7. 仍需解决的问题

  • 验证成本:自然语言证明难以纠错,与形式化(如Lean)的桥接至关重要。

  • 数据泄露疑虑:如何避免对过去问题和解答例的过度学习。

  • “小抄携带”争议:大规模上下文输入被批评为损害公平性。


8. 未来的路线图

DeepMind宣布将GDT提供给研究人员,并将在下一代Gemini Ultra中整合推理模块。OpenAI、Anthropic等也在准备类似挑战,预计“AI数学奥林匹克”将成为常设赛事。



参考文章

Google的Gemini Deep Think AI获得官方认证的数学奥林匹克金牌 - OSCHINA
来源: https://www.oschina.net/news/361739

← 返回文章列表

联系我们 |  服务条款 |  隐私政策 |  Cookie政策 |  Cookie设置

© Copyright ukiyo journal - 日本と世界をつなぐ新しいニュースメディア All rights reserved.