AI夺得金牌的那一天 ─ Gemini Deep Think与数学的未来蓝图

2025年07月24日 01:21

1. 背景——“AI vs. 数学奥林匹克”这一舞台

国际数学奥林匹克（IMO）自1959年创立以来，被誉为人类最高水平的智力竞技。参赛者需在4.5小时内解答6道题目，只有前8%的选手才能获得金牌。DeepMind的大型语言模型“Gemini Deep Think（以下简称GDT）”参与挑战，获得了35分（满分42分），并被正式授予金牌。36Kr

2. 什么是“官方”

去年，AlphaProof/AlphaGeometry通过将证明转换为“Lean”等形式语言进行评分，而GDT则直接以英语读取题目，并生成自然语言证明。评审员根据与人类相同的评分标准进行评分，这成为“官方认证”的依据。36Kr

3. Deep Think 模式与并行推理

GDT配备了“Deep Think”扩展推理模式，通过并行展开和整合多条思维路径，实现解答精度与速度的平衡。

并行推理：同时生成多种假设，并通过收敛判断算法进行筛选
强化学习：通过过去的IMO解答语料库进行自我改进
时间管理：在4.5小时的限制内动态分配计算资源

最终，GDT完整解答了5道题，获得了35分。36Kr

4. 各题亮点

问题领域	人类顶尖解法的典型	GDT的独特方法
解析几何 (P1)	点集的划分 & 投影	通过可视化点覆盖问题，利用“阳光线”概念进行分类
几何 (P2)	轮廓辅助点和角度追踪	通过外心→切线→垂心逐步归纳
函数不等式 (P3)	最大值的渐近分析	命名为Bonza函数，进行案例划分，证明上界4＝下界4
整数数列 (P4)	不变量＋反证法	通过“偶数且为3的倍数”固定不变量
组合游戏 (P5)	对称策略·临界值	以λ<√2/1 和 λ>√2/1 为分水岭构建必胜策略

（※P6 未挑战）

5. 社交媒体上的热情与质疑

Sundar Pichai（Google CEO）

“从银牌到金牌仅用一年——令人惊叹的进步！”X（前称Twitter）
Google DeepMind 官方

“首个达到IMO金牌标准的AI，解决了5/6的问题。”X（前称Twitter）
Hacker News / Reddit 上讨论热烈，“自然语言的完整证明令人震惊”，“P3比往年更简单”是热门话题。techmeme.com
埃隆·马斯克 简短回复“恭喜”，同时讽刺道“AI抢走人类工作的时间表又提前了”。The Times of India

另一方面，OpenAI声称其GPT-Grok系列模型也非正式达到金牌水平，围绕评分方法的透明性争论不断。

6. 为什么有意义

推理的普及
数学是自然语言推理的极致，在此领域的突破将影响法律、科学研究、工程设计等高精度推理领域。
作为工具的AI
此次成果显示出AI作为“人类数学家的辅助线”的潜力。应用包括提出证明思路、错误检测、训练题目创建等。
缩小教育差距
如果能实现支持IMO级别问题理解的免费/低成本工具，将有助于纠正数学教育的地区差距。

7. 仍需解决的问题

验证成本：自然语言证明难以纠错，与形式化（如Lean）的桥接至关重要。
数据泄露疑虑：如何避免对过去问题和解答例的过度学习。
“小抄携带”争议：大规模上下文输入被批评为损害公平性。

8. 未来的路线图

DeepMind宣布将GDT提供给研究人员，并将在下一代Gemini Ultra中整合推理模块。OpenAI、Anthropic等也在准备类似挑战，预计“AI数学奥林匹克”将成为常设赛事。

参考文章

Google的Gemini Deep Think AI获得官方认证的数学奥林匹克金牌 - OSCHINA
来源: https://www.oschina.net/news/361739

AI夺得金牌的那一天 ─ Gemini Deep Think与数学的未来蓝图

1. 背景——“AI vs. 数学奥林匹克”这一舞台

2. 什么是“官方”

3. Deep Think 模式与并行推理

4. 各题亮点

5. 社交媒体上的热情与质疑

6. 为什么有意义

7. 仍需解决的问题

8. 未来的路线图

OpenAI的新革命: ChatGPT代理将改变您的业务

Google的AI模式进化！“搜索=任务代理” - Google AI模式通过Deep Search和自动电话实现重大进化

OpenAI击败了埃隆·马斯克的Grok！Kaggle发起的AI巅峰对决：OpenAI o3大获全胜，Grok4为何崩溃？

AI依赖是剥夺智慧还是解放智慧 ─ MIT揭示的“认知负债”的真相

数个月的光学设计在“2秒”内完成？AI与超表面的冲击

cookie_banner_title

1. 背景——“AI vs. 数学奥林匹克”这一舞台

2. 什么是“官方”

3. Deep Think 模式与并行推理

4. 各题亮点

5. 社交媒体上的热情与质疑

6. 为什么有意义

7. 仍需解决的问题

8. 未来的路线图

OpenAI的新革命: ChatGPT代理将改变您的业务

Google的AI模式进化！“搜索=任务代理” - Google AI模式通过Deep Search和自动电话实现重大进化

OpenAI击败了埃隆·马斯克的Grok！Kaggle发起的AI巅峰对决：OpenAI o3大获全胜，Grok4为何崩溃？

AI依赖是剥夺智慧还是解放智慧 ─ MIT揭示的“认知负债”的真相

数个月的光学设计在“2秒”内完成？AI与超表面的冲击