ChatGPT-5真的令人失望吗？──全面检查旧模型无法做到的事情/其他公司仍然占优的地方

2025年08月12日 23:12

1. 首先整理“期望落空”论的真相

从发布之初，社交媒体和媒体上就出现了褒贬不一的声音。“用户的期望过高”，“实用性有所改善但并非革命性突破”等论调层出不穷。Axios指出了数学和地理错误报告、对延迟的不满，以及与“博士水平”声明的差距。 Axios
这种氛围的背景在于，模型的整合与安全性、实用性重视的OpenAI方向转变，与期待壮观“飞跃”的受众之间的错位。 OpenAI

2. GPT-5在“旧模型无法做到的事情”

2-1. 集成系统：自动优化“思考量”和路径

GPT-5是轻量响应模型+深度推理模型（GPT-5 Thinking/Pro）+实时路由器的“集成体”。根据用户的指示和任务的难度，从快速响应到深度思考可变使用。这使得“快速完成简单任务，深度思考难题”成为默认体验。 OpenAI

2-2. 编码和代理任务大幅增强

在面向开发者的发布中，SWE-bench Verified 74.9%以及对长工具链（包括并行）的强大能力得到了展示，verbosity 和 reasoning_effort等控制回答长度和思考量的新参数，**“可用纯文本调用的自定义工具”**等也被添加。实际工作中的“完成能力”得到了提升。 OpenAI

2-3. 聊天体验：性格预设和语音的进化

Fortune介绍了讽刺者（Cynic）/机器人（Robot）/善于倾听者（Listener）/书呆子（Nerd）等可定制的“性格”预设和语音体验的增强。语调的微调变得更加容易，适合用途的对话风格切换更加便捷。 Fortune

2-4. 实务领域的扩展（企业用途）

OpenAI强调了写作、创作、研究的主要业务中的精度、速度、推理的提升。企业工作流程中的自动化、协作为目标，标榜**“新时代的劳动”**。 OpenAI

3. 那么为什么仍然有不满？──初期反应的差距

对戏剧性飞跃的期待，却被视为**“大型小幅升级”**。
关于路由器行为和某些准确性的初期困惑和故障报告。
与旧模型（如4o）相比，对**“温度”和“共鸣”**的差异敏感的用户群。
这在很大程度上是发布初期的“适应和调整”阶段**，OpenAI表示将继续改进。 Axios

4. 其他公司仍然优越的点（按用途查看）

4-1. 深度思考由用户掌控：Anthropic Claude

Extended Thinking可以开启/关闭，开发者可以设置**“思考预算（thinking budget）”。在复杂任务中，增加思考代币会规律性地提高精度**。在SWE-bench和TAU-bench中也显示出强大能力。 Anthropic+1
此外，跨越过去对话的搜索和引用的记忆系统更新也在推进（优先面向Max/Team/Enterprise展开）。对于长期项目的重启非常方便。 The Verge

这样使用：

数学、科学、设计评审等，有意增加“思考时间”以追求精度的场合。
重视安全性和政策遵循的团队。 Anthropic

4-2. 调查、整合、长文脉：Google Gemini

2.0 Pro/Flash/Flash-Lite在速度、成本、能力的区分上明确。2M代币级的长文脉，搜索、代码执行等工具联动被正式前提化。 blog.google
深度研究和Canvas（伴随代码生成和预览的工作空间），**2.5 Pro（实验）**的“思考”增强也在展开。教育向AI Pro的日本提供等生态系统增强也是其特点。 Geminiblog.google

这样使用：

利用Google应用联动进行调查、计划、资料化（YouTube/Maps/Drive等）。
大量文档解析和长期项目管理。

4-3. 自主托管/定制自由度：Meta Llama（开放系）

Llama 3.1（最大405B）被报道为“开放中最有力”级别，随后Llama 3.2扩展了视觉支持和边缘优化。成本和隐私要求使得“自主运作”对企业具有吸引力。 The VergeAI Meta+1

这样使用：

在本地/特定法规下的运作，重视细微调整和推理成本的优化的场合。
移动和边缘的实时处理。

5. 总结──是“期望落空”还是“稳步进化”

GPT-5通过集成型的智能运用（思考量、路由）提升了“实务的流畅性”。编码、代理、指示遵循的基础能力确实有所提升。 OpenAI+1
然而，期待“戏剧性飞跃”可能会失望。如果想要用户直观控制思考的深度，可以选择Claude；如果想要Google联动/长文脉和调查的深度，可以选择Gemini；如果想要自主运作和低成本优化，可以选择Llama，这些**按用途的明确“胜利策略”**依然存在。 AnthropicGemini##

ChatGPT-5真的令人失望吗？──全面检查旧模型无法做到的事情/其他公司仍然占优的地方

1. 首先整理“期望落空”论的真相

2. GPT-5在“旧模型无法做到的事情”

2-1. 集成系统：自动优化“思考量”和路径

2-2. 编码和代理任务大幅增强

2-3. 聊天体验：性格预设和语音的进化

2-4. 实务领域的扩展（企业用途）

3. 那么为什么仍然有不满？──初期反应的差距

4. 其他公司仍然优越的点（按用途查看）

4-1. 深度思考由用户掌控：Anthropic Claude

4-2. 调查、整合、长文脉：Google Gemini

4-3. 自主托管/定制自由度：Meta Llama（开放系）

5. 总结──是“期望落空”还是“稳步进化”

AI依赖是剥夺智慧还是解放智慧 ─ MIT揭示的“认知负债”的真相

Google的AI模式进化！“搜索=任务代理” - Google AI模式通过Deep Search和自动电话实现重大进化

Canva和Figma都成为敌人？Google Opal改变无代码战线的日子 - 轻松创建网页应用的可视化编程应用程序「Opal」

政治も買い物も“AIに相談”時代：说服聊天机器人背后的故事

量子时代的地址指定：量子的“指名通话”诞生 ── 京大开启了“可选择目的地”的量子加密网络大门

cookie_banner_title

1. 首先整理“期望落空”论的真相

2. GPT-5在“旧模型无法做到的事情”

2-1. 集成系统：自动优化“思考量”和路径

2-2. 编码和代理任务大幅增强

2-3. 聊天体验：性格预设和语音的进化

2-4. 实务领域的扩展（企业用途）

3. 那么为什么仍然有不满？──初期反应的差距

4. 其他公司仍然优越的点（按用途查看）

4-1. 深度思考由用户掌控：Anthropic Claude

4-2. 调查、整合、长文脉：Google Gemini

4-3. 自主托管/定制自由度：Meta Llama（开放系）

5. 总结──是“期望落空”还是“稳步进化”

AI依赖是剥夺智慧还是解放智慧 ─ MIT揭示的“认知负债”的真相

Google的AI模式进化！“搜索=任务代理” - Google AI模式通过Deep Search和自动电话实现重大进化

Canva和Figma都成为敌人？Google Opal改变无代码战线的日子 - 轻松创建网页应用的可视化编程应用程序「Opal」

政治も買い物も“AIに相談”時代：说服聊天机器人背后的故事

量子时代的地址指定：量子的“指名通话”诞生 ── 京大开启了“可选择目的地”的量子加密网络大门