跳转到主要内容
ukiyo journal - 日本と世界をつなぐ新しいニュースメディア 标志
  • 全部文章
  • 🗒️ 注册
  • 🔑 登录
    • 日本語
    • English
    • Español
    • Français
    • 한국어
    • Deutsch
    • ภาษาไทย
    • हिंदी
cookie_banner_title

cookie_banner_message 隐私政策 cookie_banner_and Cookie政策 cookie_banner_more_info

Cookie设置

cookie_settings_description

essential_cookies

essential_cookies_description

analytics_cookies

analytics_cookies_description

marketing_cookies

marketing_cookies_description

functional_cookies

functional_cookies_description

ChatGPT-5真的令人失望吗?──全面检查旧模型无法做到的事情/其他公司仍然占优的地方

ChatGPT-5真的令人失望吗?──全面检查旧模型无法做到的事情/其他公司仍然占优的地方

2025年08月12日 23:12

1. 首先整理“期望落空”论的真相

  • 从发布之初,社交媒体和媒体上就出现了褒贬不一的声音。“用户的期望过高”,“实用性有所改善但并非革命性突破”等论调层出不穷。Axios指出了数学和地理错误报告、对延迟的不满,以及与“博士水平”声明的差距。 Axios

  • 这种氛围的背景在于,模型的整合与安全性、实用性重视的OpenAI方向转变,与期待壮观“飞跃”的受众之间的错位。 OpenAI



2. GPT-5在“旧模型无法做到的事情”

2-1. 集成系统:自动优化“思考量”和路径

GPT-5是轻量响应模型+深度推理模型(GPT-5 Thinking/Pro)+实时路由器的“集成体”。根据用户的指示和任务的难度,从快速响应到深度思考可变使用。这使得“快速完成简单任务,深度思考难题”成为默认体验。 OpenAI



2-2. 编码和代理任务大幅增强

在面向开发者的发布中,SWE-bench Verified 74.9%以及对长工具链(包括并行)的强大能力得到了展示,verbosity 和 reasoning_effort等控制回答长度和思考量的新参数,**“可用纯文本调用的自定义工具”**等也被添加。实际工作中的“完成能力”得到了提升。 OpenAI



2-3. 聊天体验:性格预设和语音的进化

Fortune介绍了讽刺者(Cynic)/机器人(Robot)/善于倾听者(Listener)/书呆子(Nerd)等可定制的“性格”预设和语音体验的增强。语调的微调变得更加容易,适合用途的对话风格切换更加便捷。 Fortune



2-4. 实务领域的扩展(企业用途)

OpenAI强调了写作、创作、研究的主要业务中的精度、速度、推理的提升。企业工作流程中的自动化、协作为目标,标榜**“新时代的劳动”**。 OpenAI



3. 那么为什么仍然有不满?──初期反应的差距

  • 对戏剧性飞跃的期待,却被视为**“大型小幅升级”**。

  • 关于路由器行为和某些准确性的初期困惑和故障报告。

  • 与旧模型(如4o)相比,对**“温度”和“共鸣”**的差异敏感的用户群。
    这在很大程度上是
    发布初期的“适应和调整”阶段**,OpenAI表示将继续改进。 Axios



4. 其他公司仍然优越的点(按用途查看)

4-1. 深度思考由用户掌控:Anthropic Claude

  • Extended Thinking可以开启/关闭,开发者可以设置**“思考预算(thinking budget)”。在复杂任务中,增加思考代币会规律性地提高精度**。在SWE-bench和TAU-bench中也显示出强大能力。 Anthropic+1

  • 此外,跨越过去对话的搜索和引用的记忆系统更新也在推进(优先面向Max/Team/Enterprise展开)。对于长期项目的重启非常方便。 The Verge

这样使用:

  • 数学、科学、设计评审等,有意增加“思考时间”以追求精度的场合。

  • 重视安全性和政策遵循的团队。 Anthropic



4-2. 调查、整合、长文脉:Google Gemini

  • 2.0 Pro/Flash/Flash-Lite在速度、成本、能力的区分上明确。2M代币级的长文脉,搜索、代码执行等工具联动被正式前提化。 blog.google

  • 深度研究和Canvas(伴随代码生成和预览的工作空间),**2.5 Pro(实验)**的“思考”增强也在展开。教育向AI Pro的日本提供等生态系统增强也是其特点。 Geminiblog.google

这样使用:

  • 利用Google应用联动进行调查、计划、资料化(YouTube/Maps/Drive等)。

  • 大量文档解析和长期项目管理。



4-3. 自主托管/定制自由度:Meta Llama(开放系)

  • Llama 3.1(最大405B)被报道为“开放中最有力”级别,随后Llama 3.2扩展了视觉支持和边缘优化。成本和隐私要求使得“自主运作”对企业具有吸引力。 The VergeAI Meta+1

这样使用:

  • 在本地/特定法规下的运作,重视细微调整和推理成本的优化的场合。

  • 移动和边缘的实时处理。



5. 总结──是“期望落空”还是“稳步进化”

  • GPT-5通过集成型的智能运用(思考量、路由)提升了“实务的流畅性”。编码、代理、指示遵循的基础能力确实有所提升。 OpenAI+1

  • 然而,期待“戏剧性飞跃”可能会失望。如果想要用户直观控制思考的深度,可以选择Claude;如果想要Google联动/长文脉和调查的深度,可以选择Gemini;如果想要自主运作和低成本优化,可以选择Llama,这些**按用途的明确“胜利策略”**依然存在。 AnthropicGemini##

← 返回文章列表

联系我们 |  服务条款 |  隐私政策 |  Cookie政策 |  Cookie设置

© Copyright ukiyo journal - 日本と世界をつなぐ新しいニュースメディア All rights reserved.