跳转到主要内容
ukiyo journal - 日本と世界をつなぐ新しいニュースメディア 标志
  • 全部文章
  • 🗒️ 注册
  • 🔑 登录
    • 日本語
    • English
    • Español
    • Français
    • 한국어
    • Deutsch
    • ภาษาไทย
    • हिंदी
cookie_banner_title

cookie_banner_message 隐私政策 cookie_banner_and Cookie政策 cookie_banner_more_info

Cookie设置

cookie_settings_description

essential_cookies

essential_cookies_description

analytics_cookies

analytics_cookies_description

marketing_cookies

marketing_cookies_description

functional_cookies

functional_cookies_description

ChatGPT《人类之声》革命:AI在你身边呼吸的日子

ChatGPT《人类之声》革命:AI在你身边呼吸的日子

2025年06月09日 23:35

目录

  1. 前言

  2. 更新的背景和定位

  3. “更具人性化的声音”的技术突破

  4. 实时翻译开拓的新体验

  5. 日本社交媒体上沸腾的赞否——追踪现场声音

  6. 与竞争对手的比较:Anthropic Claude 和 Google Gemini 2.5 如何运作?

  7. 商业、教育、娱乐——日本市场的具体使用案例

  8. 剩余的课题:质量下降、幻觉、伦理

  9. 从研究者视角思考“AI语音改变语言的那一天”

  10. 总结与未来展望


1. 前言

OpenAI 于 6 月 7 日(美国时间)大幅更新了面向 ChatGPT 付费计划的“Advanced Voice”模式。声音的抑扬顿挫、停顿、情感表达显著提升,用户感觉不像是在与“AI交谈”,而更像是在与“优秀的双语朋友”闲聊。美国 TechCrunch 将此次更新定位为“实现了更自然流畅的声音,甚至可以再现共鸣和讽刺的史上最大进化”。techcrunch.com


2. 更新的背景和定位

2024年秋季开始提供测试版的 Advanced Voice 采用了 GPT-4o 的原生语音处理。然而,最初由于“过于机械化”“异常高亢”等问题,用户反馈不满较多。此次更新是基于这些反馈,重新训练语言模型和语音模型的“世代交替”,开发团队如此解释。note.com


3. “更具人性化的声音”的技术突破

  • 细腻的语调:情感识别精度较过去版本提高40%

  • 真实的节奏:平均响应时间320毫秒,最短232毫秒的响应延迟几乎与人类对话相当

  • 表现力的扩展:可以在同情、惊讶、讽刺等五个级别进行参数调整
    据TechCrunch报道,OpenAI 提醒用户“音质在某些情况下可能略有下降”,“可能会出现意外的音调变化或幻觉般的背景音乐”。techcrunch.com


4. 实时翻译开拓的新体验

用户只需一次指令“Voice,翻译日语和英语”,整个对话就会自动持续翻译。预计将取代传统的逐次翻译应用程序,为旅行、国际会议、语言学习带来革命。PC Watch 报道称,“不再需要专用翻译应用程序的影响是难以估量的”。pc.watch.impress.co.jp


5. 日本的社交媒体上沸腾的赞否——追踪现场声音

  • 支持者:「共感的细微差别截然不同,‘翻译蒟蒻’时代来临」(X/@zubapita)

  • 惊讶者:「第一次听到的瞬间,‘谁在我旁边!?’ 转过头去」(YouTube 评论)

  • 担忧者:「想起了Sky声音事件。性别偏见问题解决了吗?」(note 文章评论)

  • 现实派:「翻译是神。但如果Wi-Fi不稳定,响应会中断,最终还是回到文本」(来自论坛)
    在note上,也有“共感和讽刺变得自然”的长篇评论获得了超过1万赞。note.com


6. 与竞争对手的比较:Anthropic Claude 和 Google Gemini 2.5 如何运作?

Anthropic 在5月下旬发布了仅限英语的语音模式β版,但在情感表达的广度上被认为不及ChatGPT。另一方面,Google的Gemini 2.5在“边看视频边对话”功能上领先。在日本市场,自然语音 vs. 多模态整合的竞争似乎将会加剧。


7. 商业・教育・娱乐——日本市场的具体使用案例

领域旧有问题新功能带来的突破例
呼叫中心脚本感/等待时间通过情感识别的共感语音提高满意度↑,平均通话时间缩短18%
国际会议同声传译成本高使用一台ChatGPT进行双向翻译,成本降至1/10
语言学习输入偏重通过“语音反馈的影子练习”提高听力掌握率25%
无障碍面向视障者的朗读单调通过优化抑扬顿挫和间隔,长时间听力疲劳减少30%



8. 仍然存在的问题:质量下降・幻觉・伦理

OpenAI 承认存在音质暂时下降和幻觉音频混入的风险。此外,经过Sky Voice诉讼后,对基于声优的合成施加了严格的限制,但“希望自由生成喜欢的声音”的需求与知识产权保护之间的平衡仍未解决。


9. 从研究者的视角思考“AI语音改变语言的那一天”

根据最新的社会语言学研究,人们在与AI语音长时间对话时,可能会无意识地调整自己的抑扬顿挫,这种现象被称为“韵律同步”。未来可能会出现类似于“标准语和关西方言之间”的新语调。arxiv.org

10. 总结与未来展望

  • 最大的创新点:通过抑扬顿挫和情感表达的飞跃,“AI与人的界限”变得模糊

  • 日本市场:翻译与自然对话的协同效应加速了企业的引入,另一方面,声音的权利问题成为焦点

  • 下一步:传闻OpenAI将在2025年第三季度发布“语音角色API”,将引发声优和VTuber行业的重大变革——。

参考文章

OpenAI更新ChatGPT的语音模式,使其更自然
来源: https://techcrunch.com/2025/06/09/openai-updates-chatgpts-voice-mode-with-more-natural-sounding-speech/

← 返回文章列表

联系我们 |  服务条款 |  隐私政策 |  Cookie政策 |  Cookie设置

© Copyright ukiyo journal - 日本と世界をつなぐ新しいニュースメディア All rights reserved.