跳转到主要内容
ukiyo journal - 日本と世界をつなぐ新しいニュースメディア 标志
  • 全部文章
  • 🗒️ 注册
  • 🔑 登录
    • 日本語
    • English
    • Español
    • Français
    • 한국어
    • Deutsch
    • ภาษาไทย
    • हिंदी
cookie_banner_title

cookie_banner_message 隐私政策 cookie_banner_and Cookie政策 cookie_banner_more_info

Cookie设置

cookie_settings_description

essential_cookies

essential_cookies_description

analytics_cookies

analytics_cookies_description

marketing_cookies

marketing_cookies_description

functional_cookies

functional_cookies_description

屏幕时代要结束了吗?OpenAI全力押注“语音”的理由

屏幕时代要结束了吗?OpenAI全力押注“语音”的理由

2026年01月03日 09:55

OpenAI押注于“音频”。屏幕主角地位的终结日是否即将到来

在2026年初,OpenAI的下一步计划浮现为“音频”。据报道,OpenAI在过去两个月内整合了多个工程/产品/研究团队,正在推进音频模型的彻底革新。目标不仅仅是让ChatGPT的声音更流畅,而是为预计在一年后推出的“音频优先的个人设备”重建基础的音频AI——这是一个发令枪声。 TechCrunch



1) 发生了什么?──将“自然性”和“抗干扰性”作为音频AI的标准

这次的重点有两个。

(1) 新的音频模型将改变“对话的触感”
新模型预计不仅能实现更自然的说话方式和情感表达,还能在对话中更好地处理打断(对方开始说话时停止/跟随重述)。此外,还暗示了增强实时性,使其能够在用户说话时“附和式地”回应。 TechCrunch


(2) 发布目标是“快速”
目标时间被描述为“2026年初”“第一季度”,暗示新架构将在3月左右推出。 TechCrunch


这里重要的是,将音频AI从“文本的附加”提升为“第一个窗口”的决策。如果要推出以音频为主的设备,不能在精度、速度和稳定性上逊于文本。实际上,目前的音频模型被指出尚未达到文本的精度和响应性。 The Decoder



2) 为什么现在“屏幕离开”──“操作界面”太多了

“屏幕退居背景,音频成为中心的未来”——这一观点并非OpenAI独有。在家、车、可穿戴设备等各种场合成为UI(操作界面)的时代,仅靠视线和指尖来处理一切是困难的。TechCrunch引用了音频助手已在美国家庭中广泛普及,以及面部(即智能眼镜)成为指向性麦克风式“听觉设备”的趋势。 TechCrunch


而且,音频的增长不仅仅是因为“便利性”。

  • 在进行多任务时(烹饪、驾驶、育儿、家务)表现出色

  • 减少视线争夺(通知和社交媒体疲劳的反作用)

  • 与可访问性(在视觉或手的自由度受限的情况下)相匹配

总之,“看屏幕”本身正逐渐成为现代的瓶颈。



3) 硅谷“音频转向”的同时发生──Google、Meta、Tesla,甚至到戒指

这次的有趣之处在于,OpenAI的行动并非“单独的赌注”,而是整个行业的浪潮。


Google:将搜索结果转换为“对话的音频摘要”

Google在搜索中测试“Audio Overviews”,展示了将搜索结果转换为对话式音频摘要的方向。更有甚者,在音频播放器上显示参考链接,提供在聆听时跳转到出处的路径。 TechCrunch


Meta:通过智能眼镜扩展“听觉”

Meta在Ray-Ban/Oakley系列智能眼镜中推出了在嘈杂环境中强调对话对象声音的功能更新,从实用方向上为面部设备的必要性奠定了基础。 TechCrunch


Tesla:将车内UI转向“对话”

Tesla在车内整合了xAI的Grok,构想通过自然对话处理导航和空调等功能。由于车是“不能夺取视线的空间”,因此音频UI更容易成为首选。 TechCrunch


初创公司:戒指、吊坠、别针……但成功例子仍然很少

与此同时,形态因素的实验也异常激烈。

  • Sandbar的“Stream Ring”提出了“音频鼠标”的概念,设计为通过戒指进行音频输入→应用程序整理。 TechCrunch

  • Pebble创始人的戒指“Index 01”也强调“不是常时监听,而是通过按钮录音”,展示了对音频隐私担忧的设计理念。 TechCrunch

  • 然而,屏幕无的梦想也包含痛苦的失败。Humane的AI Pin在被HP以1.16亿美元收购资产后短命而终。 TechCrunch

  • “记录生活”的吊坠往往会碰到隐私和社会视线的壁垒。 TechCrunch


在这片雷区中,OpenAI正试图将“音频优先的个人设备”作为“下一个本命”来夺取市场。



4) OpenAI转向硬件的理由──“在‘居所’中占据AI的位置”

OpenAI押注于音频的背后,透出一种通过硬件占据“AI的居所”的战略。

报道中提到,前Apple设计负责人乔尼·艾夫参与的硬件项目,以及纠正过去消费电子产品所带来的“依赖”的背景。 TechCrunch


此外,外部报道也反复传达了OpenAI计划在第一季度推出“优化音频的新模型,设备则稍后”的消息。 The Decoder


这里的论点不仅仅是“音频很方便”,而是更为现实的。


如果AI要进入生活的中心,掌握入口(设备/操作系统/账户)的人将获胜。
因此,OpenAI不仅想成为“在他人设备上运行的智能引擎”,而是希望拥有自己的实体(设备)——这种解读是自然的。实际上,行业分析中也有“这是为了不让ChatGPT仅仅成为‘引擎’的铺垫”的看法。 Implicator.ai



5) 面临的障碍──音频UI“便利”之前的“恐惧”

音频成为中心时,无法回避的下一个课题。

  • 隐私:麦克风会拾取周围声音。常时监听尤其不受欢迎

  • 社会接受:在电车内或会议室中“对AI说话”的障碍

  • 误识别和误操作:一点小错就会破坏体验(因此抗干扰性很重要)

  • 失败的记忆:如AI Pin,理想先行导致的失速例子仍然新鲜 TechCrunch


在这方面,戒指型设备采用“按钮录音”的设计是具有象征意义的。市场更倾向于“自己决定何时说话”而不是“随时可以说话”。 TechCrunch



6) 社交媒体的反应──期待与警惕,以及对“言辞”的吐槽

那么,这些“音频优先”的报道在社交媒体上是如何被接收的呢?大致来说,反应分为期待/警惕/怀疑三类。


期待派:“当双手被占用时,AI正合适”“如果能对话,世界将改变”

在Blind的讨论中,提出了如果音频AI真的达到“对话伙伴”水平,工作和协作将如何变化的积极问题。 Blind
“最终,人们想要的不是UI,而是‘结果’”,有一部分人认为音频是通往结果的捷径。


警惕派:“常时麦克风不行”“很多场合屏幕更快”

同样在Blind中,也有声音认为“难以想象放弃屏幕的世界。在某些场合文本更好”。 Blind##

← 返回文章列表

联系我们 |  服务条款 |  隐私政策 |  Cookie政策 |  Cookie设置

© Copyright ukiyo journal - 日本と世界をつなぐ新しいニュースメディア All rights reserved.