屏幕时代要结束了吗？OpenAI全力押注“语音”的理由

2026年01月03日 09:55

OpenAI押注于“音频”。屏幕主角地位的终结日是否即将到来

在2026年初，OpenAI的下一步计划浮现为“音频”。据报道，OpenAI在过去两个月内整合了多个工程/产品/研究团队，正在推进音频模型的彻底革新。目标不仅仅是让ChatGPT的声音更流畅，而是为预计在一年后推出的“音频优先的个人设备”重建基础的音频AI——这是一个发令枪声。 TechCrunch

1) 发生了什么？──将“自然性”和“抗干扰性”作为音频AI的标准

这次的重点有两个。

(1) 新的音频模型将改变“对话的触感”
新模型预计不仅能实现更自然的说话方式和情感表达，还能在对话中更好地处理打断（对方开始说话时停止/跟随重述）。此外，还暗示了增强实时性，使其能够在用户说话时“附和式地”回应。 TechCrunch

(2) 发布目标是“快速”
目标时间被描述为“2026年初”“第一季度”，暗示新架构将在3月左右推出。 TechCrunch

这里重要的是，将音频AI从“文本的附加”提升为“第一个窗口”的决策。如果要推出以音频为主的设备，不能在精度、速度和稳定性上逊于文本。实际上，目前的音频模型被指出尚未达到文本的精度和响应性。 The Decoder

2) 为什么现在“屏幕离开”──“操作界面”太多了

“屏幕退居背景，音频成为中心的未来”——这一观点并非OpenAI独有。在家、车、可穿戴设备等各种场合成为UI（操作界面）的时代，仅靠视线和指尖来处理一切是困难的。TechCrunch引用了音频助手已在美国家庭中广泛普及，以及面部（即智能眼镜）成为指向性麦克风式“听觉设备”的趋势。 TechCrunch

而且，音频的增长不仅仅是因为“便利性”。

在进行多任务时（烹饪、驾驶、育儿、家务）表现出色
减少视线争夺（通知和社交媒体疲劳的反作用）
与可访问性（在视觉或手的自由度受限的情况下）相匹配

总之，“看屏幕”本身正逐渐成为现代的瓶颈。

3) 硅谷“音频转向”的同时发生──Google、Meta、Tesla，甚至到戒指

这次的有趣之处在于，OpenAI的行动并非“单独的赌注”，而是整个行业的浪潮。

Google：将搜索结果转换为“对话的音频摘要”

Google在搜索中测试“Audio Overviews”，展示了将搜索结果转换为对话式音频摘要的方向。更有甚者，在音频播放器上显示参考链接，提供在聆听时跳转到出处的路径。 TechCrunch

Meta：通过智能眼镜扩展“听觉”

Meta在Ray-Ban/Oakley系列智能眼镜中推出了在嘈杂环境中强调对话对象声音的功能更新，从实用方向上为面部设备的必要性奠定了基础。 TechCrunch

Tesla：将车内UI转向“对话”

Tesla在车内整合了xAI的Grok，构想通过自然对话处理导航和空调等功能。由于车是“不能夺取视线的空间”，因此音频UI更容易成为首选。 TechCrunch

初创公司：戒指、吊坠、别针……但成功例子仍然很少

与此同时，形态因素的实验也异常激烈。

Sandbar的“Stream Ring”提出了“音频鼠标”的概念，设计为通过戒指进行音频输入→应用程序整理。 TechCrunch
Pebble创始人的戒指“Index 01”也强调“不是常时监听，而是通过按钮录音”，展示了对音频隐私担忧的设计理念。 TechCrunch
然而，屏幕无的梦想也包含痛苦的失败。Humane的AI Pin在被HP以1.16亿美元收购资产后短命而终。 TechCrunch
“记录生活”的吊坠往往会碰到隐私和社会视线的壁垒。 TechCrunch

在这片雷区中，OpenAI正试图将“音频优先的个人设备”作为“下一个本命”来夺取市场。

4) OpenAI转向硬件的理由──“在‘居所’中占据AI的位置”

OpenAI押注于音频的背后，透出一种通过硬件占据“AI的居所”的战略。

报道中提到，前Apple设计负责人乔尼·艾夫参与的硬件项目，以及纠正过去消费电子产品所带来的“依赖”的背景。 TechCrunch

此外，外部报道也反复传达了OpenAI计划在第一季度推出“优化音频的新模型，设备则稍后”的消息。 The Decoder

这里的论点不仅仅是“音频很方便”，而是更为现实的。

如果AI要进入生活的中心，掌握入口（设备/操作系统/账户）的人将获胜。
因此，OpenAI不仅想成为“在他人设备上运行的智能引擎”，而是希望拥有自己的实体（设备）——这种解读是自然的。实际上，行业分析中也有“这是为了不让ChatGPT仅仅成为‘引擎’的铺垫”的看法。 Implicator.ai

5) 面临的障碍──音频UI“便利”之前的“恐惧”

音频成为中心时，无法回避的下一个课题。

隐私：麦克风会拾取周围声音。常时监听尤其不受欢迎
社会接受：在电车内或会议室中“对AI说话”的障碍
误识别和误操作：一点小错就会破坏体验（因此抗干扰性很重要）
失败的记忆：如AI Pin，理想先行导致的失速例子仍然新鲜 TechCrunch

在这方面，戒指型设备采用“按钮录音”的设计是具有象征意义的。市场更倾向于“自己决定何时说话”而不是“随时可以说话”。 TechCrunch

6) 社交媒体的反应──期待与警惕，以及对“言辞”的吐槽

那么，这些“音频优先”的报道在社交媒体上是如何被接收的呢？大致来说，反应分为期待/警惕/怀疑三类。

期待派：“当双手被占用时，AI正合适”“如果能对话，世界将改变”

在Blind的讨论中，提出了如果音频AI真的达到“对话伙伴”水平，工作和协作将如何变化的积极问题。 Blind
“最终，人们想要的不是UI，而是‘结果’”，有一部分人认为音频是通往结果的捷径。

警惕派：“常时麦克风不行”“很多场合屏幕更快”

同样在Blind中，也有声音认为“难以想象放弃屏幕的世界。在某些场合文本更好”。 Blind##

屏幕时代要结束了吗？OpenAI全力押注“语音”的理由

OpenAI押注于“音频”。屏幕主角地位的终结日是否即将到来

1) 发生了什么？──将“自然性”和“抗干扰性”作为音频AI的标准

2) 为什么现在“屏幕离开”──“操作界面”太多了

3) 硅谷“音频转向”的同时发生──Google、Meta、Tesla，甚至到戒指

Google：将搜索结果转换为“对话的音频摘要”

Meta：通过智能眼镜扩展“听觉”

Tesla：将车内UI转向“对话”

初创公司：戒指、吊坠、别针……但成功例子仍然很少

4) OpenAI转向硬件的理由──“在‘居所’中占据AI的位置”

5) 面临的障碍──音频UI“便利”之前的“恐惧”

6) 社交媒体的反应──期待与警惕，以及对“言辞”的吐槽

期待派：“当双手被占用时，AI正合适”“如果能对话，世界将改变”

警惕派：“常时麦克风不行”“很多场合屏幕更快”

AI革命！ChatGPT全面支持您的在线购物和演示准备

AI时代的陷阱：复制粘贴脑的诞生？长期使用ChatGPT记忆力下降55%

GPT-5变得“温柔”了吗——温度感调节的幕后故事

2025年，AI从“说话”到“行动”——AI代理元年的真相与2026年的任务

“购买”的主角从人类转向AI？在零售盛典上加速的代理型电商

cookie_banner_title

OpenAI押注于“音频”。屏幕主角地位的终结日是否即将到来

1) 发生了什么？──将“自然性”和“抗干扰性”作为音频AI的标准

2) 为什么现在“屏幕离开”──“操作界面”太多了

3) 硅谷“音频转向”的同时发生──Google、Meta、Tesla，甚至到戒指

Google：将搜索结果转换为“对话的音频摘要”

Meta：通过智能眼镜扩展“听觉”

Tesla：将车内UI转向“对话”

初创公司：戒指、吊坠、别针……但成功例子仍然很少

4) OpenAI转向硬件的理由──“在‘居所’中占据AI的位置”

5) 面临的障碍──音频UI“便利”之前的“恐惧”

6) 社交媒体的反应──期待与警惕，以及对“言辞”的吐槽

期待派：“当双手被占用时，AI正合适”“如果能对话，世界将改变”

警惕派：“常时麦克风不行”“很多场合屏幕更快”

AI革命！ChatGPT全面支持您的在线购物和演示准备

AI时代的陷阱：复制粘贴脑的诞生？长期使用ChatGPT记忆力下降55%

GPT-5变得“温柔”了吗——温度感调节的幕后故事

2025年，AI从“说话”到“行动”——AI代理元年的真相与2026年的任务

“购买”的主角从人类转向AI？ 在零售盛典上加速的代理型电商

“购买”的主角从人类转向AI？在零售盛典上加速的代理型电商