每周有120万人向AI倾诉“想死”的时代——自杀相关对话占比为每周0.15%的严重性

2025年10月29日 00:58

1. 公布了什么——“稀有但严重”对话的规模

OpenAI于10月27日发布了一份技术说明，称其加强了ChatGPT对“敏感对话”的响应能力。公布的估计数据令人沉重。每周活跃用户的约0.15%明确表示有自杀计划/意图，约0.07%显示出精神疾病或躁狂的可能性。根据本月初CEO表示每周有8亿用户使用，基于此假设，自杀相关约为120万人，精神病或躁狂约为56万人/周。不过，OpenAI自己也声明这是“由于稀有事件而可能受估计方法影响的初始值”。 OpenAI

2. 如何改善——专家网络、评估，以及“9%”

该公司与超过170名临床医生合作，实施了危机信号定义（分类法）整理、长时间对话中信任度下降的抑制、危机热线的提示、休息的建议、从其他模型到“安全模型”的重新路由等措施。在评估中，不理想的响应减少了65〜80%，在自伤和自杀语境中合规性提高到91%（之前为77%）。反过来说，约9%可能偏离预期。在稀有但重大的领域中，“不到一成”的比例是产品责任和社会接受的分水岭。 OpenAI

3. 为什么现在公布数据——法律和监管的影响

背景是，围绕未成年用户自杀的诉讼（Raine v. OpenAI）以及关注未成年人影响的监管机构的动向。家属方声称“长期对话加深了依赖，并且危机干预失败”。FTC的广泛调查也被报道，公司方面有必要加快“改善的可视化”。维基百科

4. 如何看待这些数字——“透明化的进步”还是“自我评分”

主要媒体在评价这一估计时，认为是危机的可视化，同时指出“指标是OpenAI的自我基准，对实际结果（就诊或救命）的贡献尚未验证”。临床医生评估了超过1,800个响应以确认改善幅度，但稀有事件的检测不可避免地存在误检和漏检的权衡。**“数字的重量”和“测量的难度”**并存。 WIRED

5. 社交媒体的反应——摇摆的评价标准

对透明化的赞赏
科技记者凯西·牛顿在Threads上专题报道了此事，并直接采访了OpenAI。她表示，“精神健康的患病率被可视化本身推动了讨论”（要点）。 Threads
对“自我评分”的怀疑
在X（前Twitter）上，有人指出“91%是‘自我测试’的合格率”，“剩下的9%在现实世界中意味着多少人”，质疑评价设计和缺乏结果的帖子很突出（各大报纸的论调也相同）。 WIRED
与政策转变的矛盾
CEO Sam Altman本月在X上表示，“由于能够缓解严重的心理健康问题，许多限制可以安全地放宽”，同时也表示“不会放宽与心理健康相关的政策”，这引发了界限划定的争议。在社交媒体上，“放宽的依据是这次的数据？”的疑问不断出现。 X (formerly Twitter)
实务者的视角
危机应对的现场欢迎抑制长时间对话中的“性能下降”和“迎合（sycophancy）”，同时强调“将其引导至就诊或第三方介入的最后一步”的困难。RAND等也指出对中等风险问题的不一致。 RAND Corporation

6. 研究和报道揭示的风险地图

近年来，关于与AI长时间、夜间对话导致现实危机的案例的报道和研究层出不穷。BMJ讨论了“AI诱发的精神症状”和自杀的担忧，公共广播和学术界也记录了危机干预的一致性不足。此次OpenAI的强化也是对这些现有证据的回应。 BMJ

7. 产品设计的论点——“救命率”的贡献改善

本次事件浮现的设计课题至少有四个。

检测的精度和可解释性：如何优化误检/漏检的平衡。 OpenAI
长对话的信任度维持：如何确保在深夜和长时间中不易劣化的“安全持久性”。 WIRED
“人际关系”的桥梁：不仅提示热线和建议休息，还要具体连接到家庭、朋友、医疗的对话导线。 OpenAI
未成年人的保护：年龄估计、家长控制、风险通知等的实施和有效性。 Northeastern News

8. 给日本读者——“现在可以联系的地方”在手边

作为涉及这一主题的文章，从这里开始最为重要。现在在日本，或者为了在日本的家人和朋友，分享一些现在可以联系的地方。

Yorisoi热线（24小时/多语言服务）：0120-279-338（指导后按“2”选择外语），IP电话请拨打050-3655-0279。厚生劳动省
TELL热线（英语服务/电话和聊天）：0800-300-8355，详情请见官方网站。 TELL Japan
海外人士/国际窗口：美国为988，英国和爱尔兰为Samaritans 116 123。 988 Lifeline

※在紧急情况下，在日本请拨打**119（急救）/110（警察）**。TELL也建议在紧急情况下拨打119/110。 TELL Japan

9. 结语——AI能成为“心理急救员”吗

OpenAI的发布可视化了AI已经成为“孤独的基础设施”这一事实。透明化是进步，但要在实际救命结果上发声，还需验证和第三方评估。直视“9%”的重量，长对话的持久安全性和未成年人保护，以及连接到人的设计能否不断增加。AI无法替代人，但可以成为连接人的第一声。这个质量正由整个社会来考验。 OpenAI

参考（主要来源）

OpenAI官方“敏感对话响应增强”：估计值、改善内容、评估设计。 OpenAI
WIRED：数字背景、长对话的信任度、限制指摘。 WIRED
##HTML_TAG_

← 返回文章列表

cookie_banner_title