AI是否已经超越急诊医生?哈佛研究揭示的“诊断的未来”

AI是否已经超越急诊医生?哈佛研究揭示的“诊断的未来”

AI是否已经超越急诊医生?哈佛研究揭示“诊断的未来”

面对被送到急诊室的患者,从有限的信息中做出初步判断。
这种判断有时几分钟、几秒钟的延误就可能关系到生命。

在这个极度紧张的医疗环境中,AI给出了比人类医生更准确的诊断——这样的新闻不仅在医疗界,在科技行业和社交媒体上也引起了巨大反响。

TechCrunch报道了哈佛大学医学院和Beth Israel Deaconess Medical Center研究团队的新研究。研究中,OpenAI的推理模型“o1”和“GPT-4o”等在多个医疗任务中与人类医生进行了比较。其中最受关注的是使用实际急诊室病例进行的诊断能力比较。

研究对象是76名在Beth Israel急诊室就诊的患者。研究团队根据电子病历中的信息,让两位内科主治医生和AI模型提出诊断。随后,另外两位医生在不知道诊断是由人类还是AI做出的情况下进行评估。

结果令人震惊。在初期分诊阶段,OpenAI的o1在67%的案例中提出了“准确或非常接近的诊断”。而人类医生分别为55%和50%。也就是说,至少在这个研究条件下,AI在从有限的初始信息中缩小病名范围的工作中超过了人类医生。

此外,在可以利用更多信息的阶段,o1的诊断精度据报道提高到了约82%。人类医生的精度也提高到了70%到79%,但AI显示出与之相当或略高的水平。

仅从这些数字来看,人们可能会想说“AI终于超越了医生”。实际上,社交媒体上也有不少这样的看法。然而,这项研究真正揭示的是一个更复杂、更现实的医疗AI形象。


AI擅长的是“纸面上的临床推理”

在这项研究中,AI处理的是记录在电子病历中的文本信息。包括患者的生命体征、年龄、既往病史、护士的简短记录、检查信息等,医生用于诊断的部分信息。

重要的是,AI并没有观察患者的面色,也没有观察呼吸困难,也没有进行腹部触诊。患者的声音颤抖、走路方式、出汗情况、陪同家属的反应、医务人员之间的气氛等,医生在现场无意识中获取的信息并未包括在内。

换句话说,这次的AI并不是“在急诊室看诊患者”,而是“从急诊室记录的文本信息中思考诊断”。

这一点也被社交媒体上的医疗人员和技术人员强烈指出。在Hacker News上,“医生实际上并不是仅凭笔记来诊断急诊患者”的评论获得了支持。AI被评估的任务是对现实急诊医疗的一部分进行切割,仅凭结果得出“AI将取代急诊医生”的结论为时过早。

在Reddit上也有类似的反应,“比较对象可能不是急诊医生而是内科医生”,“急诊室的主要目的是不遗漏危及生命的状况,而不是准确命中最终诊断”。这是一个非常重要的论点。

在急诊医疗中,不仅要问“这位患者的最终诊断是什么”,还要问“现在是否有生命危险”、“是否需要立即处理”、“是否可以让其回家”、“是否应转交给专科”。准确命中诊断名的能力与不遗漏危险状态并安全分流的能力有重叠但并不相同。


然而不可忽视的“67%”的意义

尽管如此,将此次结果简单视为过高评价也是危险的。

急诊室的初期阶段信息很少。检查结果往往还没有出来,患者本人也可能无法很好地描述症状。在老年人、意识障碍患者、语言障碍患者中,难度更高。

在这样的场景中,如果AI能够横向读取电子病历中的信息,并广泛提示鉴别诊断的候选项,那么它可能成为医生的有用“第二只眼睛”。

The Guardian介绍的一个病例中,肺栓塞患者在治疗后病情恶化,医生怀疑抗凝药无效。而AI则关注到患者的狼疮病史,提示可能引起肺部炎症。最终,AI的指示是正确的。

这样的事例很好地体现了医疗AI的优势。人类医生会受到有限的时间、疲劳、负责的患者数量、刚刚的经验、专业领域偏见的影响。AI则不知疲倦,可以一口气读取电子病历中的海量信息,拾取容易被忽视的既往病史和检查值的组合。

当然,AI也有偏见和错误。但如果它的遗漏方式与人类不同,那么医生与AI的组合可能比单独的医生更能提高安全性。


“AI vs 医生”而非“医生+AI”

这项研究的本质并不是“AI将取代医生”。而是更接近于“医生应该如何使用AI”的问题。

研究人员自己也没有声称AI可以单独承担急诊室中生死攸关的判断。相反,他们认为需要在实际患者护理中进行安全性和有效性验证的前瞻性临床试验。

围绕医疗AI的讨论中常见的误解是,将AI的能力评估为“人类的完全替代”。然而在现实的医疗现场,图像诊断AI、药物相互作用检查、病历创建支持、风险预测模型等,许多AI系统已经被辅助使用。

这项研究表明,生成AI和大规模语言模型正从简单的文本生成工具演变为“临床推理支持工具”。

整合患者的症状、既往病史、检查值、过去的诊疗记录,提出“是否应该考虑这种疾病”、“是否应该添加这种检查”、“这种药物选择是否有风险”。如果这样使用,AI就不是医生的替代,而是扩展诊断网的助手。

The Guardian介绍的Adam Rodman医生的观点也接近于此。未来的医疗可能会向“医生、患者、AI”三者共同的模式发展。


社交媒体上扩散的期待与警惕

 

社交媒体上的反应大致分为三类。

第一类是对AI医疗的期待。在Hacker News上,有人认为“从长远来看,在医疗这样需要知识、经验和模式识别的领域,AI很可能会超越人类”。就像AI在软件开发中迅速展现实力一样,如果医学中的专业模型进化,超越许多医生的领域将增加。

持这种立场的人们也关注医疗现场的现实。医生很忙,能用在一个患者身上的时间有限。病历庞大,专业知识每天都在更新。如果AI被适当引入,可能会减少遗漏,提高地方和医生短缺地区的医疗水平。

第二类是对研究设计的谨慎态度。在Reddit上,“标题具有误导性”的反应很突出。批评的点包括比较对象不是“急诊医生”而是“内科主治医生”,急诊医疗的目的不一定是最终诊断的命中,AI并没有实际诊察患者。

在Hacker News上也有“这样的基准很容易被扭曲”、“不应从单一研究中得出强烈结论”的声音。在AI评估中,数据集中可能包含无意的提示,任务设置可能与实际操作不同。在医学这样高风险的领域,需要将基准上的胜利与临床现场的安全性分开考虑。

第三类是对责任和伦理的担忧。在Reddit上,有多个反应是“如果AI的诊断错误导致患者死亡,谁来负责”的意思。医生有医疗过失、说明责任、作为专业人员的义务。然而在AI模型的情况下,责任是归于开发公司、引入的医院、使用的医生还是监管机构,这一点尚不明确。

这个问题是医疗AI普及中最大的障碍之一。不仅要看AI是否给出正确的诊断,还要看在出错时谁来验证,谁来说明,谁来面对患者。如果这方面没有完善,全面信任AI在医疗现场是困难的。


“便利的第二意见”与“危险的自动化”的界限

基于这项研究,医疗AI最现实的使用方式目前可能是“第二意见”。

例如,当医生考虑诊断时,AI提供鉴别候选项。提示容易遗漏的疾病、严重但罕见的疾病、从药物史或既往病史中浮现的风险。医生在参考这些的同时,基于自己的诊察、检查和与患者的对话做出最终判断。

这种形式可以在发挥AI优势的同时保留人类的责任和判断。特别是在急诊室这样时间有限、判断压力大的环境中,AI可能具有减少“思考遗漏”的效果。

另一方面,危险的是直接接受AI建议的自动化。当AI自信地提出错误诊断时,人类可能会被其影响。The Guardian介绍的专家评论中也指出,医生可能会无意识地遵循AI的答案。

这接近于所谓的“自动化偏见”问题。人类容易将计算机给出的答案视为客观且准确的。特别是在忙碌的现场,“AI也这么说”的安心感可能削弱独立思考的危险。

因此,如果引入医疗AI,仅仅放置高精度模型是不够的。需要设计医生如何验证AI的建议,如何检测AI的错误,如何向患者解释,如何在记录中保留。


对患者的好处与风险

从患者的角度来看,AI诊断支持有很大的期待。

医生的遗漏可能会减少。罕见疾病的发现可能会加快。在地方的小型医院也能获得大医院水平的知识支持。即使在夜间或假期,专科医生不在场的情况下,AI也可能提供重要的候选项。

另一方面,患者直接将症状输入AI,在没有医生诊察的情况下自行判断的风险也在增加。这项研究仅仅是使用医疗现场的数据,在医生评估中比较AI。并不是说普通人可以自由使用的聊天机器人输入症状就能得到相同的精度。

相反,AI的回答会因患者自己如何表达症状而大大改变。如果遗漏了重要症状,或者省略了患者认为不重要的信息,AI可能会被引导到错误的方向。医生的问诊和身体检查有拾取患者无法用言语表达的信息的作用。

因此,这项研究并不是“让AI看诊就不需要医院”的信息。更准确地说是“如果医生能适当地使用AI,可能会提高诊断质量”的信息。


医生的工作会消失吗

在社交媒体上,像往常一样,“医生是否也会被AI取代”的讨论正在进行。

然而,医生的工作不仅仅是命中诊断名。倾听患者的担忧。解释检查的必要性。提供治疗选择。考虑副作用和生活背景。与家属交谈。支持临终期的决策。告知预后不佳。还要连接医疗制度、保险和地区资源。

这些不仅仅是信息处理。是包含价值判断、信任关系、身体处理、伦理责任的工作。

即使AI能够提供诊断候选,患者仍会问“那么我该怎么办”、“我是否应该接受这种治疗”、“我该如何向家人解释”。在这种情况下,人类医生的角色反而变得更加重要。

不过,医生的工作方式可能会改变。AI读取病历,提供鉴别诊断,提示检查候选,制定治疗计划的草案。医生验证这些,并根据患者的背景做出判断。也就是说,医生可能会从“仅在脑中处理一切的专家”转变为“整合包括AI在内的多种信息源并做出负责任判断的专家”。


这项研究真正提出的问题

这项研究并不是医疗AI的胜利宣言。
同时,这也不是说可以低估AI。

相反,它向我们提出了以下问题。

当AI能够比人类想到更多诊断候选时,医生应该如何使用它。
当AI既可能正确也可能出错时,责任的界限应该如何划分。
即使AI的引入提高了医疗质量,如何保护患者的信任和说明责任。
以及如何防止在能够使用AI的医院和不能使用AI的医院之间产生新的医疗差距。

哈佛研究的数字确实具有冲击力。初期分诊中67%对50〜55%的差异意味着医疗AI不再仅仅是实验性的玩具,而是在接近临床任务中开始展现力量。

然而,这并不是“AI战胜医生”的简单故事。
更准确地说,是“从仅靠医生看诊的时代,开始向包括AI看诊的时代过渡”。

在急诊室中最重要的不是谁赢,而是患者是否得救。

如果AI能够减少医生的遗漏,医生能够识别AI的错误,患者能够获得更安全的医疗,那么这种组合具有巨大的价值。但为此,不仅需要技术的精度,还需要制度、责任、教育、伦理和现场设计。

这项研究使医疗AI的未来更接近现实。
接下来要问的不是AI有多聪明。
而是人类社会能多安全地使用这种聪明。



##HTML_TAG_170