AI가 응급 의사를 능가했는가? 하버드 연구가 제시한 '진단의 미래'

AI가 응급 의사를 능가했는가? 하버드 연구가 제시한 '진단의 미래'

AI가 응급의사를 능가했는가? 하버드 연구가 제시한 '진단의 미래'

응급실에 실려 온 환자를 앞에 두고, 제한된 정보로 첫 판단을 내린다.
그 판단은 때로는 몇 분, 몇 초의 지연이 생명에 영향을 미친다.

이 극도로 긴장된 의료 현장에서, AI가 인간 의사보다 더 정확한 진단을 내렸다는 뉴스가 의료 관계자뿐만 아니라, 테크 업계와 SNS에서도 큰 파문을 일으키고 있다.

TechCrunch가 보도한 것은 하버드 대학교 의과대학과 Beth Israel Deaconess Medical Center의 연구팀에 의한 새로운 연구이다. 연구에서는 OpenAI의 추론 모델 'o1'이나 'GPT-4o' 등이 여러 의료 작업에서 인간 의사와 비교되었다. 그 중에서도 특히 주목을 받은 것은 실제 응급실 사례를 사용한 진단 능력의 비교이다.

대상은 Beth Israel의 응급실을 방문한 76명의 환자였다. 연구팀은 전자 의료 기록에 있는 정보를 바탕으로, 두 명의 내과 주치의와 AI 모델에 진단을 제시하게 했다. 그 후, 다른 두 명의 의사가 어느 진단이 인간에 의한 것인지 AI에 의한 것인지 알리지 않은 상태로 평가했다.

결과는 충격적이었다. 초기 트리아지 단계에서 OpenAI의 o1은 '정확하거나 매우 가까운 진단'을 67%의 사례에서 제시했다. 반면, 인간 의사는 각각 55%와 50%였다. 즉, 적어도 이 연구 조건에서는 AI가 제한된 초기 정보로 병명을 좁히는 작업에서 인간 의사를 능가했다는 것이다.

더 많은 정보가 이용 가능한 단계에서는, o1의 진단 정확도는 보도 기준으로 약 82%까지 상승했다고 한다. 인간 의사도 70~79%까지 정확도를 올렸지만, AI는 그것과 동등하거나 약간 상회하는 수준을 보였다.

이 숫자만 보면, '드디어 AI가 의사를 넘었다'고 말하고 싶어진다. 실제로 SNS에서도 그러한 반응이 적지 않다. 하지만 이 연구가 진정으로 보여주는 것은 더 복잡하고, 더 현실적인 의료 AI의 모습이다.


AI가 뛰어났던 것은 '문서상의 임상 추론'

이번 연구에서 AI가 처리한 것은 전자 의료 기록에 기록된 텍스트 정보이다. 환자의 바이탈, 연령, 기왕력, 간호사에 의한 짧은 기록, 검사 정보 등, 의사가 진단의 재료로 삼는 정보의 일부이다.

중요한 것은, AI가 환자의 안색을 본 것도 아니고, 호흡의 어려움을 관찰한 것도 아니며, 복부를 촉진한 것도 아니라는 점이다. 환자의 목소리 떨림, 걸음걸이, 땀 흘림, 동반 가족의 반응, 의료 스태프 간의 분위기 등, 현장에서 의사가 무의식적으로 수집하는 정보는 포함되어 있지 않다.

즉, 이번 AI는 '응급실에서 환자를 진단한' 것이 아니라, '응급실에서 기록된 텍스트 정보로부터 진단을 생각한' 것으로 봐야 한다.

이 점은 SNS상의 의료 관계자나 기술자들로부터도 강하게 지적되고 있다. Hacker News에서는 '의사는 실제로 메모만 보고 응급 환자를 진단하는 것이 아니다'라는 취지의 댓글이 지지를 받았다. AI가 평가된 작업은 현실의 응급 의료의 일부를 잘라낸 것이며, 그 결과만으로 'AI가 응급의를 대체한다'고 결론짓는 것은 성급하다는 견해이다.

Reddit에서도 마찬가지로, '비교 대상이 된 것은 응급의가 아니라 내과계의 의사가 아니냐', '응급실의 주 목적은 최종 진단을 맞추는 것이 아니라, 생명에 관계되는 상태를 놓치지 않는 것이다'라는 반응이 두드러졌다. 이는 매우 중요한 논점이다.

응급 의료에서는 '이 환자의 최종 진단은 무엇인가'뿐만 아니라, '지금 죽음에 이를 위험이 있는가', '즉시 처치가 필요한가', '귀가시켜도 되는가', '전문과에 인계해야 하는가'가 묻는다. 진단명을 정확히 맞추는 능력과, 위험한 상태를 놓치지 않고 안전하게 분류하는 능력은 겹치는 부분은 있지만 같지 않다.


그래도 무시할 수 없는 '67%'의 의미

그렇다고 해서 이번 결과를 단순한 과대평가로 치부하는 것도 위험하다.

응급실의 초기 단계는 정보가 적다. 검사 결과가 아직 나오지 않은 경우도 많고, 환자 본인이 증상을 잘 설명하지 못하는 경우도 있다. 고령자, 의식 장애가 있는 환자, 언어 장벽이 있는 환자에서는 더욱 난도가 올라간다.

그러한 상황에서, AI가 전자 의료 기록상의 정보를 횡단적으로 읽어, 감별 진단 후보를 넓게 제시할 수 있다면, 의사에게 유용한 '두 번째 눈'이 될 수 있다.

The Guardian이 소개한 사례에서는, 폐색전증 환자가 치료 후 악화된 경우에, 의사는 항응고제가 듣지 않을 가능성을 의심했다. 한편, AI는 환자의 루푸스 기왕력에 주목해, 폐의 염증을 일으킬 가능성을 시사했다고 한다. 최종적으로, AI의 지적은 옳았다.

이러한 사례는 의료 AI의 강점을 잘 나타내고 있다. 인간 의사는 제한된 시간, 피로, 담당 환자 수, 직전의 경험, 전문 분야의 편향에 영향을 받는다. AI는 피로하지 않고, 전자 의료 기록에 있는 방대한 정보를 한 번에 읽고, 놓치기 쉬운 기왕력이나 검사치의 조합을 포착할 수 있다.

물론, AI에도 편향이나 오답은 있다. 하지만, 인간과는 다른 유형의 놓침을 한다면, 의사와 AI의 조합은 단독의 의사보다 안전성을 높일 가능성이 있다.


'AI vs 의사'가 아니라 '의사+AI'로

이 연구의 본질은 'AI가 의사를 대체한다'는 이야기가 아니다. 오히려 '의사가 AI를 어떻게 사용해야 하는가'라는 질문에 가깝다.

연구자들 자신도, AI가 응급실에서 생사에 관계되는 판단을 단독으로 맡을 수 있다고 주장하는 것이 아니다. 오히려, 실제 환자 케어에서 안전성과 유효성을 검증하는 전향적 임상 시험이 필요하다고 하고 있다.

의료 AI를 둘러싼 논의에서 자주 발생하는 오해는, AI의 능력을 '인간의 완전 대체'로 평가해 버리는 것이다. 그러나 현실의 의료 현장에서는, 이미지 진단 AI, 약물 상호작용 체크, 진료 기록 작성 지원, 리스크 예측 모델 등, 이미 많은 AI적 시스템이 보조적으로 사용되고 있다.

이번 연구가 보여주는 것은, 생성 AI나 대규모 언어 모델이 단순한 문장 생성 도구에서 '임상 추론을 지원하는 도구'로 진화하고 있다는 것이다.

환자의 증상, 기왕력, 검사치, 과거의 진료 기록을 통합해, '이 질환도 고려해야 하지 않을까', '이 검사를 추가해야 하지 않을까', '이 약물 선택에는 리스크가 있지 않을까'라고 제안한다. 그러한 사용법이라면, AI는 의사의 대체가 아니라, 진단의 망을 넓히는 보조자가 될 수 있다.

The Guardian이 소개한 Adam Rodman 의사의 견해도, 바로 이 방향성에 가깝다. 향후의 의료는 '의사, 환자, AI'의 삼자에 의한 모델로 향할 가능성이 있다는 것이다.


SNS에서 확산된 기대와 경계

 

SNS의 반응은 크게 3가지로 나뉘어 있다.

첫 번째는 AI 의료에 대한 기대다. Hacker News에서는 '장기적으로는 의료와 같은 지식·경험·패턴 인식의 영역에서 AI가 인간을 능가할 가능성이 높지 않을까'라는 의견이 보였다. 소프트웨어 개발에서 AI가 급속히 힘을 발휘하고 있는 것처럼, 의학에서도 전문 모델이 진화하면 많은 의사를 능가하는 영역이 늘어날 것이라는 견해다.

이 입장의 사람들은 의료 현장의 현실에도 주목하고 있다. 의사는 바쁘고, 한 환자에게 쓸 수 있는 시간은 제한되어 있다. 진료 기록은 방대하고, 전문 지식은 매일 갱신된다. AI가 적절히 도입되면, 놓침을 줄이고, 지방이나 의사 부족 지역의 의료 수준을 끌어올릴 수 있을지도 모른다.

두 번째는 연구 설계에 대한 신중론이다. Reddit에서는 '헤드라인이 오해를 불러일으킨다'는 반응이 두드러졌다. 비교 대상이 '응급의'가 아니라 '내과계 주치의'였던 점, 응급 의료의 목적이 반드시 최종 진단의 적중이 아닌 점, AI가 실제 환자를 진찰한 것이 아닌 점이 비판받고 있다.

Hacker News에서도 '이러한 벤치마크는 쉽게 왜곡될 수 있다', '단일 연구에서 강한 결론을 내서는 안 된다'는 목소리가 있었다. AI 평가에서는 데이터 세트에 의도하지 않은 힌트가 포함되어 있거나, 실무와는 다른 작업 설정이 되어 있는 경우가 있다. 의학과 같은 고위험 영역에서는 벤치마크상의 승리와 임상 현장에서의 안전성을 나누어 생각할 필요가 있다.

세 번째는 책임과 윤리에 대한 우려다. Reddit에서는 '만약 AI의 진단 실수로 환자가 사망하면, 누가 책임을 질 것인가'라는 취지의 반응이 여러 개 보였다. 의사라면 의료 과실, 설명 책임, 전문직으로서의 의무가 있다. 그러나 AI 모델의 경우, 책임은 개발 기업, 도입한 병원, 사용한 의사, 규제 당국 중 어디에 놓이는지가 모호하다.

이 문제는 의료 AI의 보급에 있어 가장 큰 장벽 중 하나이다. AI가 올바른 진단을 내리는지 여부뿐만 아니라, 잘못했을 때 누가 검증하고, 누가 설명하고, 누가 환자와 마주할 것인가. 그것이 정비되지 않으면, 의료 현장에서 AI를 전면적으로 신뢰하는 것은 어렵다.


'편리한 두 번째 의견'과 '위험한 자동화'의 경계선

이번 연구를 바탕으로 하면, 의료 AI의 가장 현실적인 사용법은 현 시점에서는 '두 번째 의견'일 것이다.

예를 들어, 의사가 진단을 생각할 때, AI가 감별 후보를 제시한다. 놓치기 쉬운 질환, 중증이지만 빈도가 낮은 질환, 약물력이나 기왕력에서 떠오르는 리스크를 보여준다. 의사는 그것을 참고하면서, 자신의 진찰, 검사, 환자와의 대화를 바탕으로 최종 판단을 내린다.

이 형태라면, AI의 강점을 살리면서, 인간의 책임과 판단을 남길 수 있다. 특히 응급실과 같이 시간이 제한되고, 판단의 압박이 큰 환경에서는 AI가 '생각 누락'을 줄이는 효과를 가질 가능성이 있다.

한편으로 위험한 것은, AI의 제안을 그대로 받아들이는 자동화다. AI가 자신만만하게 잘못된 진단을 제시했을 때, 인간이 그것에 끌릴 가능성이 있다. The Guardian이 소개한 전문가 코멘트에서도, 의사가 AI의 답변에 무의식적으로 따르게 되는 위험이 지적되고 있다.

이는 '자동화 편향'이라고 불리는 문제에 가깝다. 인간은 컴퓨터가 내놓은 답을 객관적이고 정확한 것으로 느끼기 쉽다. 특히 바쁜 현장에서는 'AI도 그렇게 말하고 있으니까'라는 안도감이 독립적인 사고를 약화시키는 위험이 있다.

따라서, 의료 AI를 도입하려면 단순히 정확도가 높은 모델을 놓는 것만으로는 충분하지 않다. 의사가 AI의 제안을 어떻게 검증할 것인가, AI의 오류를 어떻게 감지할 것인가, 환자에게 어떻게 설명할 것인가, 기록에 어떻게 남길 것인가까지 설계할 필요가 있다.


환자에게 있어서의 이점과 리스크

환자 측에서 보면, AI 진단 지원에는 큰 기대가 있다.

의사에 의한 놓침이 줄어들지도 모른다. 희귀 질환의 발견이 빨라질지도 모른다. 지방의 소규모 병원에서도 대형 병원 수준의 지식 지원을 받을 수 있을지도 모른다. 야간이나 휴일, 전문의가 바로 없는 상황에서도 AI가 중요한 후보를 제시할 수 있을지도 모른다.

한편으로, 환자가 직접 AI에 증상을 입력하고, 의사의 진찰 없이 자기 판단하는 리스크도 높아진다. 이번 연구는 어디까지나 의료 현장의 데이터를 사용하고, 의사에 의한 평가 속에서 AI를 비교한 것이다. 일반인이 자유롭게 사용할 수 있는 챗봇에 증상을 입력하면 같은 정확도가 나오는 이야기는 아니다.

오히려, 환자 자신이 증상을 어떻게 표현하느냐에 따라 AI의 답변은 크게 달라진다. 중대한 증상을 빠뜨리거나, 본인이 중요하다고 생각하지 않는 정보를 생략하면, AI는 잘못된 방향으로 이끌릴 수 있다. 의사의 문진이나 신체 진찰에는 환자가 말로 표현할 수 없는 정보를 수집하는 역할이 있다.

그렇기 때문에, 이번 연구는 'AI에게 진단받으면 병원은 필요 없다'는 메시지가 아니다. 더 정확히는 '의사가 AI를 적절히 사용하면, 진단의 질을 높일 수 있는 가능성이 있다'는 메시지다.


의사의 일이 사라질 것인가

SNS에서는 언제나처럼 '의사도 AI에 대체될 것인가'라는 논의가 일어나고 있다.

그러