OpenAI o1은 응급실 환자의 67%를 정확히 진단했고 분류 의사는 50~55%를 기록

(theguardian.com)

1P by GN⁺ 2시간전 | ★ favorite | 댓글 1개

Harvard 연구에서 OpenAI의 o1 추론 모델은 응급실 초기 분류(triage) 진단에서 인간 의사보다 높은 정확도를 보였고, LLM은 임상 추론의 대부분 벤치마크를 넘어선 것으로 평가됨
Boston 병원 응급실에 온 76명 환자의 표준 전자의무기록을 읽는 실험에서 o1은 정확하거나 매우 가까운 진단을 67%에서 냈고, 인간 의사 2명은 50~55%를 기록함
더 많은 세부 정보가 주어지자 AI 정확도는 82% 로 올랐고 전문가 인간은 70~79%였지만, 이 차이는 통계적으로 유의하지 않았음
AI는 항생제 요법이나 임종 과정 계획 같은 장기 치료 계획 과제에서도 의사 46명을 앞섰고, 5개 임상 사례에서 AI 점수는 89%, 기존 자료를 쓴 인간 의사는 34%였음
연구는 텍스트로 전달 가능한 환자 데이터만 비교했으며 비언어적 신호는 테스트하지 않아, 실제 의사 대체보다 서류 기반 2차 소견 역할에 가깝다는 한계가 있음

Harvard 응급실 분류 실험의 핵심 결과

Harvard 연구에서 AI 시스템이 응급의학 분류(triage) 상황의 진단 정확도에서 인간 의사보다 높은 성과를 냄
Science에 공개된 결과는 수백 명의 의사 응답과 AI 응답을 비교한 실험에서 나왔고, 독립 전문가들은 AI의 임상 추론에서 “진정한 진전”을 보인다고 평가함
대규모 언어 모델(LLM)은 “임상 추론의 대부분 벤치마크를 넘어섰다”는 평가를 받음
AI의 우위는 정보가 적고 빠른 판단이 필요한 응급실 초기 분류 상황에서 특히 두드러짐

76명 응급실 환자 진단 실험

Boston 병원 응급실에 도착한 76명 환자를 대상으로 한 실험에서 AI와 인간 의사 2명이 같은 표준 전자의무기록을 읽고 진단함
전자의무기록에는 보통 생체징후, 인구통계 정보, 환자가 병원에 온 이유를 적은 간호사의 몇 문장이 포함됨
OpenAI의 o1 추론 모델은 정확하거나 매우 가까운 진단을 67%의 경우에 찾아냈고, 인간 의사는 50~55%의 정확도를 기록함
더 많은 세부 정보가 제공되자 AI 진단 정확도는 82% 로 올랐고, 전문가 인간은 70~79%를 기록했으나 이 차이는 통계적으로 유의하지 않았음

장기 치료 계획 실험

AI는 항생제 요법을 제안하거나 임종 과정을 계획하는 등 장기 치료 계획을 세우는 과제에서도 더 큰 인간 의사 집단을 앞섬
AI와 의사 46명은 5개의 임상 사례 연구를 검토했고, AI는 기존 자료를 활용한 인간 의사보다 유의하게 더 나은 계획을 세움
점수는 AI가 89%, 검색엔진 같은 기존 자료를 사용한 인간 의사가 34% 였음

연구의 한계와 의료 현장의 역할 변화

이번 연구는 텍스트로 전달 가능한 환자 데이터만 놓고 인간과 AI를 비교함
환자의 고통 정도나 시각적 외양 같은 비언어적 신호를 AI가 읽는 능력은 테스트되지 않음
따라서 AI는 실제 응급실 의사를 대체했다기보다 서류 기반으로 2차 소견을 내는 임상의에 더 가까운 역할을 수행함
Harvard Medical School AI 연구소를 이끄는 Arjun Manrai는 이번 결과가 AI가 의사를 대체한다는 뜻은 아니며, 의학을 재편할 “매우 심대한 기술 변화”가 진행 중임을 뜻한다고 말함
연구가 진행된 Boston의 Beth Israel Deaconess medical centre 의사 Adam Rodman은 AI LLM을 “수십 년 만에 가장 영향력 있는 기술” 중 하나로 봄
Rodman은 향후 10년 동안 AI가 의사를 대체하기보다 의사, 환자, AI 시스템이 함께하는 새로운 삼자 진료 모델에 합류할 것이라고 봄

임상 사례와 AI의 추론

Harvard 연구의 한 사례에서 환자는 폐 혈전과 악화되는 증상을 보였음
인간 의사들은 항응고제가 실패하고 있다고 판단했지만, AI는 환자의 루푸스 병력이 폐 염증을 일으킬 수 있다는 점을 포착함
AI의 판단은 맞는 것으로 확인됨

이미 확산 중인 의료 AI 사용

지난달 공개된 연구에 따르면 미국 의사 약 5명 중 1명은 이미 진단 보조에 AI를 사용하고 있음
영국에서는 의사의 16% 가 AI를 매일 사용하고, 추가로 15%가 매주 사용함
Royal College of Physicians의 최근 설문에 따르면 영국 의사들의 흔한 사용처 중 하나는 임상 의사결정임
영국 의사들이 가장 크게 우려한 부분은 AI 오류와 책임 위험이었음
AI 헬스케어 기업에 수십억 달러가 투자되고 있지만, AI 오류의 결과를 둘러싼 질문은 남아 있음
Rodman은 현재 책임 소재를 위한 공식 프레임워크가 없다고 했고, 환자는 궁극적으로 삶과 죽음의 결정과 어려운 치료 결정을 인간이 안내해주기를 원한다고 강조함

외부 전문가 평가와 주의점

University of Edinburgh 의료정보학 센터 공동소장 Ewen Harrison 교수는 이번 연구가 중요하며, 이런 시스템이 더 이상 의학 시험을 통과하거나 인공 테스트 사례를 푸는 수준에 머물지 않는다고 평가함
Harrison은 AI가 특히 더 넓은 범위의 가능한 진단을 고려하고 중요한 것을 놓치지 않아야 할 때 임상의에게 유용한 2차 소견 도구처럼 보이기 시작했다고 봄
University of Sheffield 수리·물리과학대학의 Wei Xing 박사는 다른 결과 일부가 의사들이 독립적으로 생각하기보다 AI의 답에 무의식적으로 따를 수 있음을 시사한다고 봄
Xing은 AI가 임상 환경에서 더 일상적으로 쓰일수록 이런 경향이 더 커질 수 있다고 말함
Xing은 AI가 어떤 환자에서 진단을 더 못했는지, 고령 환자나 영어가 모국어가 아닌 환자에서 더 어려움을 겪었는지에 대한 정보가 부족하다고 지적함
Xing은 이번 연구가 AI가 일상 임상 사용에 안전하다는 점이나, 대중이 자유롭게 사용할 수 있는 AI 도구를 의학적 조언의 대체재로 삼아야 한다는 점을 입증하지 않는다고 말함

▲

GN⁺ 2시간전 [-]

Hacker News 의견들

이런 연구는 벤치마크를 망치기 너무 쉬워서 신뢰하기가 매우 조심스러움
예를 들어 최근 논문에서는 AI가 엑스레이 판독에서 방사선을 이겼는데, 정작 AI는 엑스레이에 접근조차 못 했음: https://arxiv.org/pdf/2603.21687
기존의 “범용 흉부 엑스레이 이해를 위한 대규모 시각 질의응답 벤치마크”였고, 일부러 망가뜨린 것도 아니었음
게다가 엑스레이 판독에서는 인간 방사선과 의사가 실제로 엑스레이를 봄. 그런데 이 기사 맥락에서는 인간 의사가 응급실 환자를 진단할 때 메모만 보고 판단하지 않음
필요하지도 않고, 익숙하지도 않고, 훈련받지도 않은 과제를 시켜놓고 “AI가 더 잘한다”고 하는 셈이라, 메모가 이상한 우회 경로로 답을 흘리지 않았더라도 놀랍지는 않음
이 연구가 확실히 틀렸거나 의도적으로 속였다는 뜻은 아니지만, 단일 연구만으로 강한 결론을 내리지는 않겠음
- 이 특정 연구에 대해서는 동의하지만, 장기적으로 의사가 AI 모델보다 나을 것이라는 생각은 잘 이해가 안 됨
  결국 의학은 지식, 경험, 지능, 어쩌면 패턴 인식의 문제이고, 이런 것들은 최고의 AI 모델, 특히 의료에만 집중한 모델이 인간 대부분, 즉 의사를 크게 앞설 것이라고 봐야 함
  소프트웨어 엔지니어에 대해서 이미 그런 가정을 한다면 이 분야에도 적용해야 하고, 현실적으로 최근 몇 달 동안 의사를 볼 때마다, 응급실 두 번 포함해서, 다들 ChatGPT를 쓰고 있었음. 농담이 아니라 충격이었음
  그래서 진심으로 궁금함: 책임과 윤리는 제쳐두고 순수하게 보자면, 상위 의료 AI가 훌륭한 인간 의사의 성능을 영구적으로, 또는 적어도 수십 년 동안 따라잡거나 넘지 못할 것이라고 믿게 만드는 구체적 능력이나 능력 조합이 무엇인가?
- 흥미롭게도 ChatGPT Health를 사용한 최근 연구에서는 꽤 다른 결과가 나왔음: https://www.nature.com/articles/s41591-026-04297-7
  여기서는 응급 중증도 분류를 절반 정도 틀렸음
- 기사를 끝까지 읽어보면, 의사와 대규모 언어 모델 모두에게 전체 사례 기록을 읽게 했을 때는 통계적 유의성 기준으로 격차가 사라졌음
  헤드라인의 숫자는 간호사 메모만 보고 추정 진단을 한 결과를 인용한 것임. 내 추측으로는 선별된 사례 연구에서 대규모 언어 모델이 의사보다 더 거리낌 없이 추측했을 가능성이 큼
- 의사들은 인간의 인지 편향 때문에 놓치는 것이 있고, 사람은 자신에게 가장 익숙한 패턴에 고착되기 쉬워서 그럴듯하다고 봄
- 링크된 논문을 아직 다 읽지는 못했지만, 엑스레이 접근을 주지 않았을 때 결과가 환상이나 신기루라는 가정이 흥미로움
  매우 합리적인 결론 같지만 다른 가능성은 건너뜀. 엑스레이가 결과를 더 부정확하게 만드는가?
기사와 논문 둘 다 꽤 과장돼 보여서 놀랐음. 이건 대규모 언어 모델에 크게 유리하게 설계된 방식으로 의사와 경쟁시키는 것이고, 임상 진료를 대표하지 않음
이런 추론 사례는 의사용 벤치마크가 아니라 학습 도구임
진단은 우선 환자를 정확하게 묘사하는 데 의존하고, 수집하는 정보는 감별진단에 따라 달라짐
의사의 역량 중 하나는 여러 출처에서 정보를 모으고 중요한 것을 걸러내는 것임. 환자가 명확히 말하지 못하거나 비언어적일 수도 있고, 보호자나 가족에게서 들어야 할 수도 있음
병력 청취 자체가 기술이고, 신체 진찰도 마찬가지인데, 여기서는 그런 데이터가 이미 주어짐
특히 o1의 학습 데이터에 들어갔을 수 있는 질문에서 평문 패턴 인식만 놓고 보면 의사를 앞서는 게 전혀 놀랍지 않지만, 임상적으로 유용한 비교 같지는 않음
어떤 검사를 할지, 영상을 찍을지, 병력에서 불필요한 정보를 걸러낼지 결정하는 것도 별도의 역량이고, 진단 형성과 분리하기 어려움
- 오진 사례 분석도 봐야 함. 인간 의사의 목표는 최고 정확도를 얻는 것이 아니라 환자에게 가는 총 위해를 줄이는 것임
  어떤 경우에는 확률상 X를 고르는 게 유리하더라도 차이가 크지 않을 수 있고, 더 안전한 선택은 다른 가능성을 먼저 배제하거나 여러 가능성을 포괄하는 안전한 치료를 시작하는 것일 수 있음
  이 평가에서 단순히 “고득점”을 받는 것이 반드시 좋은 의료 행위는 아님
이 연구에 큰 비중을 두지는 않겠지만, 그래도 많은 사람이 자가 진단에서 대규모 언어 모델이 유용하다는 점은 인정할 수 있을 것 같음
미국에서는 의사의 관심과 진료를 받기가 어렵기 때문에 결국 스스로 해야 하는 현실이 있음
10년 전에는 환자들이 Google에서 찾은 내용을 들고 온다고 의사들이 불평했지만, 이제는 대안이 없다고 봄
예를 들어 발과 발목 문제로 족부 전문의를 찾아갔는데, 발 문제는 엑스레이로 진단했지만 발목 문제는 엑스레이에 아무것도 안 보인다며 어깨만 으쓱했음
배정된 15분이 끝났고, 원인도 교정 방법도 모른 채 나왔음. 대규모 언어 모델에 5분 물어보니 발 진단과도 맞아떨어지는 그럴듯한 발목 원인을 얻었음
- 대규모 언어 모델을 의료에 쓰는 것이 미국 의료 문제의 적절한 해결책이라고 보지는 않음
  의료 기업들이 AI로 환자 진료를 개선하기보다 하루 환자 수를 늘리는 쪽을 택한다면, 상황은 오히려 더 나빠질 것 같음
“AI와 인간 의사 두 명에게 동일한 표준 전자의무기록을 읽게 했다”는 건 인간 의사의 능력을 제한하는 조건임
인간 의사는 환자를 잠깐 관찰하는 것만으로도 훨씬 많은 정보를 얻을 수 있음
- AI에도 같은 말을 할 수 있지 않나?
- 반대로, “임상 면담처럼 해석이 제멋대로 열릴 수 있는 자료에 접근하는 전문가만큼 위험한 것도 드물다”는 말도 있음
  https://entropicthoughts.com/arithmetic-models-better-than-y...
- 동의함. 이런 기술의 최선의 사용법은 양쪽의 강점을 함께 쓰는 것이라고 봄
  AI가 기록을 검토해 진단 후보를 제안하고, 의사가 환자를 관찰한 뒤 이를 검토하는 방식이 좋음
  또 흔한 질환은 실제로 흔함. 이것이 결국 의사와 대규모 언어 모델 양쪽을 얼마나 편향시키는지도 궁금함
  콧물과 기침으로 온 사람을 독감으로 진단하면 대부분 맞을 가능성이 큼
- 매우 중요한 관찰처럼 느껴짐. 여기에 더해, AI가 활용할 수 있도록 짧은 동영상이나 사진을 포함해 보는 것도 흥미로울 것 같음
- 덤으로, 의료 네트워크들은 이제 의사들에게 전자의무기록 입력에 AI 전사 소프트웨어를 쓰도록 밀어붙이고 있음
  의사와 간호사는 직접 타이핑하지 않아도 되니 좋아하지만, 꽤 자주 생기는 전사 오류를 기록에서 제대로 검토하는지는 완전히 엉망임
  이제 결함 있는 전사문을 AI 진단 시스템에 넣으면 끝임. AI는 그것을 복음처럼 받아들이겠지만, 의사는 “잠깐, 이게 뭐지?” 하고 멈출 수 있음
나와 아내뿐 아니라, 내 개들을 진단하는 데도 대규모 언어 모델을 써봤음
AI 기반 수의학에는 큰 기회가 있다고 확신함. 특히 이후 지역 동물병원들 사이에서 진료나 수술 가격 입찰까지 수행하게 하면 좋겠음
지역 동물병원 가격은 10배 이상 차이 나기도 함. 80세인 어머니와 장모님은 과다 청구하는 수의사들에게 자주 당했고, 반려견이 삶의 큰 부분이라 압박에 매우 취약함
여기의 부정적 반응들이 이해가 안 감. 컴퓨터로 30% 정도라도 도달할 수 있다는 사실 자체가 놀라움
AI와 OpenAI 같은 프런티어 연구소, 또는 Google 계열에 대한 적대감이 너무 커 보이고 말이 안 됨
- AI에 대한 부정적 분위기가 많은 건 맞음. 하지만 이 연구에도 실제 한계가 있음
  내 생각에 핵심은 AI가 환자 사례 메모를 받았지만, 환자를 직접 보지는 않았다는 점임
  이는 의사가 훈련받는 방식과 다르고, 의사가 할 수 있는 일을 불필요하게 제한함. 의사가 제공하는 가치의 상당 부분은 환자와 대화하는 데서 나옴
  헤드라인은 AI가 의사를 대체할 것처럼 들리지만, 실제로는 “AI가 이 좁은 과제를 의사보다 잘할 수 있다”에 가까움
  사용된 메모도 애초에 의사가 썼을 가능성이 큼
  진짜 보상은 의사+AI 조합이 의사 단독보다 더 좋아져야 한다는 데 있음. 의사가 사례 메모를 읽고 결론을 내려야 하는 경우, 이제 AI의 꽤 괜찮은 제안을 활용할 수 있음
- 왜 이해가 안 되는지 모르겠음. 추천을 많이 받은 비판적 댓글들은 대부분 이유를 잘 설명하고 있고, 그 이유가 아주 기술적인 것도 아님
  판돈이 클수록 우리는 보통 덜이 아니라 더 비판적이어야 함
- Enron에 대해서도 그런 말을 했음
  회의주의는 과해도 엄청나게 유용한 도구임
- 의료계 지인들이 카르텔이 뒷받침하는 편한 고소득 직업에서, 나처럼 AI가 일자리를 가져갈지 모른다는 실존적 공포를 느끼게 된다니 솔직히 기쁨
60세로서 직접 AI 의료 보조 도구 [1]을 만들었고 여러 증상에 광범위하게 써봤는데, 매우 만족함
몇몇 검사 결과를 분석한 뒤 의사가 처음에는 고려하지 않았던 지표까지 추천해 줬음
의사를 대체하지는 않겠지만, 간단한 증상의 자가 진단과 2차 소견에는 매우 유용한 도구임
[1] https://mediconsulta.net (DeepSeek)
궁금한데, 그 33% 가 50~45%의 부분집합인지 알고 싶음
부분집합이 아니라면 그 오류가 얼마나 심각했는가? 사망이 더 많았나? 회복 시간이 더 길었나? 그 차이가 실제로 무엇으로 이어졌는가?
논문: https://www.science.org/doi/10.1126/science.adz4433 (2026년 4월 30일)
67%와 55%의 차이가 얼마나 큰가? 연구가 의사들과 같은 환자를 대상으로 했는가?
각 상황을 양쪽이 어떻게 평가했고 왜 다른 결론에 도달했는지 나란히 비교하지 않았다면, 과학적으로 얼마나 효과적일 수 있는지 모르겠음
남은 43%에서 의사가 AI가 못 본 사각지대를 발견할 수 없다고 누가 보장할 수 있나
도구는 대체가 아니라 노력을 결합하기 위한 것임
이런 퍼센트를 대중에게 던지는 건 상당히 무책임함

답변달기

OpenAI o1은 응급실 환자의 67%를 정확히 진단했고 분류 의사는 50~55%를 기록

Harvard 응급실 분류 실험의 핵심 결과

76명 응급실 환자 진단 실험

장기 치료 계획 실험

연구의 한계와 의료 현장의 역할 변화

임상 사례와 AI의 추론

이미 확산 중인 의료 AI 사용

외부 전문가 평가와 주의점

함께 보면 좋은 글 β

Hacker News 의견들