간략 요약

  • Nature Medicine에 2026년 6월 12일 게재된 논문 "General-purpose large language models outperform specialized clinical AI tools on medical benchmarks"에서 GPT-5.2, Gemini 3.1 Pro, Claude Opus 4.6 같은 범용 프론티어 모델이 OpenEvidence, UpToDate AI 같은 의료 전용 AI 툴을 능가한다고 발표함
  • OpenEvidence와 UpToDate AI는 의사가 진료 중 실시간으로 근거를 찾아 쓰는 임상 의사결정 지원 툴로, 병원 현장에서 이미 쓰이고 있는 제품임
  • 논문 발표 직후 확산됐고, 저자가 경쟁 의료 AI를 자체 운영하며 과거 OpenEvidence에 API 접근을 요청했다가 거절당한 이력이 있다는 이해상충 의혹이 발표 후 제기됨
  • 필자가 직접 방법론을 재검증한 결과, 순위 자체를 뒷받침하기 어려운 통계적 결함 여러 건을 확인함

논문 구성과 표면적 결론

  • 세 단계로 평가함
    • MedQA 500문항으로 의학 지식 평가
    • HealthBench 500문항으로 임상 정렬도 평가
    • 실제 임상 질의 100건(RCQ)에 대해 미국 임상의 12명이 총 1,800건 평가 수행
  • 결론은 프론티어 모델이 세 평가 전부에서 전문 임상 툴을 앞섰고, 모델 크기와 정렬 방식이 도메인 특화 튜닝보다 중요한 요인일 수 있다는 것

채점 신뢰도 문제

  • 채점자간 일치도를 나타내는 Krippendorff's alpha가 RCQ에서 0.10~0.20으로 나옴
  • 이 지표는 0이면 우연히 맞춘 수준, 1이면 완벽한 합의를 뜻하며, 순위를 매기는 데 쓰려면 통상 0.67 이상이 요구됨
  • 논문의 핵심 그래프(모델 우열을 보여주는 Figure 2c)는 이렇게 합의가 부족한 점수의 평균에서 나옴

판정단이 곧 평가 대상인 구조

  • HealthBench 평가는 LLM이 다른 LLM의 답을 채점하는 방식인데, 판정단이 평가 대상인 GPT-5.2, Gemini 3.1 Pro, Claude Opus 4.6 세 모델로만 구성됨
  • 임상 전용 툴은 판정단에서 제외됨
  • HealthBench는 OpenAI가 만든 벤치마크이고, 그 OpenAI의 GPT-5.2가 같은 벤치마크에서 평가받음
  • 자기 자신 또는 비슷한 계열 모델을 후하게 채점하는 self-preference bias는 이미 알려진 현상이며, 이 구조는 그 편향을 걸러낼 장치가 없음

시험지를 미리 본 것과 비슷한 문제

  • MedQA와 HealthBench는 오래전부터 인터넷에 공개된 데이터임
  • 프론티어 모델은 방대한 인터넷 텍스트로 학습하기 때문에, 이 문제와 답을 학습 과정에서 이미 접했을 가능성이 있음
  • 논문도 이 가능성을 인정하지만 실제로 결과에 얼마나 영향을 줬는지는 계산하지 않음

통계 처리 문제

  • 같은 질문에 여러 모델과 여러 평가자가 답을 매긴 관측치 1,704건을 서로 독립적인 것처럼 처리함
  • 같은 질문에서 나온 점수들은 그 질문의 난이도 때문에 서로 연관돼 있는데, 이를 무시하면 실제보다 통계적으로 더 확실한 결과인 것처럼 보이는 pseudoreplication이 발생함
  • 별도로, UpToDate 거절율 19%와 Google AI Overview 거절율 6%를 비교한 Fisher's exact test 결과가 논문에는 P=0.10으로 나와 있음
  • 원 데이터(19/100 대 6/100)로 직접 계산하면 p값이 약 0.009가 나옴. 논문이 밝힌 유의수준 0.05 기준으로는 유의미한 차이에 해당하며, 보정 방식이 공개되지 않으면 이 차이는 설명이 필요함

평가 조건 자체가 달랐던 문제

  • 프론티어 모델은 temperature 0의 결정론적 API 방식으로 평가함
  • 임상 툴은 브라우저 인터페이스로 평가함. 매번 다른 결과가 나올 수 있고 내부 프롬프트도 공개되지 않음
  • 거절한 응답은 집계에서 제외됨. UpToDate는 19%를 거절해 상대적으로 쉬운 질문에 대한 점수만 남았고, 프론티어 모델은 1~3%만 거절해 전체 질문 분포에 대한 점수가 그대로 남음

다른 벤치마크를 쓰면 다른 결과가 나옴

  • 별도의 medRxiv 연구는 ChatGPT Health가 실제 응급 상황의 51.6%를 과소평가(undertriage)한다는 것을 보여준 동일한 트리아지 벤치마크를 OpenEvidence에 적용함
  • OpenEvidence의 과소평가율은 12.5%로, ChatGPT Health의 4분의 1 수준이었음
  • 같은 툴이라도 어떤 벤치마크로 평가하는지에 따라 결과가 크게 달라짐. 벤치마크 선택 자체가 결론을 좌우하는 변수임

왜 지금 이 논문이 중요한가

  • OpenEvidence는 이미 미국 의사 수만 명이 매일 진료 중 쓰는 툴임. 이 비교는 학술적 질문이 아니라 오늘 병원이 어떤 도구를 도입할지 결정하는 질문임
  • 2026년은 병원과 보험사가 의료 AI 조달 계약을 실제로 체결하는 시점임. 벤치마크 논문 한 편이 계약과 도입 여부를 정하는 근거로 바로 쓰일 수 있음
  • Nature Medicine에 실린 논문은 발표 즉시 권위를 갖고 확산됨. 구조적 결함을 찾아낸 재검토는 발표로부터 며칠 뒤 나왔지만, 임상의는 그날 이미 교육 내용을 바꿨음
  • 조달 결정이나 진료 지침에 한 번 반영되면 결함이 드러나도 계약과 관행을 되돌리는 데 시간과 비용이 듦
  • 의료 AI 벤치마크는 계속 쏟아지는데, 이를 독립적으로 재검증할 인프라와 인력은 그 속도를 따라가지 못함. 이번 논문 한 편의 문제가 아니라 반복될 구조의 문제임

결론

  • 이 글은 논문의 방향성이 틀렸다고 주장하지 않음
  • 다만 판정단 자가 채점, 낮은 채점자간 일치도, 학습 데이터 오염 가능성, 통계 처리 오류가 동시에 겹쳐 있음. 이 정도로 결함이 누적된 결과에 조달 계약과 진료 지침이 좌우돼서는 안 됨
  • 논문은 결론에서 확신을 표현했지만, 데이터는 그 확신을 지탱하지 못함. 문제는 저자의 의도가 아니라 검증 없이 확신이 먼저 유통되는 구조임
  • 의료 AI가 병원에 들어오는 지금, 벤치마크 논문 한 편이 아니라 그 논문을 검증할 독립적인 감사 체계가 먼저 갖춰져야 함. 지금처럼 주장의 속도가 검증의 속도를 앞서는 상태로는, 다음 논문에서도 같은 일이 반복됨

댓글과 토론