"프론티어 AI가 의료 전문 툴 이겼다"는 논문 재검증해보니 — 채점자간 일치도 0.10, 채점자가 곧 참가자

flamehaven01 · 2026-07-02T14:58:33+09:00

간략 요약 Nature Medicine에 2026년 6월 12일 게재된 논문 "General-purpose large language models outperform specialized clinical AI tools on medical benchmarks"에서 GPT-5.2, Gemini 3.1 Pro, Claude Opus 4.6 같은 범용 프론티어 모델이 OpenEvidence, UpToDate AI 같은 의료 전용 AI 툴을 능가한다고 발표함 OpenEvidence와 UpToDate AI는 의사가 진료 중 실시간으로 근거를 찾아 쓰는 임상 의사결정 지원 툴로, 병원 현장에서 이미 쓰이고 있는 제품임 논문 발표 직후 확산됐고, 저자가 경쟁 의료 AI를 자체 운영하며 과거 OpenEvidence에 API 접근을 요청했다가 거절당한 이력이 있다는 이해상충 의혹이 발표 후 제기됨 필자가 직접 방법론을 재검증한 결과, 순위 자체를 뒷받침하기 어려운 통계적 결함 여러 건을 확인함 논문 구성과 표면적 결론 세 단계로 평가함 MedQA 500문항으로 의학 지식 평가 HealthBench 500문항으로 임상 정렬도 평가 실제 임상 질의 100건(RCQ)에 대해 미국 임상의 12명이 총 1,800건 평가 수행 결론은 프론티어 모델이 세 평가 전부에서 전문 임상 툴을 앞섰고, 모델 크기와 정렬 방식이 도메인 특화 튜닝보다 중요한 요인일 수 있다는 것 채점 신뢰도 문제 채점자간 일치도를 나타내는 Krippendorff's alpha가 RCQ에서 0.10~0.20으로 나옴 이 지표는 0이면 우연히 맞춘 수준, 1이면 완벽한 합의를 뜻하며, 순위를 매기는 데 쓰려면 통상 0.67 이상이 요구됨 논문의 핵심 그래프(모델 우열을 보여주는 Figure 2c)는 이렇게 합의가 부족한 점수의 평균에서 나옴 판정단이 곧 평가 대상인 구조 HealthBench 평가는 LLM이 다른 LLM의 답을 채점하는 방식인데, 판정단이 평가 대상인 GPT-5.2, Gemini 3.1 Pro, Claude Opus 4.6 세 모델로만 구성됨 임상 전용 툴은 판정단에서 제외됨 HealthBench는 OpenAI가 만든 벤치마크이고, 그 OpenAI의 GPT-5.2가 같은 벤치마크에서 평가받음 자기 자신 또는 비슷한 계열 모델을 후하게 채점하는 self-preference bias는 이미 알려진 현상이며, 이 구조는 그 편향을 걸러낼 장치가 없음 시험지를 미리 본 것과 비슷한 문제 MedQA와 HealthBench는 오래전부터 인터넷에 공개된 데이터임 프론티어 모델은 방대한 인터넷 텍스트로 학습하기 때문에, 이 문제와 답을 학습 과정에서 이미 접했을 가능성이 있음 논문도 이 가능성을 인정하지만 실제로 결과에 얼마나 영향을 줬는지는 계산하지 않음 통계 처리 문제 같은 질문에 여러 모델과 여러 평가자가 답을 매긴 관측치 1,704건을 서로 독립적인 것처럼 처리함 같은 질문에서 나온 점수들은 그 질문의 난이도 때문에 서로 연관돼 있는데, 이를 무시하면 실제보다 통계적으로 더 확실한 결과인 것처럼 보이는 pseudoreplication이 발생함 별도로, UpToDate 거절율 19%와 Google AI Overview 거절율 6%를 비교한 Fisher's exact test 결과가 논문에는 P=0.10으로 나와 있음 원 데이터(19/100 대 6/100)로 직접 계산하면 p값이 약 0.009가 나옴. 논문이 밝힌 유의수준 0.05 기준으로는 유의미한 차이에 해당하며, 보정 방식이 공개되지 않으면 이 차이는 설명이 필요함 평가 조건 자체가 달랐던 문제 프론티어 모델은 temperature 0의 결정론적 API 방식으로 평가함 임상 툴은 브라우저 인터페이스로 평가함. 매번 다른 결과가 나올 수 있고 내부 프롬프트도 공개되지 않음 거절한 응답은 집계에서 제외됨. UpToDate는 19%를 거절해 상대적으로 쉬운 질문에 대한 점수만 남았고, 프론티어 모델은 1~3%만 거절해 전체 질문 분포에 대한 점수가 그대로 남음 다른 벤치마크를 쓰면 다른 결과가 나옴 별도의 medRxiv 연구는 ChatGPT Health가 실제 응급 상황의 51.6%를 과소평가(undertriage)한다는 것을 보여준 동일한 트리아지 벤치마크를 OpenEvidence에 적용함 OpenEvidence의 과소평가율은 12.5%로, ChatGPT Health의 4분의 1 수준이었음 같은 툴이라도 어떤 벤치마크로 평가하는지에 따라 결과가 크게 달라짐. 벤치마크 선택 자체가 결론을 좌우하는 변수임 왜 지금 이 논문이 중요한가 OpenEvidence는 이미 미국 의사 수만 명이 매일 진료 중 쓰는 툴임. 이 비교는 학술적 질문이 아니라 오늘 병원이 어떤 도구를 도입할지 결정하는 질문임 2026년은 병원과 보험사가 의료 AI 조달 계약을 실제로 체결하는 시점임. 벤치마크 논문 한 편이 계약과 도입 여부를 정하는 근거로 바로 쓰일 수 있음 Nature Medicine에 실린 논문은 발표 즉시 권위를 갖고 확산됨. 구조적 결함을 찾아낸 재검토는 발표로부터 며칠 뒤 나왔지만, 임상의는 그날 이미 교육 내용을 바꿨음 조달 결정이나 진료 지침에 한 번 반영되면 결함이 드러나도 계약과 관행을 되돌리는 데 시간과 비용이 듦 의료 AI 벤치마크는 계속 쏟아지는데, 이를 독립적으로 재검증할 인프라와 인력은 그 속도를 따라가지 못함. 이번 논문 한 편의 문제가 아니라 반복될 구조의 문제임 결론 이 글은 논문의 방향성이 틀렸다고 주장하지 않음 다만 판정단 자가 채점, 낮은 채점자간 일치도, 학습 데이터 오염 가능성, 통계 처리 오류가 동시에 겹쳐 있음. 이 정도로 결함이 누적된 결과에 조달 계약과 진료 지침이 좌우돼서는 안 됨 논문은 결론에서 확신을 표현했지만, 데이터는 그 확신을 지탱하지 못함. 문제는 저자의 의도가 아니라 검증 없이 확신이 먼저 유통되는 구조임 의료 AI가 병원에 들어오는 지금, 벤치마크 논문 한 편이 아니라 그 논문을 검증할 독립적인 감사 체계가 먼저 갖춰져야 함. 지금처럼 주장의 속도가 검증의 속도를 앞서는 상태로는, 다음 논문에서도 같은 일이 반복됨

(flamehaven.space)

1P by flamehaven01 11시간전 | ★ favorite | 댓글과 토론

간략 요약

Nature Medicine에 2026년 6월 12일 게재된 논문 "General-purpose large language models outperform specialized clinical AI tools on medical benchmarks"에서 GPT-5.2, Gemini 3.1 Pro, Claude Opus 4.6 같은 범용 프론티어 모델이 OpenEvidence, UpToDate AI 같은 의료 전용 AI 툴을 능가한다고 발표함
OpenEvidence와 UpToDate AI는 의사가 진료 중 실시간으로 근거를 찾아 쓰는 임상 의사결정 지원 툴로, 병원 현장에서 이미 쓰이고 있는 제품임
논문 발표 직후 확산됐고, 저자가 경쟁 의료 AI를 자체 운영하며 과거 OpenEvidence에 API 접근을 요청했다가 거절당한 이력이 있다는 이해상충 의혹이 발표 후 제기됨
필자가 직접 방법론을 재검증한 결과, 순위 자체를 뒷받침하기 어려운 통계적 결함 여러 건을 확인함

논문 구성과 표면적 결론

세 단계로 평가함
- MedQA 500문항으로 의학 지식 평가
- HealthBench 500문항으로 임상 정렬도 평가
- 실제 임상 질의 100건(RCQ)에 대해 미국 임상의 12명이 총 1,800건 평가 수행
결론은 프론티어 모델이 세 평가 전부에서 전문 임상 툴을 앞섰고, 모델 크기와 정렬 방식이 도메인 특화 튜닝보다 중요한 요인일 수 있다는 것

채점 신뢰도 문제

채점자간 일치도를 나타내는 Krippendorff's alpha가 RCQ에서 0.10~0.20으로 나옴
이 지표는 0이면 우연히 맞춘 수준, 1이면 완벽한 합의를 뜻하며, 순위를 매기는 데 쓰려면 통상 0.67 이상이 요구됨
논문의 핵심 그래프(모델 우열을 보여주는 Figure 2c)는 이렇게 합의가 부족한 점수의 평균에서 나옴

판정단이 곧 평가 대상인 구조

HealthBench 평가는 LLM이 다른 LLM의 답을 채점하는 방식인데, 판정단이 평가 대상인 GPT-5.2, Gemini 3.1 Pro, Claude Opus 4.6 세 모델로만 구성됨
임상 전용 툴은 판정단에서 제외됨
HealthBench는 OpenAI가 만든 벤치마크이고, 그 OpenAI의 GPT-5.2가 같은 벤치마크에서 평가받음
자기 자신 또는 비슷한 계열 모델을 후하게 채점하는 self-preference bias는 이미 알려진 현상이며, 이 구조는 그 편향을 걸러낼 장치가 없음

시험지를 미리 본 것과 비슷한 문제

MedQA와 HealthBench는 오래전부터 인터넷에 공개된 데이터임
프론티어 모델은 방대한 인터넷 텍스트로 학습하기 때문에, 이 문제와 답을 학습 과정에서 이미 접했을 가능성이 있음
논문도 이 가능성을 인정하지만 실제로 결과에 얼마나 영향을 줬는지는 계산하지 않음

통계 처리 문제

같은 질문에 여러 모델과 여러 평가자가 답을 매긴 관측치 1,704건을 서로 독립적인 것처럼 처리함
같은 질문에서 나온 점수들은 그 질문의 난이도 때문에 서로 연관돼 있는데, 이를 무시하면 실제보다 통계적으로 더 확실한 결과인 것처럼 보이는 pseudoreplication이 발생함
별도로, UpToDate 거절율 19%와 Google AI Overview 거절율 6%를 비교한 Fisher's exact test 결과가 논문에는 P=0.10으로 나와 있음
원 데이터(19/100 대 6/100)로 직접 계산하면 p값이 약 0.009가 나옴. 논문이 밝힌 유의수준 0.05 기준으로는 유의미한 차이에 해당하며, 보정 방식이 공개되지 않으면 이 차이는 설명이 필요함

평가 조건 자체가 달랐던 문제

프론티어 모델은 temperature 0의 결정론적 API 방식으로 평가함
임상 툴은 브라우저 인터페이스로 평가함. 매번 다른 결과가 나올 수 있고 내부 프롬프트도 공개되지 않음
거절한 응답은 집계에서 제외됨. UpToDate는 19%를 거절해 상대적으로 쉬운 질문에 대한 점수만 남았고, 프론티어 모델은 1~3%만 거절해 전체 질문 분포에 대한 점수가 그대로 남음

다른 벤치마크를 쓰면 다른 결과가 나옴

별도의 medRxiv 연구는 ChatGPT Health가 실제 응급 상황의 51.6%를 과소평가(undertriage)한다는 것을 보여준 동일한 트리아지 벤치마크를 OpenEvidence에 적용함
OpenEvidence의 과소평가율은 12.5%로, ChatGPT Health의 4분의 1 수준이었음
같은 툴이라도 어떤 벤치마크로 평가하는지에 따라 결과가 크게 달라짐. 벤치마크 선택 자체가 결론을 좌우하는 변수임

왜 지금 이 논문이 중요한가

OpenEvidence는 이미 미국 의사 수만 명이 매일 진료 중 쓰는 툴임. 이 비교는 학술적 질문이 아니라 오늘 병원이 어떤 도구를 도입할지 결정하는 질문임
2026년은 병원과 보험사가 의료 AI 조달 계약을 실제로 체결하는 시점임. 벤치마크 논문 한 편이 계약과 도입 여부를 정하는 근거로 바로 쓰일 수 있음
Nature Medicine에 실린 논문은 발표 즉시 권위를 갖고 확산됨. 구조적 결함을 찾아낸 재검토는 발표로부터 며칠 뒤 나왔지만, 임상의는 그날 이미 교육 내용을 바꿨음
조달 결정이나 진료 지침에 한 번 반영되면 결함이 드러나도 계약과 관행을 되돌리는 데 시간과 비용이 듦
의료 AI 벤치마크는 계속 쏟아지는데, 이를 독립적으로 재검증할 인프라와 인력은 그 속도를 따라가지 못함. 이번 논문 한 편의 문제가 아니라 반복될 구조의 문제임

결론

이 글은 논문의 방향성이 틀렸다고 주장하지 않음
다만 판정단 자가 채점, 낮은 채점자간 일치도, 학습 데이터 오염 가능성, 통계 처리 오류가 동시에 겹쳐 있음. 이 정도로 결함이 누적된 결과에 조달 계약과 진료 지침이 좌우돼서는 안 됨
논문은 결론에서 확신을 표현했지만, 데이터는 그 확신을 지탱하지 못함. 문제는 저자의 의도가 아니라 검증 없이 확신이 먼저 유통되는 구조임
의료 AI가 병원에 들어오는 지금, 벤치마크 논문 한 편이 아니라 그 논문을 검증할 독립적인 감사 체계가 먼저 갖춰져야 함. 지금처럼 주장의 속도가 검증의 속도를 앞서는 상태로는, 다음 논문에서도 같은 일이 반복됨