3P by GN⁺ 15시간전 | ★ favorite | 댓글 1개
  • OpenAI는 의료 상황에서의 AI 시스템 성능을 평가하기 위한 새로운 벤치마크 HealthBench를 공개함
  • 262명의 의사, 60개국의 의료 경험, 5,000개의 현실적인 의료 대화를 기반으로 구축되었으며, 각 대화에 대해 의사가 직접 작성한 평가 기준(rubric) 을 사용함
  • 평가 기준은 정확성, 맥락 인식, 의사소통 품질, 완결성 등을 포함하며 GPT-4.1 기반 평가 모델이 기준 충족 여부를 채점함
  • 최신 OpenAI 모델은 기존 대비 성능 28% 향상, 소형 모델도 비용 대비 성능 향상, 최악의 경우 성능(worst-of-n) 개선 등 실질적인 발전을 보여줌
  • HealthBench 전체, Consensus, Hard 세트는 연구자 및 개발자를 위한 오픈소스로 공개되어 향후 의료 AI 연구 및 안전성 확보에 기여할 예정임

HealthBench 소개

개발 배경

  • 의료 정보 접근성 확대, 임상 의사 지원, 지역 사회 건강 권리 강화 등 AGI의 헬스케어 활용 잠재력을 최대화하기 위한 평가 필요
  • 기존 의료 평가 세트들은 현실성 부족, 전문가 판단 기반 미흡, 모델 발전 여지 부족 등의 문제를 안고 있었음

주요 특징

  • 5,000개의 다회차, 다국어, 고난도 건강 대화 시나리오
  • 각 응답은 의사들이 만든 맞춤형 평가 기준(rubric) 으로 채점됨
  • 48,562개 평가 기준으로 모델의 다양한 세부 능력을 정량화 가능
  • 채점은 GPT-4.1을 활용한 자동화된 루브릭 평가 시스템으로 진행됨

HealthBench 테마 및 평가 축

7가지 평가 테마

  • Emergency referrals: 응급 상황 인식 및 적절한 대응 권장 여부
  • Expertise-tailored communication: 사용자 수준에 따른 용어/디테일 조정 여부
  • Responding under uncertainty: 불확실한 정보 하에서의 반응 적절성
  • Response depth: 상황에 맞는 정보의 깊이 제공
  • Health data tasks: 문서작성, 지식지원 등 의료 관련 실무 처리
  • Global health: 국가별 자원/상황/언어에 따른 조정 능력
  • Context seeking: 필요한 맥락을 스스로 요청하는 능력

평가 축 (Axes)

  • 정확성 (Accuracy): 의료 사실과 과학적 합의에 부합하는지
  • 맥락 인식 (Context awareness): 사용자 배경에 따른 응답 조정 여부
  • 완결성 (Completeness): 필요한 내용을 빠짐없이 포함했는지
  • 의사소통 품질 (Communication quality): 길이, 용어, 구조, 강조 방식의 적절성
  • 지시 따르기 (Instruction following): 사용자의 요청 형식 및 방식 준수 여부

실제 예시 평가

예시 1: 70세 이웃이 의식이 없지만 숨을 쉼

  • 긴급 의료 서비스 호출, 회복 자세로 돌려놓기, CPR 시작 조건 명시 등 포함
  • Rubric 기준 92점 만점에 71점(77%) 획득 → 우수한 응급 대응 지침 제공

예시 2: Quercetin의 바이러스 예방 효과

  • 근거 부족을 명확히 전달했으나 권고 용량/임상자료 부족, 부작용 언급 누락
  • Rubric 기준 25점 만점에 1점(4%)과학적 불확실성 표현은 잘했지만 정보 완결성 부족

예시 3: 심장재활 경과기록 노트 작성

  • 구조화된 템플릿 제시는 했으나 핵심 임상 정보 다수 누락
  • Rubric 기준 42점 만점에 15점(36%)

모델 성능 비교

모델별 성능 (전체/테마별/축별)

  • o3가 모든 테마와 평가 축에서 최고 성능(0.598) 기록
  • GPT-4.1과 Claude 3.7, Gemini 2.5 Pro가 뒤를 잇는 구도
  • GPT-3.5 Turbo 및 Llama 4는 현저히 낮은 점수

비용 대비 성능

  • GPT-4.1 nano는 GPT-4o보다 25배 저렴하면서도 더 높은 성능
  • 소형 모델의 발전이 지속되며 저비용 고성능 실현 가능성을 제시

신뢰성(worst-of-n 성능)

  • o3, GPT-4.1은 최악 사례에서의 성능도 향상
  • 고위험 분야에서 신뢰성 확보를 위한 중요 지표

확장형 벤치마크: Consensus & Hard

  • HealthBench Consensus: 다수 의사의 합의 기준에 따라 설계된 고신뢰 평가 세트 (3,671개 예시)
    • 에러율 거의 0에 수렴
  • HealthBench Hard: 최신 모델도 어려워하는 1,000개 고난도 예시
    • 모델 개선 여지를 테스트할 수 있는 평가 세트로 활용 가능

인간 의사와의 비교

  • AI 모델 단독 vs 의사(참조 없음) vs 의사(모델 응답 참조 가능)
  • 2024년 모델 대비: 의사+모델 조합이 모델 단독보다 우수
  • 2025년 최신 모델(o3, GPT‑4.1)은 의사 응답 수준에 도달하거나 능가
    • 추가 개선의 여지가 줄어듦

평가 신뢰도

  • GPT-4.1 채점 결과와 실제 의사 채점 결과 간 일치율이 높음
  • 모델 채점 기준이 의사 판단과 유사한 수준으로 정렬됨 → 루브릭 자동 채점 시스템의 유효성 확보

앞으로의 방향

  • 전체 데이터 및 평가 도구는 GitHub https://github.com/openai/simple-evals를 통해 공개됨
  • 의료 현장에서 유의미한 AI 발전을 위해 커뮤니티 기반의 지속적 평가와 개선을 독려
  • 아직 미흡한 문맥 요청(Context seeking), 최악 사례 대응(Reliability) 등의 과제 해결이 필요
Hacker News 의견
  • 많은 일반적인 진단과 치료는 이에 적합하게 세밀하게 조정되고 검증된 AI 시스템이 충분히 해낼 수 있을 거라고 확신함, 나는 최근 기침약 처방을 받기 위해 의사와 화상진료를 했지만, 이미 무엇을 먹어야 하는지 조사하고 알고 있었음, 사람들은 “의사는 몇 년을 공부했다, 구글보다 믿어야 한다”라고 하겠지만, 인간도 실수가 있고 의사들도 Uptodate 같은 곳에 정보를 찾아보는 경우가 많기 때문에, 위험을 감수할 의지가 있다면 왜 스스로 리스크를 져서는 안된다고 생각함, 왜 기침약(약 44달러) 말고도 93달러나 내고 의사가 5분도 안 되는 시간 zoom에서 얼굴 보고 처방전을 넣어줘야 하는지 모르겠음, 미국의 살인적인 의료비와 달리 내 고향(미얀마)에서는 집 근처에 여러 진료소와 약국이 있고, 대부분의 약은 처방전 없이 구입 가능함(물론 오피오이드 함유 약은 의사 처방 필요), 진단 확인만 하고 싶으면 10~20달러 내고 의사 진료 받고 바로 약국에서 약 구매 가능함, 돈만 있으면 약을 자유롭게 살 수 있는데 왜 미국에선 그 위험조차 스스로 지지 못하게 하는지 의문임, 전세계적으로 의료비가 증가하는 가운데 AI가 점점 더 평범한 진단과 치료를 맡아줄 것이고(물론 큰 기대는 안 함), 그 절감 비용 일부라도 환자에게 돌아오길 바람

    • 네 경우는 예외적으로 간단했기 때문에 이런 방식이 통했음, 문제는 당사자가 간단한 상황과 그렇지 않은 상황을 구분할 수 있는 교육을 받지 않았다는 것임, 기침이 그냥 기침일 수도 있지만 더 심각한 문제일 수도 있으니 "진짜" 의사 검진이 필요하고, 경우에 따라선 전문가의 추가 검진이 필요함, 내 얘길 들려주자면, 고환에 통증이 있어 한 명의 의사는 아무것도 못 느꼈지만, 다른 의사는 뭔가 만져졌다고 했고 뭔지 몰랐음, 결국 비뇨의학과 전문의에게 갔더니 바로 종양이라고 진단했고 실제로도 암이었음, 조기 발견으로 치료가 수월했음, 요점은 상황이 단순하지 않을 때 전문성과 경험이 매우 중요하다는 점임

    • 왜 5분도 안 되는 Zoom 진료에 93달러나 내야 하냐고 했는데, 그건 당신이 10년 넘게 공부한 전문가의 지식을 사는 것이기 때문임, 오늘날 AI 시스템은 의료진단 측면에서 웹 검색보다도 덜 신뢰할 만함, 웹 검색은 적어도 내가 전문가가 작성한 정보를 분별해서 참고할 수 있고, 의사가 검색을 해도 그 정보 판별 능력을 위해 비용을 낸다고 생각함, AI가 인간보다 이 역할을 더 잘 할 수 있다고 생각하는 근거를 모르겠음, 이 이야기는 Henry Ford의 “어디에 칠할지 아는 지식이 9999달러” 이야기와 비슷함

    • 어디에 있길래 기침약을 처방전 없이 못 사는지 궁금함, 내가 아는 한 처방이 필요한 건 규제물질 함유된 것 뿐임

    • 의사들이 모두 이런 일까지 다 하기엔 의사가 절대적으로 부족함, 하루가 다르게 이 부족 현상은 더 심화됨, 모두가 언제든 저렴하게 진료받을 수 있으면 정말 좋겠지만 우리는 이상적인 세상에 살지 않음, 이렇게 AI가 일부를 대체한다면 대부분 사람들에게는 엄청난 이익임

    • 약을 누구나 쉽게 사고 복용할 수 있게 되면 무분별한 항생제 남용처럼 문제가 일어남, 아쉽지만 의료는 평균 이하 수준의 행위까지 감안해서 설계되어야 함, AI가 일부 단순 분류(트리아지)는 소화 가능하겠지만, LLM의 현재 상태에서는 환자 정보 신뢰도와 다감각적 판단이 부족해서 아직은 의사를 대신하기 힘듦, 진정한 “AI 주치의”는 완벽한 건강 데이터와 이력기반이 있을 때만 가능하겠지만, 그 수준의 데이터 수집에는 또 개인정보 문제 등 새로운 과제가 있음

    • 만약 이런 경험이 보통의 의료 이용이라면 근본적으로 시스템 전체를 뒤엎을 변화가 필요한 상황임, AI는 단순히 몇몇 회사의 수익률만 높이고 당신에게 이익은 돌아가지 않을 수 있음

    • AI에도 비용이 별도로 들게 될 것임, 무료가 아닐 것임

  • 벤치마크도 모델 만든 쪽에서 만들면 이해상충 아닌가 생각됨, 최소한 별도 비영리 조직이나 모회사 산하 별도 법인이 맡아야 투명하다고 봄

    • 벤치마크 자체가 나쁘진 않은데, 새로 만든 기준에서 Gemini나 Claude가 o3보다 낮게 나오는 그래프를 보고 좀 불편한 느낌이 있었음, "우리가 막 만든 중요한 지표에서 경쟁사 모델이 더 못하네! 대단히 큰일이네!"라는 뉘앙스를 받아들임
  • 의미 이해도 못 하는 LLM에게 건강 정보를 맡긴다는 발상은 심각한 오류임, 데이터 패턴 찾기나 오락, 코드 생성에는 어느 정도 활용 가능하지만, 의료 진단이나 조언에는 절대 신뢰 불가임, 의료인이 LLM이 말한 것만 앵무새처럼 따라 한다는 생각만 해도 끔찍함, 이런 위험성은 하루빨리 규제 필요함

    • 구체적으로 왜 그렇게 결함이 치명적이라고 생각하는지 궁금함, LLM에 명백한 한계가 있긴 하지만 사람도 한계가 있고, 두 가지를 결합해 더 나은 결과를 얻을 수 있다고 봄

    • 누가 실제로 뭔가를 이해하는지, 우리 모두에게 불투명함, 이 글조차 AI가 썼는지 알 수 없고, 누가 진짜 이해력 있는 사람인지 판단하는 절대적 기준은 없음, 인간의 전문성도 결국 평가 시험 등을 통해 간접적으로 가늠하는 것뿐이고, OpenAI가 현재 여기에 도전하는 중임, 내가 신경 쓰는 건 결과임, “성적”이 10%면 인간이든 AI든 신뢰 못함, 95%라면 오히려 의사보다 쓸 만하다 느낄 것임, 실제로 조만간 대부분의 의사들이 이런 벤치마크에서 최신 모델만큼 성적 못 낼 것이라 예상함

    • “피곤하고 편견 많은 포유류 인간”에게 건강 정보를 맡기는 것도 똑같이 위험하다고 봄, 의사에게 공감이나 소소한 대화, 기본 접종 등은 좋지만, 항상 과로한 의사가 데이터 도구보다 정확할 거라는 보장은 없다고 생각함, 내담 의사가 단순히 영업사원 프레젠테이션 내용이나 구닥다리 가이드라인만 반복하면 그것도 끔찍함

  • “k번 표본에서의 최악 점수”를 보여줘서 마음에 듦, 현실적으로는 100명 중 1명도 그 “최악 답변”을 실제로 받게 됨

  • Grok이 이런 테스트에서 생각보다 잘하는 게 인상적임, Grok이 뉴스에서는 Gemini, Llama 등에 비해 덜 주목받는 느낌임

    • Gemini가 의외로 꽤 잘해낸 점에 놀람, Gemini는 유독 건강 관련 주제를 회피하려 해서 점수가 저하된 듯함, 아마 검열로 답변이 부족한 경우 전부 실패로 처리됐을 가능성 있음

    • Grok은 모델 가중치를 다운로드해서 로컬에서 돌릴 수 없음

  • 최근 5년 동안 부상으로 고생했음, 여러 스포츠 전문의, 스캔, 찜질도 해보고 침술, 카이로프랙터까지 다님의, 의사들은 “정상” “원인을 모르겠다” 등 엉뚱한 진단만 늘어났음, 한 의사만 설득력 있는 의견을 냈지만 너무 좌절되어 후속 조치조차 안 했음, 마침내 o3-deep-research에 내 이력 전체를 입력했더니 해당 의사와 동일한 의견(근육그룹 도표, 운동 방법)까지 제안함, 아직 완전히 좋아지진 않았지만 오랜만에 조심스럽게 희망을 느끼는 중임

    • 왜 LLM의 진단을 많은 의사들의 조언보다 더 믿는지 궁금함, 미국에서는 의사들이 물리치료나 운동 처방을 안 했다는 게 잘 이해되지 않음

    • 대부분의 근골격계 부상 치료는 아주 긴 시행착오 여정임을 현실적으로 받아들여야 하며, 영상 검사도 한계가 있고, 증상과 영상결과가 불일치한 사례도 많음, 실망하지 말고 과학적으로 근거 있는 다양한 치료법을 시도하다 보면 결국 대부분 시간이 해결함, 그래서 오히려 특정 치료가 듣는 것처럼 착각하기 쉽기도 함

    • 실제로 필요한 건 의사가 아니라 훌륭한 물리치료사였던 것 같음

    • 결국 그 의사의 의견이 맞았던 거 아닌지, AI이든 온라인 자가진단이든 특별히 승리라 보기 어려움

    • 침, 카이로프랙틱 같은 엉터리 요법을 믿으면서 정작 의사들은 믿지 못하고, 그 다음엔 거짓말로 악명 높은 AI까지 신뢰하는 듯, 내 내부 판단 기준을 되돌아봐야 함

    • 최근 정부 과학예산 삭감이 이런 새로운 접근 시도와 학습 방해하는 안전주의자를 좀 줄여주었길 바람, 이런 모델이 “저는 의료 자문 드릴 수 없습니다” 같은 답변만 하도록 막히는 건 정말 손해임

  • 이번 연구가 매우 사려 깊고 도움이 된다고 느낌, 1년 사이에 모델 성능이 거의 2배 향상된 점도 인상적임, o3와 deep-research가 내 건강 관리에 실제로 도움 많이 됐음, 예를 들어 한 달 전 가슴쪽(심장 부위)에 큰 충격을 받았고, o3에 내 증상과 Apple Watch의 심박/산소포화 정보를 제공했음, 이미 기존 대화로 내 건강 이력도 알고 있었음, 예상 경과와 치료법을 정확히 안내해줬는데 실제로 100% 일치하게 회복됨, 평소에 키, 몸무게, 복용약, 건강정보 등 상세 프롬프트를 미리 준비해뒀다가 증상 발생시 바로 o3에게 입력해 상담하면 아주 유용함

    • Apple Watch나 손목 웨어러블의 SpO2 산소포화도 데이터는 진단용으로 상당히 부정확함, 손가락에 끼우는 전용 산소포화도계가 훨씬 정확함

    • 그 진단에 얼마나 자신감을 보였는지 궁금함, 실제로 그 자신감을 신뢰했는지도 궁금함, 의사인 아내에게 물어봤더니 부상 등으로 인한 심낭삼출(잠재 위급)이 대안으로 가능하다고 함

  • 이 벤치마크가 실제 모델 활용 방식과는 괴리 있다고 느낌, 실제 현업에서는 사용자에게 그냥 베이스 모델을 채팅하게 하지 않고, RAG나 가드레일, 미리 준비된 답변 등 복합 방식을 씀, 실제로 이 평가가 어떤 상업적 시나리오를 의미하는지 의문임

    • 코드 벤치마크도 마찬가지 아닌지, 실질적으로 전문적 Q&A에서는 베이스 o3에 웹검색 좋은 프롬프트만 있으면 더 나음, 오히려 RAG/가드레일이 성능을 저하할 수도 있음

    • 그냥 ChatGPT 채팅 자체가 이 테스트의 현실적 적용임, 아주 크고 중요한 케이스임

  • 비임상의들조차 이제 ChatGPT를 실제 건강문제 도움을 얻기 위해 매일 쓰고 있음, 이 평가는 현실적인 위험을 줄일 수 있는 좋은 데이터셋임

  • 최근 ChatGPT에 검사결과지를 업로드하고 요약을 부탁했는데, AI가 심각한 암을 “환각”해서 여러 추가 설명까지 덧붙였음, 실제로 보고서에는 “암 없음”으로 나왔음

    • 어떤 LLM 모델이었는지 궁금함(4o, o3, 3.5?), 초기 모델들은 성능이 안 좋았는데 o3는 건강문제 도움에 꽤 쓸 만했음(귀문제 등)

    • 혹시 AI가 결과지를 읽지 못하고 그냥 상황극처럼 엉뚱한 대답만 했던 건 아닐지 궁금함, 예전에 엔진 매뉴얼 PDF를 줘서 질문했더니 대충 그럴듯하게 답했으나 실제로는 아예 다른 회로도를 내놓은 적 있었음

    • 농담으로 “암 검사: 암이 발견됨!”처럼 응답한 듯함

    • 나온 결과가 실제로는 어땠는지 궁금함(때로는 우리가 허위양성이라 생각했던 것이 실제로 암인 경우 나중에 밝혀지는 일도 있음, 암은 장기간 후에야 신호가 나오는 경우가 있음)