2P by GN⁺ | ★ favorite | 댓글 1개
  • 오른쪽 어깨 통증 MRI 이후 병원의 Grade III 부분층 파열 진단과 빠른 치료 계획에 의문이 생겨, Opus 4.8로 영상 판독을 다시 시도함
  • 병원은 견갑하근 힘줄의 “apical insertion” 부위에서 50% 초과 폭의 부분층 파열을 봤지만, Opus 4.8은 힘줄이 온전하다고 판단해 결론이 크게 갈림
  • GPT 5.5 Pro는 병원 치료 중 충격파 치료Traumeel 주사의 근거를 문제 삼았고, 이 때문에 진단 자체를 직접 검토해보려는 동기가 커짐
  • Opus 4.8은 Claude Code 환경에서 약 266MB DICOM MRI 파일 수백 개를 패키지 설치와 코드 실행으로 분석했고, 이후 인간 보고서와 ChatGPT 대화까지 넣어 중재 분석을 다시 수행함
  • 최종 중재 결과는 “경도 삽입부 건증, 명확한 부분층 또는 전층 파열 없음”에 가까웠지만, 의료 전문가와 AI 중 무엇을 믿을지에 대한 불확실성은 남아 있음

빠르게 진행된 MRI 진단과 치료

  • 몇 주 동안 오른쪽 어깨 통증이 있었고, 증상이 나아지는 듯했지만 정형외과 의사의 의견을 구함
  • 의사는 MRI를 권했고, 클리닉에서 바로 촬영할 수 있어 검사를 진행함
  • MRI 결과는 견갑하근 힘줄의 “apical insertion” 부위에 Grade III (>50%-width) partial-thickness tear가 있다는 진단으로 이어짐
  • 병원은 MRI 직후 몇 분 만에 치료를 시작했고, 같은 치료를 총 3회 반복하는 계획도 잡음
  • 치료가 지나치게 빠르게 진행된다고 느껴, 병원을 나오며 MRI 결과 사본과 수행·제안된 치료 목록을 요청함

GPT 5.5 Pro가 짚은 치료 근거 문제

  • MRI 결과와 치료 목록을 GPT 5.5 Pro에 전달하자 두 가지가 바로 드러남
    • 병원은 어깨에 충격파 치료를 시행했지만, 최근 임상 진료 지침은 석회화가 없는 회전근개 건병증에 충격파 치료를 사용하거나 권하지 말라고 함
    • 초음파 중에는 석회화가 없다는 말을 들음
    • 병원은 Traumeel을 주사했는데, 이는 독일에서 “치료 적응증 없음”으로 등록된 동종요법 의약품임
  • 이 결과로 병원 진단과 치료에 대한 신뢰가 더 낮아졌고, MRI 자체를 분석해보고 싶어짐

Claude Code에서 Opus 4.8로 MRI 분석

  • MRI 패키지는 확장자 없는 파일 수백 개로 구성된 표준 DICOM export였고, 전체 크기는 약 266MB였음
  • 분석에는 Claude Code 안에서 Opus 4.8 (xhigh) 을 사용함
    • 코드 실행과 패키지 설치가 가능하도록 Claude Code를 선택함
    • 분석에 필요한 패키지는 사전에 설치하라고 지시함
  • 같은 모델을 쓰더라도 Claude Code와 Claude.ai 채팅의 차이가 매우 크다고 봄
  • MRI 지식이 없었기 때문에 Claude가 먼저 자세한 계획을 세운 뒤 실행하도록 설정함
  • 처음 제공한 의학적 맥락은 “오른쪽 어깨 통증 2–3주”뿐이었고, 나중에 인간 의사가 받은 정보보다 적었다고 판단함

첫 분석에서 갈린 파열 여부

  • 1시간 뒤 Opus 4.8이 보고서를 반환함
  • 병원 판독과 Opus 4.8 판독은 정반대에 가까웠음
    • 병원은 견갑하근 힘줄의 apical insertion 부위에서 Grade III 부분층 파열을 봄
    • Opus 4.8은 해당 힘줄을 intact tendon으로 판단함
  • 예상했던 차이는 파열 등급이 낮게 나오는 정도였지만, 실제로는 파열 유무 자체가 달랐음

인간 판독과 AI 판독을 다시 중재

  • 두 결과를 조정하기 위해 Opus 4.8에 비교 분석을 다시 맡김
  • 이번에는 인간 MRI 보고서뿐 아니라, ChatGPT 5.5 Pro와 나눈 대화도 함께 제공함
    • 이 대화에는 진단을 가늠하기 위해 시도할 움직임과 자세가 포함됨
  • Opus는 여러 서브에이전트를 사용해 기존 맥락에 덜 편향된 새 분석을 얻는 방식으로 접근함
  • 다시 약 1시간 뒤 새 보고서가 나옴
  • 중재 결론은 Reader A 쪽 증거가 우세하다는 판단이었고, “moderate-to-high confidence”로 정리됨
    • 경도 삽입부 건증
      • apical insertion을 포함해 명확한 부분층 또는 전층 파열 없음
      • 두 보고서 사이의 일부 분쟁은 해결할 수 없다고 했지만, 이 항목에 대해서는 비교적 단호한 결론을 냄

AI 2차 소견 이후 남은 선택

  • 신뢰하는 전문가에게 맡길 때 느끼는 안정감이 있지만, AI 기반 2차 소견은 그 감각을 불편하게 흔들 수 있음
  • AI 분석 이후 기존 진단과 치료 계획은 사실관계에 비해 성급하고 개입이 많은 것처럼 보였지만, AI 자체도 완전히 신뢰하기 어려움
  • 남은 선택지는 다른 의사를 찾아가거나, 현재 하고 있는 재활로 어깨가 좋아지는지 기다리는 것임
  • 몇 세대 뒤에는 이메일 교정처럼 MRI 검토도 AI를 신뢰할 수 있기를 바람
  • 클리닉과 의사 이름은 밝히지 않으며, 이 경험은 의료 조언이 아니라 AI로 2차 소견을 얻어보는 기술적 호기심에 관한 사례임

댓글과 토론

Hacker News 의견들
  • 영상의학과 의사지만 전체 3D MRI 데이터셋을 보지 않고는 판단하기 어렵다. 초음파는 석회화를 평가하기에 좋은 방법이 아니고, 큰 석회화는 찾지만 작은 것은 쉽게 놓칠 수 있다
    단순 X선이 더 도움이 되고, MRI에서도 보였을 수 있다. 어쨌든 석회화가 없을 때 충격파 치료가 해로운 건 아니며, 그냥 도움이 안 될 뿐이다
    영상의학 판독에서 “없다”고 쓰면 항상 “해당 촬영 방식과 획득된 영상 범위 안에서는 없다”는 단서가 암묵적으로 붙는다. 그래서 초음파 보고서에는 석회화가 없다고 하고, 단순 X선 보고서에는 석회화가 있다고 해도 모순은 아니다
    환자나 의학 용어에 익숙하지 않은 사람에겐 당연히 혼란스럽지만, 보고서에 이를 다 풀어 쓰면 지금보다 더 조건부 표현이 많고 읽기 짜증 나는 문서가 될 것이다

    • 이건 너무 좋게 말한 것 같다. 이걸 이해 못 하면 모든 진단 장비가 무한한 선명도를 갖고 항상 맞는다고 가정해야만 헷갈릴 수 있다
      Babbage에게 “잘못된 질문을 계산 장치에 넣으면 올바른 답이 나오느냐”고 물었다는 일화가 떠오른다. 그는 대략 “그런 질문을 떠올리는 마음의 논리를 도저히 헤아릴 수 없다”고 답했다
    • 방사선사 입장에서 “그 말이 맞다, 선생님!”이라고 하고 싶다. 환자가 자기 상황을 이해하거나 기본적인 혈액검사 수치를 파악하는 데 도움 되는 AI 활용은 봤지만, 사람을 지나치게 맞장구쳐 주며 원글처럼 의학적 토끼굴로 끌고 가는 데는 정말 나쁘다
      AI라면 칼슘은 초음파보다 X선/CT에서 더 잘 보인다는 정도는 짚어야 할 것 같다
    • 동의한다. 영상의학과 의사는 아니지만 MRI 연구를 꽤 한다. 전문가와 일반인은 최전선 모델에서 올바른 진단을 끌어내는 성공률이 다를 가능성이 크고, 프롬프트의 미묘한 차이만으로도 다른 진단이 나올 수 있다 https://www.nature.com/articles/s41591-026-04501-8
    • 여기서 나오는 단어들을 읽고 찾아보니 내 오른쪽 어깨 증상과 너무 비슷해 보인다. 책상 옆에 거대한 토끼굴이 열린 느낌이다
    • 왜 정형외과에서 진단용 초음파를 더 쓰지 않는지 궁금하다. 태아 심장과 장기도 매일 보는데 어깨는 왜 안 되는가? 훨씬 싸고 빠를 것 같다
  • 관심 있는 사람을 위해 공인된 인간 영상의학과 의사가 보는 2차 소견 서비스를 제공하고 있다: https://expert.med

    • 이게 치과 버전으로 필요하다
  • 핵심은 정말 이것이다. AI를 믿을 수 없다는 건 알지만, 동시에 AI에게는 설명을 더 요구하거나 반박하기가 훨씬 편하다. 시간제 예약도 없고 시간당 비용도 없다는 점이 크다. 하지만 정보가 많아진다고 반드시 도움이 되지는 않는다
    15만 마일 뛴 11년 된 Civic을 여러 정비소에 가져가 “2차 소견” 게임을 해 본 적이 있다. 각 정비소의 추천을 비교해 뭘 해야 할지 판단하려 했다
    결과는 서로 전혀 관련 없는 추천 3개였고, 그중 하나는 내가 확실히 틀렸다고 아는 내용이었다. 시작 전보다 더 나빠진 기분이었다
    불확실한 정보의 해법은 AI가 제공할 수 있는 더 많은 정보가 아니라 더 나은 정보인데, 현재 AI는 그걸 제공하지 못한다

    • 한 번에 여러 LLM 구독과 로컬 모델들을 써 둔다. 내 전문 분야 밖의 질문을 할 때는 접근 가능한 LLM 전부에게 물어보고, 별도 세션을 만들어 같은 질문을 여러 방식으로 던진다
      서로 다르고 모순되는 답이 얼마나 많이 나오는지 보면 꽤 드러난다. 대부분은 자신 있게 제시된다
      마지막으로 Claude에 의료 질문을 넣었을 때는 세션 사이에서도 일관된 답을 얻지 못했다
      더 무서운 건 각 LLM을 내가 염두에 둔 답으로 얼마나 쉽게 유도할 수 있는가다. 다른 LLM이 제시한 선택지를 질문하기 시작하면 각 세션이 그 설명 쪽으로 흘러갔다
    • 퍼즐미스터리는 큰 차이가 있다. 퍼즐은 목표 상태가 알려져 있고, 조각, 즉 데이터가 늘어날수록 목표에 가까워진다. 목표까지 얼마나 남았는지도 안다
      미스터리는 더 나쁘다. 데이터 조각이 하나 추가될 때마다 목표가 더 멀어진다. 모든 것이 점점 더 혼란스러워진다
      Malcolm Gladwell이 대중화한 구분이다
    • AI가 현재 더 나은 정보를 제공할 수는 있다고 본다. 다만 신뢰성 있게 해내지 못하고, 비전문가는 그 차이를 구분할 수 없으므로 더 위험해진다
    • ChatGPT가 우리가 얼마나 옳고 똑똑한지 달래 주는 그 부드러운 소리라니… 어떻게 환각을 할 수 있겠나, 5.5라면 특히 아닐 텐데
    • 자동차에 대해 겨우 3개 소견만 받았나? 왜 50개는 안 받았나? 더 많은 정보를 모으면 더 유용한 신호를 찾을 수도 있었다
      정비사에게 소견을 받는 건 시간이 많이 든다는 건 안다. 하지만 AI는 그렇지 않다
  • 몇 년 전, AI 열풍 전이었는데 결핵 오진을 받은 적이 있다. 만성 기침이 있었고, 한 클리닉의 외주 영상의학과 의사가 결핵 징후를 찾았다. 그 결과는 법에 따라 시 결핵 병원으로 보내졌고, 그곳 의사들은 영상의학과 결론을 그대로 받아들여 최소 8개월 동안 감옥 같은 엄격한 체제의 병원에 머물라고 했다
    거절할 방법도 없었다. 일종의 생물학적 위험물로 간주됐고, 법적으로 따라야 했다
    입원 전에 급히 다른 영상의학과 의사를 찾았고, 그는 폐렴이라고 진단했다. 그 보고서를 결핵 병원 주치의에게 보냈더니 검토 끝에 최초 판독이 틀렸다고 결론냈다. 알고 보니 그곳 의사들은 영상을 전혀 읽지 못하고 영상의학과 의사가 말하는 걸 그냥 믿는 구조였다
    웃긴 건 이미 나를 공식 결핵 등록부에 올려놨고, 실수를 인정하고 싶어 하지 않았다는 점이다. 대신 “그 병원에서 7일 만에 결핵이 완치됐다”는 다른 서류를 발급해 줬다. 아마 그 나라에서 결핵을 일주일 만에 이긴 유일한 사람일 것이다
    영상의학과 의사나 의사를 믿기 어렵다면, 비용이 가능할 때 다른 의사를 찾아보는 게 좋다. 결론을 비교해 일치하는지 볼 수 있다. 서로 관련 없는 두 의사나 영상의학과 의사가 같은 말을 한다면 진실에 꽤 가까울 가능성이 있다
    다만 AI와 인간 중 누구를 더 믿어야 할지는 잘 모르겠다. AI는 환각을 하지만, 나도 인간에게 여러 번 오진을 받아 봤다

    • 어떻게 그럴 수 있지? 영상만 보고 결핵을 진단할 수는 없고, 결핵 병원이라면 그걸 알아야 한다
    • 비슷한 일을 겪었다. 아들이 폐렴에 걸렸고 항생제를 10일 먹고도 통증이 계속됐다. X선을 세 명의 의사에게 가져갔는데, 한 명만 흉막삼출이라는 올바른 진단을 했다
      각 의사가 혼자 알아서 보게 둘 게 아니라, 최고 수준의 전문가들이 영상을 보는 중앙화된 장소가 있어야 할 것 같다
  • 여기 사람들이 인체를 결정적 함수처럼, 입력 X에는 출력 Y가 나와야 하는 것으로 기대하는 모습이 재미있다. 그 기대가 진단에도 이어져, 같은 문제를 두고 여러 전문의에게서 같은 진단이 나오리라 생각한다
    인체의 복잡성을 생각하면 진단은 경력 동안 쌓은 경험, 지식, 진단 방법과 장비가 합쳐진 결과다. “의사” 같은 직함은 국가가 “시험을 통과했으니 진료해도 안전하다”고 인증한 것이지만, 모두가 똑같이 진료한다는 뜻은 아니다
    어떤 전문의는 매달 지식을 업데이트하고, 어떤 사람은 매년 하고, 어떤 사람은 전혀 하지 않는다. 지역, 정치, 심지어 날씨까지 변수가 너무 많다
    그래서 전문의 선택이 정말 중요하다. 그 사람의 진료 방식과 전문 분야에 대한 평판을 찾아야 한다. 올바른 진단을 받을 확률을 최대화할 수 있을 뿐, 누군가 의사라고 불린다는 이유만으로 맞을 거라 기대하면 안 된다

    • 주로 그런 함수를 만드는 일을 하는 사람들로 이루어진 커뮤니티라면, 인체도 결정적 함수처럼 기대하는 건 예상 가능한 일이다
    • 요지가 잘 모르겠다. 의학은 본질적으로 오류가 있으니 AI, 특히 여러 전문 AI의 묶음이 더 좋은 진단을 내릴 가능성이 높다는 뜻인가?
  • 어깨 통증으로 거의 곧바로 수술을 권유받은 친구와 가족을 많이 봤다. 수술을 업으로 하는 사람들에게는 수술이 기본값이 되는 일이 흔하다
    나도 한때 어깨가 꽤 아팠고 몇 달 동안 통증이 가라앉지 않았다. 수술은 하기 싫어서 마사지와 침을 시도했지만 전혀 도움이 안 됐다
    해결해 준 건 턱걸이에 정말 집중한 것이었다. 처음에는 하나도 못 해서 매달리기와 견갑 턱걸이부터 시작했고, 점차 일반 턱걸이로 넘어갔다. 한 세트에 몇 개 할 수 있게 된 뒤에는 “grease-the-groove” 방식으로 훈련했다
    한 세트에 17개쯤 하게 됐을 때 훈련 스케줄은 멈췄고, 지금은 하루 중 나눠서 주 3회, 7~8개씩 6세트를 한다. 어깨 가동성 운동도 한다 https://www.youtube.com/watch?v=vP8YmmRMz6I
    게을러져서 빼먹으면 어김없이 불편감이 다시 생기지만, 다시 강화 운동을 하면 사라진다

    • 몇 년 동안 어깨 문제가 있었다. 물리치료도 해 보고 당기기/밀기 운동도 했지만, 그런 운동을 하면 통증이 더 심해졌다. 어깨를 쓰는 운동을 안 하면 “괜찮은” 상태였다
    • 반대로 회전근개 문제가 있었을 때 외과의는 칼을 대기 전에 몇 달간 물리치료를 권했다. 효과가 있었다. 올바른 어깨 움직임에 집중해 웨이트 트레이닝을 꾸준히 하니 통증도 돌아오지 않는다
      환자가 빠른 해결책을 찾으러 가면 그런 해결책을 제안받는 것 같다. 조금 공부한 뒤 자기에게 가장 좋은 해결책을 찾으러 가면 대체로 그걸 얻게 된다
  • 약 2년 전 ChatGPT의 “deep research”로 3년 가까이 싸우던 만성 부비동염을 조사했다. 일반의 3명과 이비인후과 방문 3번을 거친 뒤, 내가 가진 관찰 내용을 전부 AI에 넣었다
    특히 이비인후과 의사가 내 부비동을 내시경으로 보고 알레르기 반응의 증거를 봤으면서, 나중에 알레르기 검사 뒤에는 알레르기 약으로 치료할 수 없다고 결론낸 이유를 설명해 주지 못했다. 몇 번 물었지만 답하지 않았다
    ChatGPT는 사람의 20%가 신체 특정 부위에 국한된 알레르기 반응을 보이며, 어깨의 피부단자검사로는 드러나지 않을 수 있다는 NIH 연구를 찾아냈다. 그에게 물어보니 “알레르기는 그렇게 작동하지 않는다”고만 했다. 거기서 끝이었다. 연구를 들여다볼 생각도 하지 않았다
    그는 CPAP와 정기적인 네뷸라이저 치료를 처방했다. 곁가지로, CPAP 업체가 문자 메시지를 보냈는데 피싱이 아닌지 알아볼 수 없었고, 누구인지 문의했지만 답이 없었다
    그래서 그냥 2세대 알레르기 약을 매일 먹어 보기로 했다
    부비동염은 사라졌다. 이전에는 적어도 분기마다 큰 부비동염을 앓았다. 그 의사 말처럼 알레르기가 그런 식으로 작동하지 않을 수도 있지만, 알레르기 약은 내 문제를 완전히 해결했다
    감사한 일이다. 몇 년 전 CPAP를 한 달 동안 제대로 써 봤지만 도저히 익숙해지지 않았고 잠도 엉망이었기 때문이다

    • 여기엔 풀어볼 게 많고, 처음부터 불리한 상황이었다. 먼저 어떤 검사가 X라고 말하면, X를 부정하기는 정말 어렵다. 이건 의료계만의 문제가 아니라 인간 전반의 문제다. 우리는 결정을 다시 보거나 수정하는 데 서툴고, 뒤집을 가능성을 검토하는 데는 더 서툴다
      다음은 책임과 시간이다. 특히 의료처럼 이해관계가 큰 분야에서 누군가에게 결정을 재검토하라고 하면, 누구도 그 난장판을 열 시간이나 의욕이 없다
      정말 성공하고 싶다면, 진단 고리가 닫히기 전에, 의사들이 아직 당신에 대한 사례를 굳히기 전에, 연구에서 제시한 검사를 제안해야 한다. 그래야 봐야 할 것을 볼 가능성이 가장 크다
      그냥 어떤 가설을 갖고 왔다고 솔직히 말하는 편이 낫다. 의사들은 자신들이 유도당하고 있다는 건 매우 빨리 알아차리지만, 환자가 실제로 맞았다는 건 그보다 늦게 알아차린다. 과로한 사람들이 최선을 다하는 시스템에서는 그렇게 움직여야 한다
    • 매일 먹는 알레르기 약은 조기 발병 알츠하이머 위험이 크게 증가하는 것과 관련돼 있다. 효과 있는 걸 찾아서 다행이지만, 알레르겐 주사를 받아보는 것도 좋을 수 있다
  • 영상의학과 의사로서 Claude와 ChatGPT는 MRI 판독에 정말 형편없다고 봤고, 전혀 믿지 않겠다. 텍스트 기반 자료를 조사할 때는 장점이 있지만, 방사선 영상은 아직 충분히 잘 해석하지 못한다

    • AI는 보고가 부족한 대신 영상을 향상시키는 쪽에서 보완한다
      현재 Siemens MR 소프트웨어 Deep Resolve는 신호를 만들어내고(약 50% 추가), 그다음 두 픽셀 중 하나를 만들어내고, 3D 시퀀스에서는 두 슬라이스 중 하나를 만들어낸다. 각 시퀀스 시간의 약 59%를 줄여 주며, 정말 아주 좋다
      나는 MR 기사다
    • 사람들이 ChatGPT가 체스를 정말 잘할 거라고 기대하는 것과 비슷하다. 초인적 성능의 체스 엔진은 수십 년 전부터 있었으니, 수십억 달러를 들여 학습한 최신 최전선 LLM이라면 당연히 쉬울 거라고 보는 식이다
      사실 ChatGPT 5.5의 ELO가 궁금하다. 흡수한 콘텐츠 덕분에 체스 원리에 대한 기본 이해만으로도 2000 이상이어도 크게 놀라지 않을 것 같다
  • 부정적인 반응이 이해되지 않는다. 현재의 의료는 의사와 환자 모두 머리를 써야 굴러간다. 의사가 진단을 내려 주고 나는 그냥 하루를 이어가는 식의 문제는 거의 없었다. 그런 경우가 있었을 때는 대체로 내가 문제를 확신했고 필요한 것도 알고 있었다. 의사는 치료 접근을 막는 장벽이었다
    Dr. GPT는 좋은 브레인스토밍 도구다. 원문 자료만으로는 어려운 방식으로 정보를 종합해 준다. 다만 “이건 말이 안 된다”고 말하도록 강제하기도 한다
    “의사들은 최신 지식을 모른다”는 쪽은 근거가 약하다고 본다. 사전학습 중 토큰 밀도와 후학습 데이터셋 구성 방식을 생각하면, 근본적인 변화에 적응하려면 매우 오래 걸릴 것이다. 우리가 괴혈병 치료법을 잊어버렸다면, 새 발견에 적응하려면 논문이 몇 편이나 필요할까?

  • 이미지에 대해서는 AI를 믿지 않겠다. 하지만 한 번은 ChatGPT가 MRI 보고서의 텍스트만 보고 보고서가 매우 틀렸을 가능성이 크다고 말하며 다른 진단을 제안한 적이 있다. 꽤 강하게 주장하길래 다른 의사를 찾아갔고, 재검사를 받았다. 결론만 말하면 ChatGPT가 맞았다
    다시 말하지만, 이건 한 사람의 단일 경험일 뿐이라 큰 의미는 없다

    • 일화지만, 의사가 다른 병이라고 한 대상포진 환자의 이미지를 Gemini Pro에 넣었더니 올바른 진단을 내렸고, 덕분에 제대로 치료해 나았다
      의사들이 틀린 말을 하기 전에 왜 LLM에 프롬프트라도 넣어보지 않는지 이해가 안 된다. 자존심 때문인가?
      영상의학은 특화된 합성곱 신경망이 필요하니 이해하지만, 지식 기반에 가까운 문제라면 더욱 그렇다
    • 시각 격차의 상당 부분은 이미지에서 어디에 주목해야 하는지가 덜 구조화돼 있기 때문이라고 본다. 일화적으로, 작은 qwen 미세조정 모델, 예컨대 100억 매개변수 미만 모델도 기반 모델의 30% 미만 정확도를 90%까지 끌어올린다. 이런 모델들을 성과 기반 백오피스 작업용으로 판매한 적이 있다
      실제 가치를 제공하는 전문화된 VLM이 많이 나올 것 같다
    • 며칠 전 ChatGPT 엔터프라이즈가 커널 7.0.2가 6.69보다 오래됐다고 했다
      이런 장난감들은 전혀 신뢰할 수 없다. 쓸모없다는 뜻은 아니지만, 믿을 수는 없다