# 온타리오 감사관들, 의사용 AI 노트 작성기가 기본 사실을 반복적으로 틀린다고 밝혀

> Clean Markdown view of GeekNews topic #29542. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=29542](https://news.hada.io/topic?id=29542)
- GeekNews Markdown: [https://news.hada.io/topic/29542.md](https://news.hada.io/topic/29542.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2026-05-16T07:35:05+09:00
- Updated: 2026-05-16T07:35:05+09:00
- Original source: [theregister.com](https://www.theregister.com/ai-ml/2026/05/14/ontario-auditors-find-doctors-ai-note-takers-routinely-blow-basic-facts/5240771)
- Points: 1
- Comments: 1

## Topic Body

- 온타리오가 의료 제공자용으로 승인한 **AI Scribe 시스템 20개**에서 핵심 정보 누락, 오정보 삽입, 발화되지 않은 내용 생성이 확인됨
- 조달 평가는 **모의 의사-환자 녹음**과 AI 생성 진료 메모를 의료 전문가가 대조하는 방식이었고, 9개 시스템은 치료 계획 제안까지 조작함
- 12개 시스템은 **잘못된 약물 정보**를 넣었고, 17개 시스템은 녹음에 나온 환자의 **정신건강 핵심 세부사항**을 놓침
- OntarioMD는 의사에게 AI 메모를 수동 검토하라고 권고했지만, 승인 시스템 중 **정확성 확인 필수 기능**을 갖춘 것은 없었음
- 평가 점수에서 **국내 거점 보유**가 30%였던 반면 의료 메모 정확도는 4%, 편향 통제와 위험·개인정보 평가는 각각 2%에 그침

---

### 감사 보고서와 평가 방식
- Canada의 **Office of the Auditor General of Ontario**가 낸 [공공서비스 AI 사용 현황 관련 보고서](https://www.auditor.on.ca/en/content/specialreports/specialaudits/en2026/AR_2026_AI_EN.html)에 Ontario Ministry of Health의 **AI Scribe 프로그램** 평가가 포함됨
- 이 프로그램은 의사, 전문간호사, 기타 의료 전문가를 대상으로 한 AI 노트 작성 도구 조달을 다룸
- 조달 과정에서는 **모의 의사-환자 녹음**을 사용했고, 의료 전문가들이 원본 녹음과 AI 생성 진료 메모를 대조해 정확도를 판단함

### 확인된 오류
- 20개 시스템 중 9개는 녹음에서 다뤄지지 않은 내용을 **조작**하고 환자 치료 계획 제안을 생성함
- 샘플 보고서에는 “종괴가 발견되지 않았다”거나 “환자가 불안해했다”는 식의 **잠재적으로 심각한 오정보**가 들어갔지만, 이런 내용은 녹음에서 논의되지 않았음
- 20개 시스템 중 12개는 환자 메모에 **잘못된 약물 정보**를 넣음
- 20개 시스템 중 17개는 녹음에서 다뤄진 환자의 **정신건강 관련 핵심 세부사항**을 놓침
- 6개 시스템은 환자의 정신건강 문제를 전체 또는 일부 누락하거나 핵심 세부사항을 빠뜨림

### 수동 검토와 안전장치
- 의사의 신기술 도입을 지원하고 AI Scribe 조달 과정에 관여한 **OntarioMD**는 의사들이 AI가 만든 메모의 정확성을 수동으로 검토하라고 권고함
- 감사 보고서에 따르면 승인된 AI Scribe 시스템 중 어느 것도 의사가 정확성을 확인했다는 **필수 확인 기능**을 갖추지 않음

### 평가 가중치 문제
- 낮은 성능의 상당 부분은 **평가 가중치** 문제와 연결됨
- 플랫폼 평가 점수의 30%는 Ontario 내 **국내 거점 보유 여부**에 배정됐고, 의료 메모의 정확도는 전체 점수의 4%만 차지함
- **편향 통제**는 전체 평가 점수의 2%였고, 위협·위험·개인정보 평가는 2%, SOC 2 Type 2 준수는 4%를 차지함
- 이런 가중치는 부정확하거나 편향된 의료 기록을 만들 수 있거나, 민감한 개인 건강 정보를 보호할 충분한 장치를 갖추지 못한 벤더를 선정하는 결과로 이어질 수 있음

### Ontario 보건부 대응
- The Register는 Ontario Health Ministry에 보고서에 대한 입장과 AI Scribe 프로그램 권고사항을 따를 계획이 있는지 문의했지만 즉각적인 답변을 받지 못함
- 보건부 대변인은 수요일 [CBC에](https://www.cbc.ca/news/canada/toronto/ai-scribe-system-hallucinations-9.7197049) Ontario에서 5,000명 이상의 의사가 AI Scribe 프로그램에 참여하고 있으며, 해당 기술과 관련된 환자 피해 보고는 알려진 바 없다고 밝힘

## Comments



### Comment 57569

- Author: neo
- Created: 2026-05-16T07:35:06+09:00
- Points: 1

###### [Hacker News 의견들](https://news.ycombinator.com/item?id=48142188) 
- 현재 AI 기술의 미래에 대해 대체로 비관에서 낙관으로 바뀌었지만, 모델이 크게 발전하는 와중에도 **기본 사실 오류**가 계속 남아 있는 점은 여전히 크게 걸림  
  Claude Opus로 취향과 풍미에 맞춰 레시피를 만들면 마법 같다가도, 큰술과 작은술 변환 같은 기본 단위 계산을 틀리는 순간 확 식음  
  거의 제대로 행동하던 영화 속 인물이 어딘가 이상하더니 좀비였다는 식의 느낌이고, 이 노트 작성 사례도 인상적으로 거의 작동하다가 중요한 세부사항에서 실패함  
  이런 실패를 보면 현세대 AI가 잘 관리하면 멋진 일을 할 수는 있어도, **진짜 지능**으로 가는 올바른 경로 위에 있는지는 점점 더 의심됨
  - 맞는 말임. 업계가 잘 이야기하지 않는 **능력-신뢰성 격차**가 있음  
    AI 업계는 능력과 신뢰성이 근본적으로 다른 성질이라는 사실을 계속 얼버무리는 듯함. “정확하다”와 “신뢰할 수 있다”를 흔히 같은 뜻으로 쓰지만, 모델이 벤치마크를 잘 통과해도 실제 운영 환경에서는 위험 요소가 될 수 있음  
    METR의 최신 결과도 능력 향상에는 반응이 크지만, 그 측정이 **50% 성공률** 기준이라는 점은 덜 이야기됨. 80% 성공률 기준의 보조 지표는 작업 시간 범위가 훨씬 짧아짐: [https://metr.org/](<https://metr.org/>)  
    기업용 AI 시스템을 구현하지만, 80% 신뢰성은커녕 50% 신뢰성을 받아들일 기업은 본 적이 없음
  - LLM이 범용 인공지능으로 가는 맞는 길인지 회의적이었지만, 사용 방식 확장, LLM용 **하네스**, 더 나은 문맥 설계를 통해 얼마나 더 밀고 갈 수 있는지 보며 계속 놀라게 됨  
    LLM이 사실상 스스로 프롬프트와 문맥을 설계할 수 있는 모습을 보면, 영원히 인간의 안내가 필요하지는 않을 것 같음  
    구체적 방법론이 있는 단순 사실 기반 작업에는 LLM이 맞는 도구가 아니며, 그런 작업을 인식해 더 확정적으로 동작하는 도구로 넘기지 못하는 건 하네스의 실패라고 봄  
    필요한 때 “기술”을 쓰듯, 특정 작업은 도구나 특화된 “두뇌”로 넘겨야 함  
    첫 범용 인공지능은 단일 두뇌가 아니라 여러 LLM, 하네스, 기술, 도메인·작업 특화 하위 시스템이 얽힌 **복합 시스템**일 가능성이 커 보임
  - Claude가 변환값을 가끔 과대평가한다면, 호주식 큰술이 미국식과 다른 데서 온 현상일 수 있음  
    **호주식 큰술**은 4작은술/20mL이고 미국식은 3작은술/15mL라서, 이 오류는 현실 세계의 복잡성으로 어느 정도 설명 가능함  
    다만 3.14작은술이나 2작은술이라고 한다면 모르겠음
  - 이 비유는 1년 전 이미지 생성 모델의 이상한 손가락과 손을 떠올리게 함  
    지금은 거의 해결됐고, 요즘은 현실과 구분하기 어려운 동영상까지 생성함  
    그래서 이런 **미묘한 오류**들도 계속 줄어들어 결국 거의 모든 작업에서 발견하기 어려워질 거라고 믿게 됨
  - 어제 Copilot을 통해 opus 4.6을 써서, 세심함이 필요한 큰 기능을 **러버덕 브레인스토밍**했음  
    영감은 얻었지만 아주 기본적인 내용도 잘못 해석했음. 내 사용 능력 문제일 수도 있어 확신은 못 하겠음

- 직장에서 회의용 LLM 노트 작성기를 쓰는데, 최근 CIO가 벤더가 약속하고 지키지 않았다며 매우 화를 내서 개입해야 했음  
  그 “약속”이 있었다는 회의에 CIO는 없었고 나는 있었는데, 실제로는 아무것도 약속하지 않았고 논의는 LLM의 상세 요약보다 훨씬 미묘했음  
  논의가 선형적이지 않을 때도 빗나가는 걸 봄. 예를 들어 SOC 팀과 최근 경보/사고 대응을 놓고 오가며 이야기하면 요지는 맞추지만, **정확성**에 의존하면 정말 크게 틀림  
  병원에서 처음 간호사가 하는 방문 기록처럼 주 증상, 체중, 키, 최근 변화 요약에는 잘 맞을 수 있지만, 의사와의 상세하고 기술적인 문답에는 신뢰하지 않겠음  
  규정 준수 측면에서도 병원은 기록을 고쳐 쓰기보다 녹취록만 쓰고 싶어할 것 같은데, 잘 모르겠음
  - 최근 어머니날에 엄마에게 부재중 음성 메시지를 남겼는데, “전화 못 받아서 아쉽고 오늘 밤이나 내일 편할 때 전화해도 좋고 곧 이야기하자, 사랑해, 안녕” 정도의 평범한 인간적 인사였음  
    그날 밤 엄마가 다시 전화해 잠깐 얘기하다가 “그래서… 나한테 뭔가 꼭 말해야 할 게 있었니?”라고 조심스럽게 물었고, 나는 완전히 당황했음  
    알고 보니 통화 알림의 LLM 요약이 75%가 별 의미 없는 인간관계용 완충 표현인 음성 메시지를 딱딱하고 과도하게 격식 있는 **업무식 문장**으로 바꿔, 뭔가 불길한 분위기를 만들었음  
    “이야기하고 싶다”, “가능한 시간을 묻는다” 같은 각각의 표현에 지나치게 큰 의미를 부여해, 중요한데 애매하고 시간도 촉박한 무언가를 말하려는 장황한 메시지처럼 보이게 했음  
    그 결과 엄마는 조금 걱정했고, 안부 인사의 최종 결과가 그렇게 된 데 화가 났음. 이제 모든 것에 반쯤 익은 LLM 요약을 쑤셔 넣어야 하는 모양임
  - 지금까지 받은 모든 진료에서 기록을 나중에 고칠 수 있었고, 거의 절반은 의미 있는 실수가 있었음  
    **요약 기록은 항상 즉시 확인**하고, 문제가 있으면 가능한 한 빨리 의사에게 연락해야 함  
    보통 의사가 직접 고칠 수 있고, 모두가 아직 그 일을 기억할 때 하는 게 가장 좋음
  - 나도 그 부분이 의아함. 그냥 **녹취록**을 만들고 끝내면 안 되나?  
    특히 긴 녹취록이 계속 참조된다면, 사람이 필요하다고 느끼는 위치에 나란히 요약을 수동으로 표시하면 됨  
    이런 상호작용에는 대개 대충 걸러내도 되는 잡정보가 많지 않고, 세부사항이 꽤 중요하다는 게 내 경험임
  - 녹취는 너무 좋기도 하고, 충분히 좋지 않기도 함. 생성형 내용이 들어가면 더 나빠짐  
    너무 좋은 쪽은, 많은 상업 환경에서 지속적인 녹취를 금지한다는 점임. 특정 세부사항이 쉽게 증거개시 대상이 되는 기록으로 남아 사업 리스크가 되기 때문임  
    회의록이나 요약은 민감한 논의를 빼거나 구체사항 없이 합의만 제시할 수 있고, “전략적 모호성”을 가진 해석 방어도 생김  
    충분히 좋지 않은 쪽은, 음성 인식도 여전히 확률적이라는 점임. 실제 평가 출력에는 선택된 단어만큼이나 대체 단어·구절 데이터가 들어 있을 수 있어, 말하지 않은 단어를 표현하거나 다른 인상을 만들 여지가 큼  
    사람들이 **음성 인식 녹취록**을 권위 있는 기록처럼 생각한다는 사실이 이 문제를 더 악화시킴  
    그 위에 요약 같은 생성형 추론을 얹으면 두 문제가 모두 커짐. 법률 자문 입장에서는 특정 검색 가능 용어가 덜 들어가고 책임과 구체성이 흐려지는 요약을 더 받아들이기 쉬울 수 있음
  - 내 경험상 녹취는 꽤 잘 작동하며, 이런 경우에는 **녹취록을 기준 사실**로 취급해야 함

- 최근 실제로 겪었음. **러너스 니** 진단을 받았는데 AI 요약에는 골다공증 진단, 고관절 통증, 보행 곤란이 있다고 적혔고, 그런 말은 전혀 나오거나 암시된 적도 없었음  
  녹취록은 항상 확인해야 함. 특히 LLM 전사기는 실제로 없는 흔한 증상을 넣거나, 몇 가지 세부사항에는 맞지만 다른 부분에는 맞지 않는 흔한 진단을 주장하는 일이 꽤 잦음  
  틀린 기록은 이후 진료와 비용에 강하게 영향을 줄 수 있으니 반드시 고쳐야 함  
  단순하고 흔한 몇 가지를 제외하면, 내가 받은 “AI” 요약의 약 50%는 어딘가 틀렸음. 보통은 없는 증상을 있다고 하고, 이번처럼 더 심각한 날조도 가끔 있음  
  LLM은 일반 음성-텍스트 소프트웨어가 아니며 그렇게 취급하면 안 됨. 실제로 없었던 문장 전체를 삽입하곤 하고, 의료 기록에서는 절대 괜찮지 않음
  - Zoom LLM 요약이 하지 않은 말을 특정 사람에게 돌려서 심각한 문제가 생긴 걸 실제로 봤음  
    회의에 참석하지 못한 다른 사람이 그 요약을 나중에 읽고 큰 논쟁이 벌어졌는데, 그 주제가 회사 내 진행 중인 논쟁 때문에 그 사람에게 예민한 사안이었음  
    참석자 모두가 오류라고 확인했지만, 타이밍이 우연히 맞아떨어져 그 사람이 받아들이기 어려웠음. LLM 요약이 이전에 일부 참석자들이 축소해 보던 우려를 확인해주는 식으로 내용을 제시했기 때문임  
    결국 관리층이 독립적 검증 없이 **생성형 출력**을 신뢰하지 말라는 정책을 만들 정도로 일이 커졌고, 적어도 교훈은 얻은 듯함

- 그런데 인간은 얼마나 정확한가? 지난 5년치 의료 기록 출력물을 받아 왔는데 책처럼 두꺼웠음  
  사람이 그걸 전부 읽고 의미 있는 일을 하기는 어렵다고 봄  
  AI 도구가 훑게 하면 분명 틀리거나 근거 없는 결론으로 뛸 수 있지만, 빠르게 확인하고 이상한 부분에 반박한 뒤 올바른 답으로 가는 속도는 간호사나 의사와의 어떤 미팅보다 빠를 수 있음  
  완벽하지 않은 부분만 지적하기보다, 이런 도구를 어떻게 쓰고 이상하거나 틀린 부분에 어떻게 반박할지에 집중해야 더 많은 일을 할 수 있음

- 직장에서 쓰는 AI 노트 작성기는 회의도 녹음하고, 각 메모마다 녹음의 해당 위치로 바로 가는 **타임스탬프 링크**를 붙여 직접 확인할 수 있게 함  
  HIPAA 환경에서는 이런 해법이 더 복잡하겠지만, 의료처럼 중요한 분야에는 이런 방식이 필수적임
  - AI 기반 사용자 경험을 설계할 때 이것을 **출처 추적성**이라고 부름  
    신뢰, 신뢰성, 규정 준수 등에 핵심적인 요소임  
    소프트웨어 시스템이 이런 LLM 출력을 포함하면서도 사람이 평가하고 검증할 수 있도록 출력의 출처를 드러내지 않는다면, 좋게 봐도 나쁜 사용자 경험이고 최악의 경우 위험함
  - 그건 “노트 작성기”라기보다 **오디오 샘플 검색 엔진**처럼 들림  
    정확성을 원하면 결국 전부 들어야 함
  - 그 방식에는 결국 셋 중 하나가 필요함  
    누군가가 전체 회의 녹음을 들으며 모든 메모를 확인해야 해서 시간과 인력이 많이 들거나, 참석자가 기억으로 메모를 확인해야 해서 오류에 취약하거나, 참석자가 자기 메모와 대조해야 해서 AI 노트 작성기의 의미가 사라짐  
    현실적으로 정확성이 중요한 어떤 맥락에서도 AI 사용은 어떤 형태로도 받아들일 수 없지만, 그걸 인정하게 만들기는 어려움

- 캐나다인으로서 AI가 의사 시간을 확보하고 의료 시스템의 부담을 덜어줄 가능성에는 기대하지만, 이건 무서움  
  아직 거기까지 도달하지 못했음. 앞으로는 의사를 위한 **AI 교육**이 필요할지도 모름  
  이미 일부 콘도 단지에는 의료기관 소유 iPad로 온라인 의사 진료를 하는 곳도 있고, 주치의 예약 절차의 번거로움을 우회해줌  
  혁신 방향 자체는 맞다고 보지만 시간이 필요함. 가끔 AI가 너무 일찍 출시됐다는 느낌이 듦
  - 이 기술을 잘못 적용하고 있는 것 같음. 예를 들어 전사에 던져 넣고 완벽한 출력을 기대하기보다, LLM의 강점으로 입력 품질을 높여 모두에게 이득이 되게 해야 함  
    의사 시간을 확보하는 예를 들면, 환자 방문은 대개 산만하고 환자는 여러 문제를 한꺼번에 말하며, 의사는 촉박한 시간과 규제상 설명 의무 속에서 진료에 영향을 주는 내용을 전달해야 함  
    완벽한 녹취록이 있어도 모두가 손해 보는 구조이고, LLM은 완벽할 수 없으며 자동완성을 할 뿐임  
    환자가 **접수 AI**와 상호작용해 몇 시간짜리 횡설수설이나 불안 발작 중의 말을 들어주고, 보호자가 확인한 요구 요약과 관련 선별 정보를 의사가 확인할 수 있게 제공하는 그림을 떠올림  
    그 시점에는 약 접근성이나 보험 정책 같은 유용한 정보도 의사 확인을 거쳐 제시할 수 있고, 환자는 시간 압박 없이 시스템 이해를 정리하고 보완할 수 있음  
    대화의 질을 높여 의사가 환자에게 더 집중하고, 환자의 대화 요구가 치료를 압도하지 않게 하는 방향임. 의료에는 양식과 체크리스트 작성이 많고, 자동완성이 그 이행 방식에 효율을 만들 수 있다고 봄

- 토론토에 있는데, 내 의사는 항상 AI 노트 작성기를 써도 되는지 물어보고 나는 허락함  
  진료가 끝나면 의사가 메모를 훑고 고치며, 컴퓨터에게 나보다 더 많이 말해야 한다고 자주 불평함  
  좋은 의사라서 다행히 이런 **사후 확인**을 하지만, 이게 의사들이 원하지 않아도 강제로 밀어 넣어진다는 인상을 줌

- 요즘 회의에 참여하는 사람은 큰 소리로 이렇게 말해야 함: “고지: 이 회의에서 AI가 해석한 발언은 정확하지 않을 수 있습니다”  
  나는 모든 회의에서 이렇게 함

- 링크된 보고서는 거의 쓸모없어 보임. **오류율**이나 표본 크기에 대해 아무 말도 없어서, 20개 시스템 중 9개가 “정보를 조작하고 환자 치료 계획에 제안했다”는 일이 열 번 중 열 번인지 천 번 중 한 번인지 알 수 없음  
  시스템 오류율이 높다고 가정하더라도, 왜 도입되는지 궁금함  
  테스트는 매우 쉬워 보이기 때문에, 형편없다면 의사·병원·정부가 속아서 살 이유가 없어 보임
  - 기사에 따르면 “플랫폼 평가 점수의 30%는 온타리오 내 국내 거점 여부에만 달려 있었고, 의료 기록 정확성은 총점의 4%에 불과했다”고 함  
    **정확성**은 사실상 평가의 핵심이 아니었고, Ontario는 신경 쓰지 않은 셈임

- Ontario Ministry of Health가 의사, 전문간호사, 더 넓은 보건 부문의 다른 의료 전문가를 위해 시작한 AI Scribe 프로그램을 구체적으로 다룬다고 하는데, 보건부가 어떤 품질의 소프트웨어를 밀어붙일지 궁금해짐  
  아마 SOC 같은 자격 요건이 대부분일 것 같음  
  승인 벤더 목록은 이 링크로 보임: [https://www.supplyontario.ca/vor/software/tender-20123-artif...](<https://www.supplyontario.ca/vor/software/tender-20123-artificial-intelligent-solutions-ai-scribe/>)
