5P by GN⁺ 10시간전 | ★ favorite | 댓글 1개
  • 유럽방송연합(EBU)과 BBC가 주도한 국제 공동 연구에서 주요 AI 비서 4종(ChatGPT, Copilot, Gemini, Perplexity) 이 뉴스 콘텐츠를 전달할 때 45%에서 왜곡이나 오류를 보이는 것으로 드러남
  • 연구는 18개국 22개 공영방송이 참여해 14개 언어, 3,000개 이상의 응답을 평가했으며, 출처 누락·부정확(31%), 사실 오류·환각(20%) 등이 다수 발견됨
  • 특히 Gemini의 문제 비율은 76% 로 가장 높았으며, 주된 원인은 출처 표기 실패로 분석됨
  • BBC의 이전 연구 대비 일부 개선은 있었지만, 여전히 체계적·다국적 수준의 문제가 확인됨
  • AI 비서가 뉴스 검색을 대체하는 추세 속에서 공공 신뢰와 민주 참여 위축 위험이 제기됨

연구 개요

  • EBU 뉴스 총회(나폴리) 에서 발표된 이번 연구는 역대 최대 규모의 다국적 실험으로, AI 비서가 언어·국가·플랫폼에 상관없이 일관된 뉴스 왜곡을 보인다는 결론을 제시함
  • 참여 기관: BBC, ARD, ZDF, CBC, NPR 등 세계 22개 공영방송
  • 평가 기준: 정확성, 출처 명시 여부, 사실과 의견의 구분, 맥락 제공 등 주요 언론 윤리 지표

주요 결과

  • 전체 응답의 45%에서 심각한 문제가 발견됨
    • 31% 는 출처 오류(누락, 잘못된 인용, 오인된 출처)
    • 20% 는 정확도 결함(환각, 구식 정보, 오정보 포함)
  • Gemini는 문제 비율이 76% 로 다른 모델의 두 배 수준
  • BBC가 올해 초 발표한 연구보다 일부 지표는 개선됐지만, 여전히 전반적인 왜곡률은 높음

왜 이 왜곡이 중요한가

  • AI 비서는 이미 다수에게 검색엔진을 대체하는 뉴스 창구로 자리잡음
  • Reuters Institute의 ‘Digital News Report 2025’ 에 따르면 전체 온라인 뉴스 소비자의 7%(25세 이하에서는 15%)가 AI 비서를 뉴스 출처로 사용 중임
  • Jean Philip De Tender (EBU 미디어 디렉터) 는 “AI 비서의 문제는 국경과 언어를 초월한 체계적 현상으로, 이는 공적 신뢰를 위협한다”고 경고함
  • BBC의 Peter Archer는 “AI의 가능성은 크지만, 신뢰할 수 있는 정보 전달이 우선되어야 하며 언론사와 AI 기업의 공동 대응이 필요하다”고 강조함

대응 및 다음 단계

  • 연구팀은 문제 해결을 위한 News Integrity in AI Assistants Toolkit 을 공개함
    • 좋은 AI 응답의 기준과 문제 해결 방향을 제시
    • AI 응답 품질 개선과 사용자 미디어 리터러시 향상을 목표로 함
  • EBU는 EU 및 각국 규제 당국에 정보 무결성과 디지털 서비스 관련 법 집행 강화를 촉구하고, AI 비서의 지속적 독립 모니터링을 제안함

추가 연구 및 인식 조사

  • BBC는 별도의 ‘Audience Use and Perceptions of AI Assistants for News’ 보고서를 통해,
    • 3분의 1 이상(UK 성인) 이 AI가 만든 뉴스 요약을 신뢰한다고 응답했으며,
    • 오류 발견 시 AI뿐 아니라 언론사에도 책임을 묻는 경향이 있다고 분석함
  • 이는 AI 비서의 오류가 뉴스 브랜드 신뢰도에도 부정적 영향을 미칠 수 있음을 보여줌

참여 방송사 목록

  • 벨기에(RTBF, VRT), 캐나다(CBC-Radio Canada), 체코(Czech Radio), 핀란드(YLE), 프랑스(Radio France),
    조지아(GPB), 독일(ARD, ZDF, Deutsche Welle), 이탈리아(Rai), 리투아니아(LRT),
    네덜란드(NOS/NPO), 노르웨이(NRK), 포르투갈(RTP), 스페인(RTVE), 스웨덴(SVT),
    스위스(SRF), 우크라이나(Suspilne), 영국(BBC), 미국(NPR)
Hacker News 의견
  • 실제 보고서를 들여다보면, 수치가 어떻게 산출되었는지 알 수 있음. 대부분의 오류는 “출처 문제”인데, AI 어시스턴트가 주장을 인용하지 않거나, (충격적이게도) BBC가 아니라 Wikipedia를 인용하는 경우임. 추가적으로, 이 보고서는 어떤 모델을 썼는지도 명확히 밝히지 않음(부록에 언급되긴 했음). Anthropic(이런 작업에선 내가 볼 때 최고임)는 제외하고 Perplexity나 Copilot만을 대상으로 삼았음. 최근 보고서와 1년 전 연구의 내용을 뒤섞어 맥락이 빠져 있어서, 상황이 많이 변했다는 점도 빠져있음. 이 기사에는 여러 중요한 문제가 있음

    • 인간 기자들도 백서 내용을 85% 정도 잘못 전달함. 이런 걸 감안하면 45%란 수치가 그렇게 나쁘게 느껴지지 않음

    • 인용 문제는 BBC의 robots.txt가 AI 크롤러와 사용자 에이전트 대부분을 차단하기 때문일 가능성도 생각함

    • 인간이 쓴 글을 해석하는 데서 생기는 문제는 정말 크다는 점에 동의함. 이번 기사가 좋지 않더라도, 기사에서 주장하는 그런 문제는 실제로 심각하게 존재함. LLM은 개별 문장을 오해하거나, 누가 무슨 말 했는지 추적을 잃는 일이 최신 모델(GPT-5 포함)에서도 종종 나타남. 특히 인간이 쓴 토론을 분석하라고 시키면 이런 일이 일어남. 이런 문제는 아마 해결 가능하겠으나, 아직 완전히 해결된 건 절대 아님

    • Wikipedia를 BBC 대신 인용하는 게 문제라는 지적에 꼭 덧붙이고 싶음. 사실 더 큰 문제는 “존재하지도 않는” Wikipedia 문서를 인용한다는 점임. 예를 들어 ChatGPT가 “European Union Enlargement Goals for 2040”라는 실제로 존재하지 않는 위키 문서에 링크를 걸었고, EU 공식 정책도 아니었음. 제대로 존재하지 않는 URL과 가상의 EU 목표, 정책까지 만들어냄

    • 이 기사는 본인의 역할을 제대로 하고 있다고 봄. 사람들이 나중에 인용할 헤드라인을 던져주는 역할임. 앞으로 한두 달 내에 실제로 이 기사 링크나 “AI 프로젝트의 95%가 실패한다” 같은 어설픈 인용이 여기저기서 등장하는 걸 볼 것임. POSIWID(“the purpose of a system is what it does”라는 약어로, 시스템의 목적은 실제로 하는 일이라는 의미)

  • 실제로 AI 요약과 원문을 비교해 본 사람이 얼마나 있을지 궁금함. 나는 몇 번 직접 비교해봤는데, 결과물이 정말 형편없었음. 요약이라기보다 “무작위 압축” 같은 걸 하는데, 이건 요약과는 완전히 다름. 심각한 경우엔 핵심 결론이 실제와 완전히 반대가 됨. 그래서 AI 요약 기능은 이제 전혀 신뢰하지 않음

    • Gemini의 통화 요약 기능을 직접 확인해 보면 거의 항상 심각한 문제가 들어감. 어제도 Gemini가 우리가 합의하지 않은 사안을 마치 결정된 것으로 기록했음. 그게 가장 중요한 내용이었는데 완전히 반대 결과가 나옴. 차라리 없는 게 나을 정도임

    • “무작위 압축”이라는 표현이 정말 적절함. 나는 이메일이나 문자 요약에서 특히 이런 현상이 튀어나온다고 느낌. 메시지의 요지를 전혀 잡지 못하고, 랜덤하게 문장만 뽑아내는데 99.9%의 경우 실제 핵심이 아님. 그래서 아예 무시하게 됨

    • 내가 써보니까, 이런 현상은 주로 경량화된 오픈소스 모델이나 미니 모델에서 많이 보임. SOTA급 모델(예: Sonnet-4.5, Opus-4.1, GPT-5-Thinking 등)은 이런 문제가 거의 없음. 하지만 그건 비용이 너무 높으니 대부분의 회사는 비용이나 속도 때문에 싸구려 모델이나 미구현 TTC를 씀

    • 이런 현상이 뉴스 기사 제목이 클릭베이트(자극적인 낚시성 제목)인 경우가 많아서 그런 거 아닐까 궁금함. AI가 제목만 보고 내용을 요약해버리면 당연히 원문의 절반 이상을 오해하는 게 놀랍지 않음

    • 때때로 AI가 그냥 아예 없는 내용을 지어내기도 함. 실제로 논문 제목, 저자, 결과까지 모두 근거 없이 창작한 인용을 본 적 있음

  • Gemini에게 최신 뉴스를 수집해 보여달라고 시켰는데, 검색을 사용하지 않고 제목, 요약, 링크까지 전부 날조함. 한두 번이 아니라 여러 번 이런 일이 발생함. 그래서 이제 Gemini를 웹 검색이 들어가는 어떤 일에도 쓰기가 두려워짐. 예시로, “Google DeepMind와 Harvard 연구진이 LLM의 ‘마음 이론(testing the theory of mind)’을 평가하는 새 방법을 제안”이라는 내용과 링크를 받았으나, 링크는 작동하지 않고, 제목 또한 검색에 나오지 않았음

    • Gemini의 답변을 열 번 보면 일곱 번 이상은 오답임. 어떤 때는 제품명을 헷갈리거나, 실제랑 다르게 영업시간을 틀리게 알려줌. 예를 들어 아내랑 간 식당이 월~금 오픈이라고 안내했지만 실제는 화~토만 영업이라 헛걸음한 적 있음. 가끔은 아예 말도 안 되게 수십 개의 ‘사실’을 창작함. 아내는 이제 스스로 더 꼼꼼히 확인하고, 사장님조차 “Gemini가 X라면, 실제로는 Y일걸?”이라고 농담하는 상황임

    • 이런 현상을 똑같이 재현하지 못하고 있음. 어떤 프롬프트를 사용했는지 궁금함. 오늘의 톱뉴스를 요청하면 Google 검색을 활용해서 진짜 링크를 제공해줌

    • 어떤 버전의 Gemini를 썼는지, API로 직접 불렀는지 웹앱(Gemini나 AI Studio 등)으로 썼는지도 궁금함. 모든 LLM 앱이 웹/뉴스 검색 기능을 켠 상태가 아니므로 접근 권한에 따라 결과가 완전히 달라짐. 물론, AI가 웹 검색 권한이 없으면 그 사실을 알려줘야지 가짜 링크를 지어내면 안 된다고 봄. 만약 웹검색 기능이 활성화되어 있었음에도 제대로 검색을 실행하지 않았다면, 그것 자체가 문제임

    • 이런 일이라면 그냥 보통 뉴스 사이트 들어가서 직접 헤드라인을 읽는 게 낫지 않은지 질문하고 싶음

    • AI가 제공하는 링크라도 반드시 직접 클릭해서 그 내용이 정말 제대로 설명돼 있는지 확인해야 함

  • LLM 전도자들이 이런 도구의 허술한 성능을 즉각적으로 합리화해 버릴 때 사용자가 얼마나 실망하게 되는지 인지하고 있는지 궁금함. 기술적 한계가 아니라 마치 “신앙” 수준의 태도로 비춰짐. 마치 "역량" 자체가 과한 요구로 느껴지게 만들고 있음

    • 그런 전도자 중 상당수는 결국 AI로 만든 시작품(프로토타입)만 내세우다가 열기가 식으면 무너질 스타트업 창업자(혹은 리더가 되면 따라가며 똑똑하다고 느끼는 개발자)일 거란 생각이 듦. 테크 업계에 “가짜로 하다가 진짜로 된다”(fake-it-till-you-make-it) 문화가 너무 만연해 실망스럽게 느껴짐

    • 우리는 이미 '탈진실(post-truth) 사회'에 살고 있다고 여기며, 무슨 말을 하든 진실 여부는 중요하지 않고, 오직 그 말을 했을 때 자신이나 자기가 밀고 있는 것의 힘이 커질지가 전부라고 봄

    • 순환적인 폰지 구조에 투자한 사람이라면 누구나 LLM 실패를 무턱대고 변호함. 그들은 무의미한 토큰 분포가 '기계의 인지'라는 허상을 진짜로 믿으려 들거나, 완벽하지 않더라도 대부분 쓸만하다고 합리화함. 이런 환상이 집단적으로 수조 달러 평가를 받는 데 쓰임

    • 이런 현상이 LLM만의 문제일까? 이미 사회 전반적으로 '역량'은 별 의미 없다고 여긴 지 오래라고 봄. 예컨대 5학년 수준도 읽지 못하는 학생에게 졸업장을 준다거나, 영어가 서툰 곳에 콜센터 아웃소싱 하는 것 등에서 드러난다고 생각함

    • 일부 동의는 하지만, 요즘 논의가 뉴스 미디어 비판이나 다른 쪽으로 자꾸 흐름이 이동한다고 느낌. 이번 연구 결과도 상당히 의심스러운 부분이 있다고 봄. 논문이 아니라 유료 의뢰 Ipsos 연구라서 기준치가 왜 이렇게 낮은지 이해가 가지 않음. 최소한 어떤 모델을 썼는지, 검색 R@k 값, BLEU/ROUGE 같은 요약 정확도 지표, 그리고 인간 평가 메트릭 등이 나와야 한다고 생각함. 만약 그런 평가도 없다면, 이 결과는 이 분야 안에서도, 밖에서도 아무 쓸모 없다고 생각함

  • PDF 10페이지부터 구체적인 실수 예시가 실려 있음: BBC 공식 리포트
    예시: ChatGPT가 “European Union Enlargement Goals for 2040”라는 존재하지 않는 Wikipedia 문서를 인용함. 실제 EU엔 그 이름의 정책이 없음. 가짜 URL뿐 아니라, EU 목표와 정책까지 날조함

    • 사실 그 문서는 예전엔 존재했으나 삭제 과정에 들어갔던 기록이 있음: 삭제 토론 기록. 이런 점조차 확인하거나 밝히지 않은 건 꽤 큰 누락이라 생각함. 고의가 아닐까 하는 의심도 듦
  • LLM으로 회의나 이메일, 커뮤니케이션을 요약하게 맡기면 그 사람이 진짜 메시지를 얻지 못한다는 점, 항상 명심할 필요가 있음

    • 이런 게 무섭게 느껴짐. 생각 자체를 위임하는 걸 넘어서, 대체할 수 있는 유일한 도구까지 스스로 망치는 셈임. 비슷한 경험이 있는데, 이력이 명확하지 않은 문서 편집 기록을 AI에게 맡길까 고민하다 시간이 없어 포기함. 만약 시켰으면 아주 그럴싸한 기록이 나오겠지만, 실제 어떤 변화가 있었는지 알려주기는커녕 오히려 반대로 왜곡된 내용을 받아들였을 것임. 지식이 부족한 것(모르는 것)이 아니라, 그 반대되는 잘못된 지식(anti knowledge)을 얻게 됨

    • 이게 사실이라면 중요한 경고겠지만, 실제 내가 경험한 바로는 다름. 나는 매일 영업 미팅을 하고, 다양한 AI 요약툴로 회의 내용을 받아보고 있음. CRM에 저장된 요약을 직접 확인해보면 거의 항상 매우 정확했음. 내가 직접 참석해서 검증할 수 있었음

    • 우리는 몇 달째 MS Copilot을 회의에서 쓰고 있는데, 누가 무슨 말 했고, 누가 어떤 일을 맡았는지 매우 잘 요약해줌. 굉장히 유용하고, 내 경험상 명확도도 높았음

  • Kagi News는 꽤 정확하다고 생각함. 원문 출처나 주요 디테일까지 같이 요약해주고 있음. AI 요약은 해당 기사를 직접 읽을지 말지 감만 잡는 데 도움이 됨. 그래도 중요한 사실은 꼭 스스로 다시 확인함

    • 사실 검증은 어디까지 할 수 있는지 의문임. 직접 현장에 가서 취재하거나, 각 분야의 논문과 참고문헌까지 읽어봐야 요약이 제대로 된 건지 알 수 있을 텐데, 결국 어딘가에선 신뢰가 불가피하게 따라오는 측면이 있음

    • 나도 비슷한 프로젝트를 해서 경험해봤는데, RSS 기사를 요약하는 작업에서 꽤 좋은 결과를 얻었음. 특히 "추론(reasoning)" 중심의 모델을 쓸 때 결과가 훨씬 좋았음

    • Kagi News는 여러 뉴스 기사 내용을 컨텍스트에 넣고 요약하는 형식임. 이는 오리지널 포스트에서 나온 “LLM에게 웹검색으로 뉴스 제공”과는 다른 구조임

    • 이런 서비스도 있음: rawdiary.com

    • Kagi News는 동의하지만, Particle News도 좋았음. 다만 Particle News는 The Atlantic으로부터 투자를 받아 그 미디어의 기사에 "Featured Article" 자리를 주는 일이 있었는데, 이런 사례는 편향성을 구분하는 그래픽 표시를 해주긴 해도, Featured Article에는 적용되지 않음. 이 외 투자자들도 비슷하겠지만, Atlantic 관련 프로모션은 비교적 최근 케이스임

  • 보고서에 따르면 무료/컨슈머 버전의 ChatGPT, Copilot, Perplexity, Gemini만 썼다고 명시함. Copilot은 ChatGPT 모델을 쓰고, Grok 등 나머지는 아예 테스트 대상에 빠졌다는 뜻임

  • DeepSeek V3를 자동화 크립토 뉴스 분석에 쓰고 있는데, 가장 최근 정확도 리포트에서 98.5%라는 수치를 얻었음. 그래서 이 기사 결과가 좀 놀라움
    내 정확도 리포트

  • 기사에 실린 질문의 절반은 정치적으로 민감한 쟁점임. 흥미롭긴 하지만, 실제 AI가 덜 자극적인 일반 뉴스에선 어떻게 성능을 보일지도 평가하려면 좀 더 범용적인 문항이 필요하다고 생각함. 일부 질문은 빠른 답보다는 심층적인 연구 모드가 적합하다고 봄. 실제 뉴스도 해답에 대해 의견 투성이인 경우가 많음