1P by GN⁺ | ★ favorite | 댓글 1개
  • EY Canada의 44쪽 로열티 사기 보고서는 허위 인용, 잘못된 출처 표시, 가짜 통계, AI 작성 텍스트가 섞인 문서로 드러남
  • 참고 자료 표의 URL 대부분은 깨졌거나 가짜였고, 제목 절반 이상은 실제 출처와 맞지 않았으며 AI Scan은 텍스트 72%를 AI로 표시함
  • BleepingComputer, Wired, Gartner, McKinsey, Forbes, Cisco Talos, TechCrunch 출처 다수가 404 오류, 태그 페이지, 존재하지 않는 문서로 확인됨
  • 2,000억 달러 수치는 전체 로열티 포인트 시장과 미사용 포인트 가치라는 양립하기 어려운 의미로 쓰였고, 근거 인용 2개도 조작된 것으로 드러남
  • 결함 있는 보고서는 Canberra Times와 60개 이상 신문에 퍼졌고, Claude·ChatGPT·Perplexity도 해당 환각 정보를 노출함

EY Canada 보고서의 문제

  • EY Canada는 2025년 말 로열티 시스템의 사이버 위협과 사기를 다룬 44쪽 보고서 Points of Attack: Uncovering Cyber Threats and Fraud in Loyalty Systems를 발행함
  • 이 보고서는 파트너 2명과 시니어 매니저 1명에게 크레딧이 부여됐지만, 허위 인용, 잘못된 출처 표시, 가짜 통계, AI 작성 텍스트가 함께 발견됨
  • EY Canada는 캐나다 정부에 매년 수백만 달러 규모의 서비스를 제공하는 Ernst & Young의 캐나다 조직임
  • GPTZero의 Hallucination Check는 최근 몇 달간 주요 컨설팅 회사의 공개 보고서를 찾고 스캔하는 자동화 파이프라인에 쓰였고, 대형 기업 보고서에서도 vibe citing이 퍼져 있음을 시사함

인용 방식과 검증 결과

  • EY Canada 보고서는 각주나 일반적인 학술 인용 대신 본문 안에서 직접 출처를 언급하거나 41~43쪽의 resources table에 출처를 모아 둠
  • 이 표는 출처 제목, 설명, URL, 일부 출판사와 날짜를 제공하지만, URL 대부분이 깨졌거나 가짜였고 제목의 절반 이상은 실제 출처와 맞지 않았음
  • GPTZero는 허위 양성으로 인한 평판 비용을 고려해 구체적인 기준으로 환각 인용을 정의하고, Hallucination Check 결과를 수동 검증함
  • 보고서 텍스트는 GPTZero AI Scan에서 72% AI로 표시됐고, 허위 통계·잘못된 출처 표시·내부 모순 같은 LLM 오류가 반복됨

대표적인 허위 또는 부정확한 출처

  • BleepingComputer 항공사 로열티 침해 기사

    • Airline Loyalty Breach: BleepingComputer는 항공사 로열티 계정 수백만 개가 credential stuffing 공격으로 침해됐다는 기사로 제시됨
    • https://bleepingcomputer.com/news/security/…404 오류를 반환하며, 해당 경로의 기사는 삭제됐거나 처음부터 존재하지 않았던 것으로 확인됨
  • Wired 음성 딥페이크 및 API 보안 기사

  • Gartner 및 McKinsey 보고서

    • Gartner Market Trends – Loyalty Fraud는 디지털 로열티 프로그램과 모바일 지갑의 사기 진화에 대한 전략 지침으로 제시됨
    • https://www.gartner.com/en/documents/4000201은 Gartner 메인 사이트로 이동할 뿐이며, 해당 제목의 Gartner 문서는 존재하지 않음
    • McKinsey & Company – Loyalty Economics Report (2022)는 전 세계 미사용 보상 포인트가 2,000억 달러라고 추정한 보고서로 제시됐지만, 해당 보고서는 존재하지 않음
  • Forbes 로열티 경제 기사

    • Forbes – The $200 Billion Loyalty Economy는 로열티 프로그램을 중요한 디지털 자산으로 설명하는 근거로 제시됨
    • URL은 깨져 있으며, Blake Morgan이 Forbes에 글을 쓴 적은 있지만 해당 제목과 일치하는 글은 없음
    • 다만 2020년 Forbes 기사에는 “$200 billion loyalty economy”라는 표현이 쓰임
  • Cisco Talos 및 TechCrunch

2,000억 달러 통계의 내부 모순

  • 요약문에서의 주장

    • Executive Summary는 전 세계 로열티 포인트 시장 규모가 2,000억 달러이고, 그중 30~50%가 사용되지 않는다고 주장함
    • 이 주장은 가짜 Forbes 인용으로 뒷받침됨
  • 10쪽에서 바뀐 의미

    • 10쪽에서는 같은 2,000억 달러 수치가 전 세계 포인트 전체 가치가 아니라 미사용 로열티 포인트의 추정치로 바뀜
    • 이미 포인트의 최대 50%가 미사용이라고 주장했기 때문에, 두 주장이 동시에 성립하려면 전 세계 로열티 포인트 시장 규모가 최소 4,000억 달러여야 함
  • McKinsey 인용의 출처 추적

    • 43쪽의 조작된 McKinsey & Company 보고서는 전 세계 미사용 포인트 가치가 2,000억 달러라는 후자의 주장을 뒷받침하는 근거로 쓰임
    • 같은 수치가 서로 양립하기 어려운 두 의미로 쓰였고, 이를 뒷받침하는 인용 2개가 모두 조작된 것으로 확인됨
    • 이 McKinsey 인용은 EY 보고서보다 6개월 앞서 발행된 Financial IT의 핀테크 블로그 글로 거슬러 올라감
    • 해당 글은 “more than $200 billion in points sit idle each year”라고 주장했고, 출처 섹션에 존재하지 않는 McKinsey & Company: Loyalty Economics Report (2022)를 인용함
    • 이 조작된 인용이 EY 보고서의 참고 자료 표에 그대로 들어가며, 저품질 블로그의 가짜 출처가 Big Four 발간물로 세탁됨

출처가 뒤섞인 72% 및 89% 통계

  • 로열티 프로그램 72% 사기 통계

    • 6쪽에서는 고객 로열티 프로그램의 72% 가 절도 또는 사기를 보고했다고 주장함
    • 이 수치는 캐나다 결제 처리 업체 Paystone의 2019년 글에 귀속됨
    • 11쪽에서는 같은 통계가 디지털 사기 방지 회사 Forter의 NRF 2020 summary에 귀속됨
    • Paystone과 Forter 어느 쪽도 보고서의 참고 자료 표에 포함되지 않았고, 원출처는 Ipsos의 2017년 설문으로 보임
  • 로열티 사기 공격 89% 증가 통계

    • 6쪽에서는 로열티 프로그램 사기 공격이 2019년 이후 89% 증가했다고 주장함
    • 11쪽에서는 이 89% 증가가 2018년에서 2019년까지의 단일 연도 변화로 제한되고, Forter의 Fraud Attack Index에 귀속됨
    • 이 출처는 실제로 존재하며 두 번째 버전의 주장을 부분적으로 확인하지만, EY 보고서에 쓰인 여러 출처처럼 오래된 자료임
    • 서로 모순되는 출처, 낮은 품질의 출처, 오래된 통계, 부정확한 재서술은 AI slop의 징후로 제시됨

공개 영향과 데이터 오염 위험

  • Points of Attack은 캐나다에서는 큰 파장을 만든 것으로 보이지 않지만, 최근 Canberra Times 기사에 인용됐고 이 기사는 호주 전역 60개 이상 신문에 배포됨
  • 보고서는 공개 도메인에 없는 고객 브리핑, 내부 프레젠테이션, 독점 미디어를 통해서도 유통됐을 가능성이 있음
  • 온라인 보고서 발행은 인터넷 지식 풀에 대한 데이터 주입에 가깝고, 잘 알려진 컨설팅 회사가 고트래픽 웹사이트에 허위 정보나 환각 인용을 올리면 이후 연구자를 오도할 수 있음
  • AI “deep research” 도구는 인간과 다른 신호를 기반으로 출처를 선택하기 때문에 이런 데이터 오염에 더 취약해질 수 있음
  • Claude, ChatGPT, Perplexity가 EY의 결함 있는 보고서에서 나온 환각 정보를 노출함

Hallucination Check의 목적

  • GPTZero는 vibe citing이 연구자, 학계, 컨설턴트, 웹 검색에 의존하는 사람들에게 현재적인 위험이 됐다고 봄
  • Hallucination Check는 모든 인용을 수동으로 확인하지 않고도 환각 인용과 허위 정보를 식별하기 위한 도구로 제시됨
  • 이 도구는 IJCAI, ICLR, ICSE 같은 학술 콘퍼런스의 제출물 검토에도 사용되고 있음
  • Ernst & Young처럼 평판 있는 출처의 인용이라도 신뢰만으로 받아들이기 어려워졌다는 결론으로 이어짐
  • GPTZero의 Hallucination Check 링크가 제공됨

댓글과 토론

Hacker News 의견들
  • 여러 직군에서 보이는 문제는 AI 출력물이 숙련된 분석가, 시니어 엔지니어, 전문 변호사, 레지던트 의사 같은 지식 있는 사람에게 제대로 검토되지 않는다는 것임
    잘해야 훑어보는 정도고, 최악에는 게시·배포·프로덕션 반영·고객 전달·법원 제출 전에 아예 보지도 않음
    많은 경우 필요한 검토 역량은 조직 안에 있지만, 그 사람들은 이미 일상 업무만으로도 과부하 상태임
    몇 달 전 Amazon이 생성형 AI 출력물을 시니어 엔지니어에게 검토하게 한다는 글(https://news.ycombinator.com/item?id=47323017)을 보고 웃을 수밖에 없었음. 이미 바쁜 사람들인데, Amazon이 프로젝트와 기반 인프라 개발 전반에 인간 병목이 늘어나는 걸 허용할 리 없다는 생각이 듦

    • 문제의 일부는 완성된 문서를 다 구워진 뒤에야 검토하라고 던져준다는 데 있음
      조직 전체에 기본적인 엔지니어링 원칙이 필요하다고 밀고 있음
      엔지니어에게 무엇을 달성하려는지에 대한 원래 명세도 없이 코드 1000줄을 검토하라고 하지는 않음. 최소한 맥락이 있어야 하고, 이상적으로는 검토자가 일이 처음 소개될 때 그 자리에 있어 전체 맥락을 알아야 함
      그런데 이런 문서들은 전부 아니면 전무 식으로 넘어옴. 39번째 지표가 끝까지 세세하게 정의된 상태에서 그걸 되돌릴 건가, 아니면 그냥 이미 이렇게 됐다고 체념할 건가
      한 장짜리 문서, Amazon식이면 6쪽짜리 문서일 수도 있지만, “내가 제안하는 건 이렇다” 정도만 있어도 아이디어의 뼈대 단계에서 전체 형태에 대해 반박하고 다듬을 수 있음. 소중한 보고서가 완성됐다는 감정적 투자가 생기기 전이어야 함
      전통적으로 제품 쪽이 SCRUM 환경에서 명세를 훑고, 엔지니어가 제대로 코드 검토를 하는 방식과 비슷함. 물론 SCRUM은 죽었지만 그건 또 다른 얘기임
    • 변호사 입장에서는 AI 출력 검토가 처음부터 직접 하는 것보다 더 오래 걸리는 느낌임. 기존 양식을 쓰는 것과 비교하면 말할 것도 없음
      AI를 쓰면 전부 읽고, 왜 틀렸는지 설명하고, 결국 전부 다시 써야 하는 경우가 많음
      청구 가능 시간은 훨씬 늘지만, 주제를 이해하지 못하는 사람에게 빠르고 접근성이 좋다는 AI의 장점이 어떻게 사라지는지를 보여주는 증상처럼 보임
    • “지식 있는 사람이 AI 출력물을 검토하지 않는다”는 건, 해고하고 사기를 꺾어놓은 바로 그 사람들을 말하는 건가 싶음
      “위대한 남녀”들이 바이브 코딩을 좋아하는 이유 중 하나는, 이제 자기들만으로 예전에는 “맥락 전문가에게 넘기는” 고통스러운 과정을 거쳐야 했던 일을 할 수 있게 됐다고 느끼기 때문임
      이제 LLM이 “내장된 맥락 전문가”가 됐으니 더 이상 출력물을 검토할 필요가 없다고 여기는 것임
    • 문제는 출력물을 검증하는 시간이 처음부터 만드는 시간보다 더 오래 걸릴 때가 있다는 것임
      그러면 AI는 많은 용도에서 투자 대비 수익률이 크게 음수인 시스템이 됨
    • 특히 교육과 인간 지식 관리에 관심이 있음. IT 교육 속도가 0에 가까워지는 걸 봤음
      실수하면 그 결과가 저녁 뉴스에 나올 수 있는 전문 교육을 생각해보면 됨
      숫자 행렬에서 나온 문자열을 판단 중지 상태로 받아들이며 모두가 자기 책임만 피하려 한다는 발상 자체가 소름 끼침
      남아시아 항공사들이 조종사에게 수동 조종 착륙을 금지해 숙련 저하를 키우고, 결국 잘 알려진 재난으로 이어졌던 일과 비슷함
      고액 컨설턴트조차 링크 확인도 하지 않는다면 더더욱 그렇다 싶음
  • 그냥 평문으로 볼 수 있는 출처가 있나? CSS 스타일 때문에 머리가 아프고, 읽기 모드는 작동하지 않거나 막힌 것 같음

    • 스크롤이 정말 괴롭고, 읽기 모드로 전환해도 깨졌음
    • Firefox에는 페이지에서 텍스트만 뽑아 간소화해 보여주는 편리한 Reader view가 있음. Mac에서는 Opt + CMD + R로 켤 수 있음
      다만 이 기능도 사용된 출처 일부가 들어 있는 이미지를 제거해버리는 문제가 있음
    • iOS의 Lockdown Mode에서도 마찬가지임
  • 진짜 코미디는 이런 쓰레기가 고위 경영진에게서 내려오는 걸 보는 것임. 서툰 프롬프트, 환각 쓰레기, 실행 가능한 정보는 0이고 실제로 아는 분석도 0인 허풍뿐임
    “Jira에서 뽑은 지원 이슈 분석을 보세요. 이 상위 세 가지 문제를 반드시 고쳐야 합니다!!!” 같은 식인데, 사실 모두가 몇 년 전부터 알던 내용이고 경영진이 누구에게도 고칠 권한을 주지 않았을 뿐임
    이런 걸 두 번 넘게 봤으니 이름이 필요함. Garbagemaxxing이라고 해야 하나

    • “상위 세 가지 문제를 고쳐야 한다”가 사실 모두가 오래전부터 알던 문제이고 경영진이 해결 권한을 주지 않았던 것이라면, 그래도 순효과는 긍정적인 것 아닌가 싶음
  • 탐색하기 정말 끔찍한 페이지임

    • 모바일에서는 스크롤을 가로채서 말 그대로 더 아래로 내려갈 수가 없음. 읽기 모드도 첫 문단 정도만 보여줌
      나중에 데스크톱에서 다시 봐야겠음. 내용은 흥미로워 보이지만 실제로는 읽는 게 불가능함. Ernst and Young을 소개하는 섹션을 지나갈 수가 없음
    • 내 스크롤이 환각을 보는 느낌임
    • 이건 완전히 다른 수준의 사용자 적대성임. 이런 건 전에 본 적이 없음
    • iPhone이 자동으로 읽기 모드를 켰는데, 무슨 말인지 보려고 꺼봤더니 동의하게 됨
    • 말 그대로 멈춤이 있는 비선형 피드백이라니, 끔찍함
      어떤 사람들은 웹사이트를 만들면 안 됨
  • 누가 웹페이지에서 스크롤이 어떻게 동작해야 하는지도 환각한 건가?

  • 이상한 건, 이 보고서가 12~18개월 전만 해도 엄청난 스캔들이 되었고 오래가는 브랜드 손상을 일으켰을 텐데, 이제는 아무도 기억하거나 알아차리지 않을 것 같다는 점임

  • 웹사이트부터 고쳐야 함. 형편없는 JavaScript 애니메이션은 버려야 함. 이런 건 2014년에 D3JS와 jQuery로 이미 해결됐던 것들임

  • 이런 일이 대체 어떻게 생기는 건지 모르겠음. 예를 들어 Qwen Chat이나 Perplexity는 생성된 각 문장 끝에 인용을 붙여줌
    그래서 각 인용 위에 마우스를 올리면 어느 웹사이트에서 가져온 것인지 볼 수 있음
    그냥 웹 검색 없는 ChatGPT에 프롬프트를 넣고 복사해 붙인 건가?

  • EY는 지난 1년 내내 조용히 사람들을 해고해왔음
    적은 인원으로 더 많은 일을 하려 하면 품질 저하로 이어지는 건 놀랍지 않음

    • 흥미로운 점은, 아무것도 하지 않는 서비스에도 수요가 꽤 있을 수 있다는 것임
      많은 기업 업무는 그냥 체크박스 채우기
      상사가 “X에 대한 보고서를 가져와. 내가 그 보고서를 내 상사에게 줄 건데, 그 사람은 읽지 않을 거야”라고 함
      그러면 “E&Y, 보고서 하나 만들어주세요. 여기 20만 달러입니다”가 되는 구조임
  • 웹페이지 자체도 바이브 코딩으로 만들었을 가능성이 크고, 작성자는 그걸 신경 쓰지 않았을 것 같음