1P by GN⁺ 14시간전 | ★ favorite | 댓글 1개
  • GPTZero의 Hallucination Check 도구가 NeurIPS 2025 승인 논문 5,290편 중 4,841편을 분석해 100건 이상의 ‘환각 인용(hallucinated citations)’ 을 확인
  • 다수의 논문에서 존재하지 않는 저자, 잘못된 DOI·URL, 조작된 제목AI 생성 흔적이 발견됨
  • GPTZero는 이러한 오류를 ‘vibe citing’ 이라 정의하며, 이는 실제 논문 정보를 혼합·변형해 그럴듯하게 꾸민 인용 형태로 설명
  • 모든 사례는 인간 전문가 검증을 거쳤으며, 도구는 거짓 음성률이 매우 낮고(99% 탐지) , 대신 보수적으로 의심 사례를 표시
  • 연구 논문 작성과 검증 과정에서 AI 인용 오류 탐지 자동화의 필요성을 보여주는 사례로 평가됨

GPTZero의 NeurIPS 2025 논문 분석 결과

  • GPTZero는 NeurIPS 2025에 채택된 5,290편 중 4,841편을 스캔하여 100건 이상의 환각 인용을 발견
    • 각 사례는 인간 검증을 통해 실제 존재하지 않는 인용임이 확인
    • 예시로, 존재하지 않는 저널명·저자명·DOI를 포함한 인용이 다수 발견됨
  • GPTZero는 이러한 인용 오류를 AI 생성 흔적(vibe citing) 으로 분류
    • 실제 논문 제목과 저자를 조합하거나 변형한 가짜 인용이 대표적 형태
    • 일부는 실제 논문과 유사한 제목을 사용하지만, 연도·출처·저자 불일치로 확인됨

‘Vibe Citing’의 정의와 유형

  • GPTZero는 ‘vibe citing’ 을 “생성형 AI가 실제 출처를 조합·변형해 만든 인용”으로 정의
    • 저자명·제목·출판사·DOI 등을 조작하거나 합성한 사례 포함
    • 실제 존재하는 논문을 부분적으로 인용하거나, 가짜 저널명을 만들어내는 경우도 있음
  • 반면, 단순한 오타·죽은 링크·누락된 페이지 번호 등은 인간 오류로 간주되어 제외됨
  • GPTZero는 실제·결함·환각 인용의 차이를 비교표로 제시
    • 예: “Deep learning” 논문을 “Samuel LeCun Jackson. Deep learning. Science & Nature, 2021.”로 변형한 경우 환각 인용으로 분류

Hallucination Check 도구의 기능

  • Hallucination Check는 인용 검증을 자동화하는 AI 기반 탐지 시스템
    • 온라인에서 확인되지 않는 인용을 자동으로 표시
    • 저자·편집자·심사자가 인용 오류를 빠르게 검토할 수 있도록 지원
  • 활용 단계
    1. 저자는 제출 전 논문 인용을 자동 점검
    2. 심사자는 검증되지 않은 인용을 빠르게 식별
    3. 학회·저널 편집진은 AI Detector와 병행해 AI 작성 흔적 및 인용 오류를 동시에 탐지 가능

GPTZero의 검증 정확도

  • Hallucination Check는 거짓 음성률이 매우 낮음(99% 탐지 정확도)
    • 즉, 실제 환각 인용을 놓칠 확률이 극히 낮음
    • 대신 보수적 탐지로 인해 거짓 양성률은 다소 높음
  • GPTZero는 ICLR 2026, Deloitte 보고서 등에서도 동일한 방식으로 AI 인용 오류 수십 건을 찾아냄

학계와 출판 생태계에의 의미

  • NeurIPS 2025 사례는 AI 도구를 활용한 논문 작성의 확산과 함께 인용 신뢰성 저하 문제를 드러냄
  • GPTZero는 ICLR 조직위원회와 협력해 향후 제출 논문 자동 검증 시스템을 구축 중
  • 이러한 시도는 논문 심사 효율성·투명성 제고AI 생성 콘텐츠의 검증 체계 강화로 이어질 전망임
Hacker News 의견들
  • 나는 구글에서 동료가 공동 저자로 참여한 논문 하나를 무작위로 점검했음
    문제로 지적된 논문은 ICLR 2024 논문인데, 인용된 저자 두 명이 누락되고 다른 한 명(Kyle Richardson)이 잘못 추가되어 있었음
    이 인용은 논문의 핵심이 아닌 배경 부분에 있었고, AI 자동완성 과정에서 생긴 단순한 오기일 가능성이 높음
    데이터셋에는 심각한 사례도 있겠지만, 내가 본 건 DOI 검사로 바로 잡을 수 있는 사소한 오류였음
    이런 ‘단일 오류’ 논문들이 포함된 건 저자 측의 제품 홍보 효과를 극대화하기 위한 의도 같음

    • 이런 오류는 비전문가도 쉽게 확인 가능한 환각의 전형적 징후
      문제는 이게 유일한 오류인지 알 수 없다는 점임
      이런 오류가 있다는 건 논문이 충분히 검증되지 않은 채 제출됐다는 신호이며, LLM이 부주의하게 사용된 흔적
      나머지 내용을 검증하려면 전문 지식과 재현 실험이 필요함
      이런 현상이 확산되면 연구 자체의 신뢰 기반이 흔들릴 위험이 있음
    • 빠진 분석은 LLM 이전 학회(2022~2023) 와 비교해 도구의 오탐률을 보여주는 것임
    • 보통 논문 참고문헌을 복사해 붙여넣으면 저자명이 틀릴 일이 없음
      그런데 이 경우는 틀렸음
      참고문헌에서 환각이 발생했다는 건 논문 전체가 AI로 작성된 강력한 신호라고 생각함
    • 이런 오류가 쉽게 생기고 잘 잡히지 않는다는 점이 흥미로움
      DOI 검사만 해도 걸러질 문제인데, 현재 인용 검증이 논문 심사 과정의 핵심 절차가 아님
      인용을 여전히 ‘서사적 텍스트’로 다루는 신뢰 모델은 더 이상 확장되지 않음
      나는 Duke University에서 인용과 검증 과정을 기계 검증 가능한 인프라로 만드는 프로젝트(Liberata)를 진행 중임
    • 저자의 데이터셋이 환각의 구체적 영향에 대해 주장하지는 않았다고 봄
      오히려 ‘무해한 사례’를 제거하는 게 더 기만적이었을 것임
      데이터가 스스로 말하게 두는 게 정직한 접근임
  • 이런 현상은 과학 연구에 심각한 타격을 줄 것 같음
    이미 데이터 조작 문제가 있는데, LLM이 그럴듯한 논문을 만들어내면 상황이 악화될 것임
    그래도 이 계기로 재현성(reproducibility) 을 더 진지하게 다루게 될지도 모름

    • 재현성 문제의 근본은 자금 부족
      “작년에 의심스러운 논문을 검증하는 데 2년과 100만 달러가 필요하다”는 제안에 자금을 주는 기관은 거의 없음
      과학 자금 배분 구조를 바꾸지 않으면 해결이 어려움
    • 대부분의 과학자들도 재현성 위기를 인정하지만, 보상 구조가 문제임
      논문 수로 평가하면 질 낮은 논문이 쏟아지고, 인용 수로 평가하면 발견 중심의 연구만 장려
      재현 연구는 인용도 적고, 결국 명성과 생계가 ‘발견’에 달려 있으니 누구도 재현에 투자하지 않음
    • AI가 이런 구조적 문제를 드러내는 계기가 될 수도 있음
      Liberata 같은 프로젝트는 출판 문화를 ‘새로움’ 중심에서 ‘검증과 재현’ 중심으로 옮기려 함
      이 변화가 일어난다면 지금의 혼란은 필요한 교정 과정이 될 수 있음
    • 어떤 사람은 재현성 자체가 과대평가되었다고 주장함
      모든 논문이 재현 가능해져도 과학의 근본 문제는 해결되지 않는다는 시각임
      관련 글: Replication studies can’t fix science
    • 이미 무효화된 연구를 인용하는 논문이 여전히 인용되는 문제는 해결됐는지 궁금함
  • NeurIPS 측은 환각된 인용(reference hallucination) 이 있다고 해서 논문 전체를 무효로 보지는 않는다고 밝힘
    Fortune 기사 전문에 따르면, LLM 사용은 빠르게 진화 중이며, 2025년에는 심사자들이 환각을 표시하도록 지침을 받았다고 함
    1.1%의 논문에서 인용 오류가 있더라도 논문 내용 자체가 무효화되는 건 아니라는 입장임

    • 하지만 이건 너무 관대한 반응처럼 보임
      가장 무해한 이유 하나만 골라 전체 문제를 덮으려는 인상임
      이미 과학은 재현성 위기를 겪고 있는데, 이제는 환각 문제까지 더해짐
      민간 기업의 영향력이 커진 상황에서 오픈 사이언스의 미래가 어둡게 보임
    • 처벌이 없으니 이런 일은 계속될 것임
      논문 철회조차 실질적 불이익이 없고, 부정행위의 기대값이 양수인 구조임
      인센티브가 바뀌지 않으면 악화될 뿐임
    • 모든 제출 논문을 GPTZero 같은 도구로 검사해 환각이 있으면 즉시 거절하자는 의견도 있음
    • 인용 오류가 있다고 해서 내용이 틀렸다고 단정할 수는 없지만, 하나의 조작이 전체 신뢰를 무너뜨림
      LLM이 인용을 처리하게 두는 건 결국 데이터 해석까지 맡기는 길로 이어지고, 그건 환각된 결과를 낳을 수 있음
    • LLM 환각이 한 번이라도 발견되면 논문을 철회하고 저자를 제출 금지시켜야 한다고 생각함
  • 아이러니하게도, 연구 논문은 기존 연구와의 지식 대화를 위해 문헌 조사를 포함하는데
    LLM으로 인용을 조작하는 건 ‘거인의 어깨 위’가 아니라 허상의 어깨 위에 서는 행위

    • 그래서 누군가 “이건 거짓의 어깨 위에 서는 것”이라고 농담했음
    • 철학적으로 보면, LLM이 새로운 쓰레기를 만드는가, 아니면 기존의 쓰레기 생산 구조를 증폭시키는가 하는 질문이 남음
  • 나는 2024년 WACV 논문 리뷰에서 완전히 AI가 작성한 리뷰를 받았음
    리뷰어가 네 개의 텍스트 박스(요약, 강점, 약점, 총평)에 각각 완전히 다른 리뷰를 써놨고, 서로 모순됨
    이런 상황은 리뷰어 과부하 때문이며, 더 많은 자원봉사자가 필요함
    (논문 리뷰가 가능한 사람이라면 좋아하는 학회의 프로그램 체어에게 직접 연락하길 권함)

    • “와…”라는 반응뿐이었음
  • 어떤 논문들은 인용에 ‘Firstname Lastname’, ‘John Doe’, ‘Jane Smith’ 같은 가짜 이름을 넣고도 아무도 눈치채지 못함

    • 그래도 나중에라도 발각되면 처벌받길 바람
    • 누군가는 “이게 미래의 방식”이라고 냉소적으로 말함
  • 첫 NeurIPS 논문을 낸 박사과정 학생에게는 경제적 보상이 막대함
    대부분의 빅테크 인턴십은 NeurIPS/ICML/ICLR 1저자 논문을 사실상 필수 조건으로 봄
    한 번 통과하면 연봉이 두세 배로 뛰고, 커리어가 열린다고 해도 과언이 아님
    이런 구조에서 부정행위가 나오는 건 놀랍지 않음

    • 실제로 논문 한 편의 시장 가치는 훨씬 큼
      NeurIPS 논문 하나면 박사학위 없이도 연구직 자격을 얻을 수 있고, 연봉 30만 달러 이상도 가능함
      Spotlight나 Oral 발표면 그 가치는 7자리 수에 이를 수도 있음
  • 현재 인센티브 구조가 이런 행태를 낳는다는 점에는 모두 동의함
    그렇다면 ‘당근’ 대신 ‘채찍’ 을 써야 하지 않을까 생각함
    LLM 환각이나 데이터 조작이 적발되면 커리어가 끝나는 수준의 제재를 두자는 제안임

    • 하지만 처벌이 강할수록 정당한 절차(due process) 가 필요함
      AI 탐지 도구는 아직 신뢰할 수준이 아니며, 단순한 BibTeX 오류나 문법 교정 중 생긴 실수도 있음
      명백한 데이터 조작처럼 의도적 부정행위가 밝혀진 경우에만 강한 처벌이 정당하다고 봄
  • 2020년 이전 논문에서도 출처 조작이 얼마나 있었는지 분석해보면 흥미로울 것 같음

    • 또한 AI 탐지기가 LLM 이전 논문을 얼마나 AI 작성물로 오탐하는지도 궁금함
      나는 LLM도, AI 탐지기도 완전히 신뢰하지 않음
    • 결국 이런 문제는 예전에도 있었을 가능성이 높음
      다만 지금은 그 빈도가 가속화된 것뿐임
  • 인용 오류 문제는 AI 검색과 데이터 수집 비용이 지금보다 100배 싸지면 사라질 것임
    하지만 그때가 되면 AI가 쓴 논문이 현실을 반영하는지조차 구분하기 어려운,
    일종의 ‘확률적 거울(stochastic mirror)’ 시대가 올 것임