# NeurIPS 2025 승인 논문에서 GPTZero가 100건의 새로운 환각 인용을 발견

> Clean Markdown view of GeekNews topic #26054. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=26054](https://news.hada.io/topic?id=26054)
- GeekNews Markdown: [https://news.hada.io/topic/26054.md](https://news.hada.io/topic/26054.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2026-01-23T10:44:13+09:00
- Updated: 2026-01-23T10:44:13+09:00
- Original source: [gptzero.me](https://gptzero.me/news/neurips/)
- Points: 1
- Comments: 1

## Topic Body

- **GPTZero의 Hallucination Check 도구**가 NeurIPS 2025 승인 논문 5,290편 중 4,841편을 분석해 **100건 이상의 ‘환각 인용(hallucinated citations)’** 을 확인  
- 다수의 논문에서 **존재하지 않는 저자, 잘못된 DOI·URL, 조작된 제목** 등 **AI 생성 흔적**이 발견됨  
- GPTZero는 이러한 오류를 **‘vibe citing’** 이라 정의하며, 이는 실제 논문 정보를 **혼합·변형해 그럴듯하게 꾸민 인용** 형태로 설명  
- 모든 사례는 **인간 전문가 검증**을 거쳤으며, 도구는 **거짓 음성률이 매우 낮고(99% 탐지)** , 대신 보수적으로 의심 사례를 표시  
- 연구 논문 작성과 검증 과정에서 **AI 인용 오류 탐지 자동화의 필요성**을 보여주는 사례로 평가됨  

---

### GPTZero의 NeurIPS 2025 논문 분석 결과
- GPTZero는 NeurIPS 2025에 **채택된 5,290편 중 4,841편**을 스캔하여 **100건 이상의 환각 인용**을 발견  
  - 각 사례는 **인간 검증을 통해 실제 존재하지 않는 인용**임이 확인  
  - 예시로, 존재하지 않는 저널명·저자명·DOI를 포함한 인용이 다수 발견됨  
- GPTZero는 이러한 인용 오류를 **AI 생성 흔적(vibe citing)** 으로 분류  
  - 실제 논문 제목과 저자를 **조합하거나 변형한 가짜 인용**이 대표적 형태  
  - 일부는 실제 논문과 유사한 제목을 사용하지만, **연도·출처·저자 불일치**로 확인됨  

### ‘Vibe Citing’의 정의와 유형
- GPTZero는 **‘vibe citing’** 을 “생성형 AI가 실제 출처를 조합·변형해 만든 인용”으로 정의  
  - **저자명·제목·출판사·DOI** 등을 조작하거나 합성한 사례 포함  
  - **실제 존재하는 논문을 부분적으로 인용**하거나, **가짜 저널명**을 만들어내는 경우도 있음  
- 반면, 단순한 **오타·죽은 링크·누락된 페이지 번호** 등은 인간 오류로 간주되어 제외됨  
- GPTZero는 실제·결함·환각 인용의 차이를 **비교표**로 제시  
  - 예: “Deep learning” 논문을 “Samuel LeCun Jackson. Deep learning. Science & Nature, 2021.”로 변형한 경우 환각 인용으로 분류  

### Hallucination Check 도구의 기능
- **Hallucination Check**는 인용 검증을 자동화하는 **AI 기반 탐지 시스템**  
  - 온라인에서 확인되지 않는 인용을 자동으로 표시  
  - **저자·편집자·심사자**가 인용 오류를 빠르게 검토할 수 있도록 지원  
- **활용 단계**
  1. 저자는 제출 전 논문 인용을 자동 점검  
  2. 심사자는 검증되지 않은 인용을 빠르게 식별  
  3. 학회·저널 편집진은 **AI Detector**와 병행해 **AI 작성 흔적 및 인용 오류**를 동시에 탐지 가능  

### GPTZero의 검증 정확도
- Hallucination Check는 **거짓 음성률이 매우 낮음(99% 탐지 정확도)**  
  - 즉, 실제 환각 인용을 놓칠 확률이 극히 낮음  
  - 대신 **보수적 탐지로 인해 거짓 양성률은 다소 높음**  
- GPTZero는 ICLR 2026, Deloitte 보고서 등에서도 동일한 방식으로 **AI 인용 오류 수십 건**을 찾아냄  

### 학계와 출판 생태계에의 의미
- NeurIPS 2025 사례는 **AI 도구를 활용한 논문 작성의 확산**과 함께 **인용 신뢰성 저하** 문제를 드러냄  
- GPTZero는 ICLR 조직위원회와 협력해 **향후 제출 논문 자동 검증 시스템**을 구축 중  
- 이러한 시도는 **논문 심사 효율성·투명성 제고**와 **AI 생성 콘텐츠의 검증 체계 강화**로 이어질 전망임

## Comments


### Comment 49741

- Author: neo
- Created: 2026-01-23T10:44:13+09:00
- Points: 1

###### [Hacker News 의견들](https://news.ycombinator.com/item?id=46720395) 
- 나는 구글에서 동료가 공동 저자로 참여한 논문 하나를 **무작위로 점검**했음  
  문제로 지적된 논문은 [ICLR 2024 논문](https://openreview.net/forum?id=0ZnXGzLcOg)인데, 인용된 저자 두 명이 누락되고 다른 한 명(Kyle Richardson)이 잘못 추가되어 있었음  
  이 인용은 논문의 핵심이 아닌 배경 부분에 있었고, **AI 자동완성** 과정에서 생긴 단순한 오기일 가능성이 높음  
  데이터셋에는 심각한 사례도 있겠지만, 내가 본 건 DOI 검사로 바로 잡을 수 있는 사소한 오류였음  
  이런 ‘단일 오류’ 논문들이 포함된 건 저자 측의 **제품 홍보 효과**를 극대화하기 위한 의도 같음  
  - 이런 오류는 **비전문가도 쉽게 확인 가능한 환각의 전형적 징후**임  
    문제는 이게 유일한 오류인지 알 수 없다는 점임  
    이런 오류가 있다는 건 논문이 충분히 검증되지 않은 채 제출됐다는 신호이며, **LLM이 부주의하게 사용된 흔적**임  
    나머지 내용을 검증하려면 전문 지식과 재현 실험이 필요함  
    이런 현상이 확산되면 연구 자체의 신뢰 기반이 흔들릴 위험이 있음  
  - 빠진 분석은 **LLM 이전 학회(2022~2023)** 와 비교해 도구의 오탐률을 보여주는 것임  
  - 보통 논문 참고문헌을 복사해 붙여넣으면 저자명이 틀릴 일이 없음  
    그런데 이 경우는 틀렸음  
    참고문헌에서 환각이 발생했다는 건 논문 전체가 **AI로 작성된 강력한 신호**라고 생각함  
  - 이런 오류가 쉽게 생기고 잘 잡히지 않는다는 점이 흥미로움  
    DOI 검사만 해도 걸러질 문제인데, 현재 **인용 검증이 논문 심사 과정의 핵심 절차가 아님**  
    인용을 여전히 ‘서사적 텍스트’로 다루는 신뢰 모델은 더 이상 확장되지 않음  
    나는 Duke University에서 인용과 검증 과정을 **기계 검증 가능한 인프라로 만드는 프로젝트**([Liberata](https://liberata.info/))를 진행 중임  
  - 저자의 데이터셋이 환각의 구체적 영향에 대해 주장하지는 않았다고 봄  
    오히려 ‘무해한 사례’를 제거하는 게 더 **기만적**이었을 것임  
    데이터가 스스로 말하게 두는 게 정직한 접근임  

- 이런 현상은 과학 연구에 **심각한 타격**을 줄 것 같음  
  이미 데이터 조작 문제가 있는데, LLM이 그럴듯한 논문을 만들어내면 상황이 악화될 것임  
  그래도 이 계기로 **재현성(reproducibility)** 을 더 진지하게 다루게 될지도 모름  
  - 재현성 문제의 근본은 **자금 부족**임  
    “작년에 의심스러운 논문을 검증하는 데 2년과 100만 달러가 필요하다”는 제안에 자금을 주는 기관은 거의 없음  
    과학 자금 배분 구조를 바꾸지 않으면 해결이 어려움  
  - 대부분의 과학자들도 재현성 위기를 인정하지만, **보상 구조**가 문제임  
    논문 수로 평가하면 질 낮은 논문이 쏟아지고, 인용 수로 평가하면 **발견 중심의 연구만 장려**됨  
    재현 연구는 인용도 적고, 결국 명성과 생계가 ‘발견’에 달려 있으니 누구도 재현에 투자하지 않음  
  - AI가 이런 구조적 문제를 드러내는 계기가 될 수도 있음  
    **Liberata 같은 프로젝트**는 출판 문화를 ‘새로움’ 중심에서 ‘검증과 재현’ 중심으로 옮기려 함  
    이 변화가 일어난다면 지금의 혼란은 **필요한 교정 과정**이 될 수 있음  
  - 어떤 사람은 **재현성 자체가 과대평가**되었다고 주장함  
    모든 논문이 재현 가능해져도 과학의 근본 문제는 해결되지 않는다는 시각임  
    관련 글: [Replication studies can’t fix science](https://blog.plan99.net/replication-studies-cant-fix-science-0e195234a280)  
  - 이미 무효화된 연구를 인용하는 논문이 여전히 인용되는 문제는 해결됐는지 궁금함  

- NeurIPS 측은 **환각된 인용(reference hallucination)** 이 있다고 해서 논문 전체를 무효로 보지는 않는다고 밝힘  
  [Fortune 기사 전문](https://archive.ph/yizHN)에 따르면, LLM 사용은 빠르게 진화 중이며, 2025년에는 심사자들이 환각을 표시하도록 지침을 받았다고 함  
  1.1%의 논문에서 인용 오류가 있더라도 논문 내용 자체가 무효화되는 건 아니라는 입장임  
  - 하지만 이건 **너무 관대한 반응**처럼 보임  
    가장 무해한 이유 하나만 골라 전체 문제를 덮으려는 인상임  
    이미 과학은 재현성 위기를 겪고 있는데, 이제는 환각 문제까지 더해짐  
    민간 기업의 영향력이 커진 상황에서 **오픈 사이언스의 미래가 어둡게 보임**  
  - 처벌이 없으니 이런 일은 계속될 것임  
    논문 철회조차 실질적 불이익이 없고, **부정행위의 기대값이 양수**인 구조임  
    인센티브가 바뀌지 않으면 악화될 뿐임  
  - 모든 제출 논문을 **GPTZero** 같은 도구로 검사해 환각이 있으면 즉시 거절하자는 의견도 있음  
  - 인용 오류가 있다고 해서 내용이 틀렸다고 단정할 수는 없지만, **하나의 조작이 전체 신뢰를 무너뜨림**  
    LLM이 인용을 처리하게 두는 건 결국 데이터 해석까지 맡기는 길로 이어지고, 그건 **환각된 결과**를 낳을 수 있음  
  - LLM 환각이 한 번이라도 발견되면 논문을 철회하고 저자를 **제출 금지**시켜야 한다고 생각함  

- 아이러니하게도, 연구 논문은 기존 연구와의 **지식 대화**를 위해 문헌 조사를 포함하는데  
  LLM으로 인용을 조작하는 건 ‘거인의 어깨 위’가 아니라 **허상의 어깨 위에 서는 행위**임  
  - 그래서 누군가 “이건 거짓의 어깨 위에 서는 것”이라고 농담했음  
  - 철학적으로 보면, LLM이 **새로운 쓰레기를 만드는가**, 아니면 기존의 **쓰레기 생산 구조를 증폭시키는가** 하는 질문이 남음  

- 나는 2024년 WACV 논문 리뷰에서 완전히 **AI가 작성한 리뷰**를 받았음  
  리뷰어가 네 개의 텍스트 박스(요약, 강점, 약점, 총평)에 각각 완전히 다른 리뷰를 써놨고, 서로 모순됨  
  이런 상황은 **리뷰어 과부하** 때문이며, 더 많은 자원봉사자가 필요함  
  (논문 리뷰가 가능한 사람이라면 좋아하는 학회의 프로그램 체어에게 직접 연락하길 권함)  
  - “와…”라는 반응뿐이었음  

- 어떤 논문들은 인용에 **‘Firstname Lastname’, ‘John Doe’, ‘Jane Smith’** 같은 가짜 이름을 넣고도 아무도 눈치채지 못함  
  - 그래도 나중에라도 **발각되면 처벌받길 바람**  
  - 누군가는 “이게 미래의 방식”이라고 냉소적으로 말함  

- 첫 NeurIPS 논문을 낸 **박사과정 학생에게는 경제적 보상이 막대함**  
  대부분의 빅테크 인턴십은 NeurIPS/ICML/ICLR 1저자 논문을 사실상 필수 조건으로 봄  
  한 번 통과하면 **연봉이 두세 배로 뛰고**, 커리어가 열린다고 해도 과언이 아님  
  이런 구조에서 부정행위가 나오는 건 놀랍지 않음  
  - 실제로 **논문 한 편의 시장 가치**는 훨씬 큼  
    NeurIPS 논문 하나면 박사학위 없이도 연구직 자격을 얻을 수 있고, 연봉 30만 달러 이상도 가능함  
    **Spotlight나 Oral 발표**면 그 가치는 7자리 수에 이를 수도 있음  

- 현재 인센티브 구조가 이런 행태를 낳는다는 점에는 모두 동의함  
  그렇다면 **‘당근’ 대신 ‘채찍’** 을 써야 하지 않을까 생각함  
  LLM 환각이나 데이터 조작이 적발되면 **커리어가 끝나는 수준의 제재**를 두자는 제안임  
  - 하지만 처벌이 강할수록 **정당한 절차(due process)** 가 필요함  
    AI 탐지 도구는 아직 신뢰할 수준이 아니며, 단순한 BibTeX 오류나 문법 교정 중 생긴 실수도 있음  
    명백한 데이터 조작처럼 **의도적 부정행위**가 밝혀진 경우에만 강한 처벌이 정당하다고 봄  

- 2020년 이전 논문에서도 **출처 조작이 얼마나 있었는지** 분석해보면 흥미로울 것 같음  
  - 또한 AI 탐지기가 **LLM 이전 논문을 얼마나 AI 작성물로 오탐하는지**도 궁금함  
    나는 LLM도, **AI 탐지기**도 완전히 신뢰하지 않음  
  - 결국 이런 문제는 예전에도 있었을 가능성이 높음  
    다만 지금은 그 빈도가 **가속화**된 것뿐임  

- 인용 오류 문제는 **AI 검색과 데이터 수집 비용**이 지금보다 100배 싸지면 사라질 것임  
  하지만 그때가 되면 **AI가 쓴 논문이 현실을 반영하는지**조차 구분하기 어려운,  
  일종의 **‘확률적 거울(stochastic mirror)’** 시대가 올 것임