# 새 arXiv 정책: 환각 참고문헌에 1년 이용 금지

> Clean Markdown view of GeekNews topic #29535. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=29535](https://news.hada.io/topic?id=29535)
- GeekNews Markdown: [https://news.hada.io/topic/29535.md](https://news.hada.io/topic/29535.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2026-05-15T12:34:33+09:00
- Updated: 2026-05-15T12:34:33+09:00
- Original source: [twitter.com/tdietterich](https://twitter.com/tdietterich/status/2055000956144935055)
- Points: 1
- Comments: 1

## Topic Body

- **arXiv Code of Conduct**는 저자로 이름을 올린 사람이 생성 방식과 무관하게 논문 전체에 책임진다고 규정함
- 생성형 AI가 만든 **부적절한 언어**, 표절, 편향, 오류, 잘못된 참고문헌이 논문에 들어가도 책임은 저자에게 있음
- arXiv는 저자가 LLM 생성 결과를 검증하지 않았다는 **명백한 증거**가 있으면 논문 전체를 신뢰할 수 없다고 봄
- 제재는 **arXiv 1년 이용 금지**이며, 이후 제출물은 먼저 평판 있는 동료심사 학술 venue에서 수락돼야 함
- **환각 참고문헌**이나 “실험의 실제 숫자로 채우라” 같은 LLM 메타 코멘트가 명백한 증거로 간주됨

---

### arXiv 저자의 책임과 제재
- **arXiv Code of Conduct**는 논문 저자로 이름을 올리는 행위가 내용 생성 방식과 관계없이 논문 전체에 대한 책임을 지는 것이라고 규정함
- 생성형 AI 도구가 만든 **부적절한 언어**, 표절된 내용, 편향된 내용, 오류, 실수, 잘못된 참고문헌, 오해를 부르는 내용이 과학 저작물에 포함되면 책임은 저자에게 있음
- arXiv는 제출물 안에 저자가 LLM 생성 결과를 확인하지 않았다는 **명백한 증거**가 있으면 해당 논문의 어떤 내용도 신뢰할 수 없다고 봄
- 제재는 **arXiv 1년 이용 금지**이며, 이후 arXiv에 제출하려면 먼저 평판 있는 동료심사 학술 venue에서 수락돼야 함
- 명백한 증거에는 **환각 참고문헌**과 LLM의 메타 코멘트가 포함됨
  - 예: “here is a 200 word summary; would you like me to make any changes?”
  - 예: “the data in this table is illustrative, fill it in with the real numbers from your experiments”

## Comments


### Comment 57534

- Author: neo
- Created: 2026-05-15T12:34:33+09:00
- Points: 1

###### [Hacker News 의견들](https://news.ycombinator.com/item?id=48140922) 
- 처벌이 **arXiv 1년 이용 금지** 뒤에, 이후 제출물은 먼저 평판 있는 동료심사 출판처에 받아들여져야 한다는 조건이라면 과학에 정말 좋은 일임  
  arXiv는 무료지만 권리라기보다 특권에 가까움  
  다만 [https://info.arxiv.org/help/policies/index.html](<https://info.arxiv.org/help/policies/index.html>)에는 명확히 보이지 않아서 아직 계획 단계일 수도 있고, 내가 충분히 못 찾은 걸 수도 있음  
  어떤 박사가 말했듯이, 종말 장치의 핵심은 숨겨두면 의미가 없다는 데 있음
  - 이 글이 올라온 뒤 누군가 이미 **참고문헌 검사기**를 대충 만들어서 구독형으로 팔 생각을 하고 있을 것 같음  
    참고문헌 확인에는 좋지만, 환각 참고문헌과 함께 따라오는 조악한 과학 자체를 크게 줄이진 못할 듯함
  - 내 생각엔 이건 **과도해 보임**  
    arXiv는 제출물을 그렇게 면밀히 확인하지도 않는데 어떻게 알 수 있나?  
    “오류, 실수”라고 하는데, 기본 요건 충족 여부를 자동 시스템으로 확인하고 가끔 피상적인 사람 검토로 넘어갈 뿐, 모든 참고문헌을 규모 있게 확인하는 건 불가능함  
    저널보다 쉽게 100배는 많은 양을 받는 사전출판 저장소에서 동료심사 비슷한 걸 하려는 셈임  
    게다가 arXiv에 올리는 것과 동료심사 통과 사이에는 엄청난 차이가 있음  
    개인적으로도 수학 분야에서 동료심사 거절은 아마 열 번 넘게 받았지만 arXiv math에는 문제없이 올렸음  
    동료심사는 새롭고 맞는지만 보는 게 아니라 “수학 커뮤니티에 흥미로운가”도 보는데, 이건 본질적으로 주관적이고 arXiv 게재보다 훨씬 어려움  
    정수론의 유명 교수가 보증 때 논문을 칭찬했고, 또 다른 교수도 이메일로 출판을 권했는데도 3번 거절됐고 아직 기다리는 중임  
    동료심사 저널 게재를 요구하면 많은 연구자에게 arXiv가 영영 닫힐 수 있고, **사전출판**이라는 취지에도 어긋남
  - “과학에 정말 좋은 일”이라는 데 동의하지 않음  
    고작 **환각 인용 하나**일 뿐이고, 사기 같은 건 아님  
    그 사람의 연구 내용이나 품질을 전혀 반영하지도 않음  
    이런 사소한 첫 실수에는 1년 금지만으로도 충분해 보임  
    사람은 실수하고, 상당수는 그 실수에서 배울 수 있음  
    평생 한 번 AI가 참고문헌을 환각했다는 이유만으로 누군가의 인생 진전이나 인류에 기여할 능력을 영구적으로 망가뜨릴 필요는 없음  
    이건 재활적이기보다 징벌적임

- 환영할 만한 조치이긴 하지만, 근본적으로는 인용한 논문에 대해 **올바른 BibTeX 항목**을 쉽게 만드는 문제가 더 해결됐으면 함  
  특정 논문의 인용 정보는 여러 출판사의 저널, 학회, 사전출판 등 다양한 출처에서 올 수 있음  
  같은 논문도 arXiv와 학회 웹사이트처럼 여러 곳에 있고 세부 정보가 조금씩 다를 수 있음  
  Zotero 같은 도구 덕분에 출판 웹페이지에서 인용을 뽑아내는 일은 훨씬 쉬워졌지만, 추출된 BibTeX 세부정보에는 여전히 문제가 있음  
  저자명과 제목은 대체로 잘 뽑히지만, 출판처, 연도, 권호, 페이지, URL 등이 정확히 추출됐는지와 LaTeX 형식에서 제대로 표시되는지는 아직 수동으로 확인해야 함  
  출판물마다 인용 양식도 다를 수 있음  
  일관된 인용 데이터를 쉽게 뽑는 통합 방식이 없다 보니, 안타깝게도 AI 생성 인용 데이터로 지름길을 택하게 될 수 있음  
  환각 인용이 본문에서 생기는지 별도 BibTeX 파일에서 생기는지 확실치 않아 내 이해가 조금 빗나갔을 수도 있음
  - Zotero에는 URL/DOI/ISBN 등에서 원하는 형식의 인용이나 **BibTeX 파일**을 만드는 무료 온라인 도구도 있음  
    [https://zbib.org/](<https://zbib.org/>)

- [https://xcancel.com/tdietterich/status/2055000956144935055](<https://xcancel.com/tdietterich/status/2055000956144935055>)
  - 행동강령에 따르면 논문 저자로 이름을 올린다는 것은, 내용이 어떻게 생성됐든 각 저자가 그 모든 내용에 대해 **전적인 책임**을 진다는 뜻임

- 환각 참고문헌을 **대규모로 어떻게 탐지**할지가 문제임  
  수동 표본 검사인지, 자동 DOI 검증인지 모르겠음  
  정책 방향은 맞아 보이지만 집행이 어려움

- 좋음  
  LLM 출력물을 꼼꼼히 확인할 시간이 없다면, 나도 그걸 읽을 시간이 없음
  - 안타깝지만 LLM 생성 여부와 관계없이 arXiv 논문의 99%는 읽을 가치가 없을 가능성이 큼  
    무작위로 하나 골라서 정말 깊게 파본 적 있나?

- 아직 여기서는 “**평판 있는**”이라는 조건을 다루는 내용이 안 보임  
  평판 있는 심사는 어떤 기준으로 정해지는 건가?

- 이런 불이익 조치 전에는 **신중한 검증**이 필요함  
  누군가 명시적 허락 없이 이름을 넣고 제출했다면 모두가 금지당하나?  
  제대로 구현된다면 좋은 방향이라는 데는 동의함
  - 게다가 내가 알기로는 검증 없이 원하는 공동저자를 아무나 추가할 수 있음  
    그러면 문장 하나짜리 논문 하나로 arXiv의 모두를 금지시킬 수도 있음

- Twitter에서 늘 보이는 **LLM 과열 지지자들**이 이 조치에 화내며 답글 다는 모습은 꽤 드러나는 신호임  
  LLM 오염 관련 글의 댓글과 마찬가지로, 어떤 사람들은 LLM을 싫어하는 사람들이 있다는 사실을 받아들이지 못하고 빠른 수용에 조금이라도 장애물이 생기면 화를 냄
  - 이게 회색 처리됐다는 게 이상함  
    결국 HN의 합의는 어디서든 LLM 도입을 과열해서 가속해야 한다는 건가 싶음  
    말도 안 되지만, 동시에 정말 HN답기도 함

- 좋음. 학술 문헌은 온갖 **저품질 쓰레기** 때문에 위기 상태임  
  쉽게 탐지되는 환각에 책임을 물리는 건 좋은 일일 수밖에 없음
  - AI만의 문제는 아님  
    40년쯤 전에 물리학 박사과정을 했는데, 그때도 잘못된 참고문헌은 문제였음

- 동료가 본문에 문자 그대로 **AI 쓰레기 문장**을 남긴 채 논문을 제출했다가 혹독한 수정 요청을 받았음  
  제출하기 전에 초안을 확인해야 함  
  심사자들은 찾아냄
  - LaTeX 주석도 확인해야 함. arXiv는 그걸 공개로 보이게 만듦  
    나는 화면낭독기 사용자라 보통 논문을 원시 TeX로 읽는데, 온갖 걸 봤음  
    비하 표현, 심사자와 교수에 대한 모욕, 사기 인정, 이전 사기를 가리기 위해 제출 전 공동저자에게 추가 사기를 지시하는 내용까지 전부 들어 있음  
    생각보다 훨씬 적어서 논문의 1% 미만이긴 하지만 실제로 존재함  
    새 arXiv 논문의 TeX 소스에 **LLM 기반 사기 탐지**를 한 번 돌리는 건 유용할 것 같음  
    전부 잡지는 못하겠지만 가장 멍청한 사기꾼 일부는 잡을 수 있음  
    긍정적인 면도 있어서, 심사를 통과하지 못한 더 강한 주장, 학회 페이지 제한 때문에 빠진 추가 설명, 저자들이 넣을 만큼 가치 있다고 보지 않은 실험 결과도 찾을 수 있음  
    이런 것들은 매우 조심해서 봐야 하지만 때로는 진짜로 유용함
  - 여기서 제안이 처음부터 쓰레기를 제출하지 말라는 게 아니라, 심사자가 발견하기 어렵게 **쓰레기를 위장**하라는 쪽처럼 들려서 슬픔