# 주요 AI 학회, AI가 작성한 심사평으로 넘치는 중

> Clean Markdown view of GeekNews topic #24729. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=24729](https://news.hada.io/topic?id=24729)
- GeekNews Markdown: [https://news.hada.io/topic/24729.md](https://news.hada.io/topic/24729.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2025-12-01T07:33:05+09:00
- Updated: 2025-12-01T07:33:05+09:00
- Original source: [nature.com](https://www.nature.com/articles/d41586-025-03506-6)
- Points: 3
- Comments: 2

## Topic Body

- 국제 머신러닝 학회 **ICLR 2026**의 논문 심사평 중 **21%가 전적으로 인공지능에 의해 작성된 것으로 확인**  
- **Pangram Labs**의 AI 탐지 도구가 7만5800건의 심사평을 분석해 절반 이상에서 **AI 사용 흔적**을 발견  
- 일부 연구자들은 **비정상적으로 장황하거나 부정확한 피드백**을 받아 AI 생성 가능성을 제기  
- 학회 측은 **AI 사용 정책 위반 여부를 자동화 도구로 점검**하겠다고 밝혔으며, 신뢰 회복 절차를 진행 중  
- 이번 사태는 **학술 심사 과정의 투명성과 신뢰성 확보**가 시급함을 보여주는 사례  

---

### ICLR 2026 논문 심사에서 드러난 AI 사용 실태
- 국제 머신러닝 학회 **ICLR 2026**의 논문 심사평 중 **약 21%가 완전히 AI로 작성**, 절반 이상이 AI의 영향을 받은 것으로 분석됨  
  - 분석은 **Pangram Labs**가 수행했으며, 총 **1만9490편의 논문과 7만5800건의 심사평**을 대상으로 함  
  - Pangram은 AI 생성 텍스트 탐지 도구를 사용해 결과를 공개함  
- 학회는 **AI 사용이 심사 정책을 위반했는지 자동화 도구로 검토**할 계획을 밝힘  
  - ICLR 2026의 프로그램 책임자는 이번이 **대규모로 AI 심사 문제가 드러난 첫 사례**라고 언급  

### 연구자들의 문제 제기와 조사 과정
- 여러 연구자들이 **AI가 작성한 것으로 의심되는 심사평**을 소셜미디어에서 공유  
  - 일부 심사평은 **‘환각 인용(hallucinated citations)’** 이나 **모호하고 장황한 피드백**을 포함  
- **Carnegie Mellon University**의 Graham Neubig은 비정상적인 심사평을 받고 **AI 생성 여부 검증을 요청**  
  - 그는 X(옛 트위터)에 보상 공지를 올렸고, **Pangram Labs의 Max Spero**가 이에 응답해 전수 조사를 실시  
  - Pangram은 12시간 만에 모든 제출물의 텍스트를 분석할 코드를 작성했다고 설명  

### Pangram Labs의 분석 결과
- Pangram의 도구는 **LLM(대규모 언어모델)** 이 생성하거나 편집한 텍스트를 예측하는 방식으로 작동  
  - 분석 결과 **1만5899건의 심사평이 완전히 AI 생성**, **199편의 논문(1%)도 전적으로 AI 작성**으로 판정  
  - **61%의 논문은 인간 작성**, **9%는 절반 이상이 AI 생성 텍스트 포함**  
- Pangram은 자사 모델을 **ICLR 2026에 프리프린트 형태로 제출**, 해당 논문 심사 중 일부도 AI 생성으로 판정됨  

### 연구자들의 반응
- **코펜하겐대 Desmond Elliott**는 자신이 제출한 논문 심사 중 하나가 **논문 요지를 잘못 이해하고 잘못된 수치를 언급**했다고 지적  
  - 그의 박사과정 학생은 해당 심사평이 **LLM이 작성한 것 같다고 추정**  
  - Pangram의 분석 결과, 그 심사평은 실제로 **완전히 AI 생성**으로 확인  
  - 해당 심사평은 논문에 **가장 낮은 평가 점수**를 부여해, **채택 여부 경계선에 놓이게 됨**  

### 학회 대응과 향후 과제
- 학회 측은 **AI 사용 탐지 자동화 도구 도입**을 예고하며, **심사 신뢰성 회복**을 목표로 함  
- 프로그램 책임자는 이번 과정을 통해 **신뢰의 개념을 재정립할 필요**가 있다고 언급  
- 이번 사건은 **AI가 학술 심사 과정에 깊숙이 침투했음을 보여주는 사례**로, **연구 평가의 투명성 확보**가 핵심 과제로 부상

## Comments


### Comment 47032

- Author: yuntae
- Created: 2025-12-01T13:25:55+09:00
- Points: 1

재밌는 리뷰 사례가 많더라구요  
https://www.reddit.com/r/MachineLearning/comments/1ov7qs2/d_iclr_review_comment_is_this_real/

### Comment 47005

- Author: neo
- Created: 2025-12-01T07:33:06+09:00
- Points: 1

###### [Hacker News 의견](https://news.ycombinator.com/item?id=46088236) 
- 글쓰기에서 **AI 의존**이 커지고 있다고 생각하지만, 이 기사에서 사용한 방법론은 Pangram의 홍보처럼 보임  
  AI 탐지기는 대부분 **신뢰할 수 없고**, LLM을 써본 적 없는 사람들에게는 오히려 해로움  
  관련 논의는 [이 링크](https://hn.algolia.com/?dateRange=all&page=0&prefix=true&query=ai%20detector&sort=byPopularity&type=story)에서 볼 수 있음
  - 나는 Pangram의 공동 창업자임. 우리는 이 문제 영역에서 **실질적인 진전**을 이뤘음  
    GPTZero 같은 구식 탐지기를 떠올린다면, 최근 성능 향상을 못 본 것임  
    시카고대 경제학자들의 [논문](https://papers.ssrn.com/sol3/papers.cfm?abstract_id=5407424)에 따르면, 1,992개의 인간 작성 문서에서 **거짓 양성 0건**, AI 문서 탐지율 99% 이상을 기록했음
  - AI 탐지기는 사람을 **처벌**하는 데 쓰일 때만 해로움  
    이번 연구처럼 통계적 분석에 쓰이는 건 문제없음  
    실제로 AI로 작성된 논문은 거의 없고, **리뷰**에만 많이 쓰인 게 자연스러운 결과임
  - 어떤 사람들은 LLM을 불신하면서도, 자신들의 **편견을 확인**해주는 연구라면 LLM을 기꺼이 사용함  
    이런 **이중잣대**가 흥미로움

- 20%라는 수치가 정확하든 아니든, 상위 학회들의 **리뷰 품질 하락**은 모두가 체감하고 있음  
  일부 분야에서는 **리뷰어 담합**이 실제로 존재하며, AC까지 연루된 경우도 있음  
  지금은 누구도 ‘원칙적으로 옳은 일’이라서 논문을 정성껏 리뷰하지 않음
  - 과거에는 명시적 인센티브가 없어도 **양심적으로 리뷰**했지만, 그런 문화가 완전히 사라졌음
  - AI 연구자들이 **거액 연봉**으로 스카우트되는 상황에서, 시스템이 왜곡되는 건 당연한 일임
  - 이런 현상은 일종의 **시장 조정**으로 볼 수도 있음  
    경력용 논문이 너무 많아지니, 리뷰어들이 신경을 덜 쓰게 되는 것임

- Pangram의 분석에 따르면 ICLR 리뷰 중 **21%가 완전한 AI 생성**, 절반 이상이 AI 흔적을 포함함  
  하지만 “증거”가 무엇인지, **AI 생성임을 어떻게 입증**할 수 있는지가 의문임
  - “증거”라는 표현은 부적절했음. 하지만 **통계적 분석**은 객관적일 수 있음  
    이런 도구들은 그 목적에 적합함
  - 실제로 그들이 방법론을 설명한 [논문](https://arxiv.org/pdf/2510.03154)을 작성했음
  - 어쩌면 **AI 탐지기 자체가 AI**일 수도 있음
  - 나도 학생 과제 채점할 때 비슷한 문제를 겪음  
    대부분 AI로 쓴 걸 ‘느끼지만’, **증명할 수 없으니** 아무 조치도 못 함
  - 사실 **텍스트만으로는 구분 불가능**함  
    메타데이터 같은 추가 정보가 없으면, LLM이 썼는지 아닌지 판단 자체가 무의미함

- 헤드라인이 사실일 수도 있지만, **AI 탐지기의 신뢰성**은 여전히 낮음  
  Pangram의 도구가 그 오명을 벗었다는 증거는 없음
  - Pangram 공동 창업자로서 말하자면, 우리 **거짓 양성률은 1만 분의 1** 수준임  
    [블로그 글](https://www.pangram.com/blog/all-about-false-positives-in-ai-detectors)에 자세히 설명했음  
    ICLR 2022 리뷰 10,202건 중 10,190건이 인간 작성, 12건만 AI 편집 흔적이 있었음
  - 학회 논문은 원래 **형식화된 문체**를 따르기 때문에, AI 여부를 구분하기 어려움
  - 논문은 1%인데 리뷰는 20%가 AI라면, 단순히 **리뷰어들이 AI에 더 의존**했기 때문일 것임  
    개인을 단죄할 수는 없지만, 다수 리뷰가 AI에 맡겨졌다고 거의 확신할 수 있음

- “21%의 리뷰가 AI 생성”이라는 기사 제목을 보고, 오히려 **생각보다 낮다**는 인상을 받음
  - 21%가 완전한 AI 생성이라면, 이는 곧 **명백한 부정행위**임  
    사고 조사에서 말하는 ‘스위스 치즈 구멍이 일렬로 맞물린’ 상황처럼, **직무 태만**이 누적된 결과임

- 처음엔 놀랐지만, 21%는 오히려 **충격적으로 낮은 수치**임  
  게다가 이 수치는 AI 탐지기를 판매하는 회사에서 나온 것이므로, **거짓 양성 가능성**도 있음

- 핵심은 리뷰가 AI로 작성됐느냐가 아니라, **리뷰의 정확성**임
  - 아니, 그게 핵심이 아님  
    학회는 **‘동료 심사’** 를 표방하는데, 아무리 뛰어난 AI라도 동료는 아님
  - 연구가 실제로 **유용하고 정확**하다면 그게 더 중요함  
    Pangram이 AI 탐지로 분노를 자극하며 **클릭베이트**를 노린 것처럼 보임
  - 현실은 이렇음  
    1) 과학자가 편견을 담은 연구를 함  
    2) 리뷰어가 AI로 **겉보기 그럴듯한 리뷰**를 생성함  
    3) 결국 연구자가 스스로 리뷰를 다시 해야 하는 **기괴한 순환**이 생김

- 결국 **AI가 만든 괴물**의 첫 피해자는, 그것을 만든 **프로그래머·연구자·대학** 같은 지식노동자들임

- 이번 학회는 예전에 **OpenReview 버그**로 모든 리뷰어가 잠시 신원 노출된 곳임  
  [관련 기사](https://eu.36kr.com/en/p/3572028126116993)에 따르면, 이후 점수는 초기화되고 새 AC들이 다시 결정을 내리게 됨

- 앞으로는 모든 논문에 **AI 리뷰를 기본 제공**하고, 인간 리뷰어는 그 결과를 보완하는 방식이 나을 수도 있음  
  이렇게 하면 리뷰어가 AI의 결과를 검토하게 되고, 저자도 **예상 가능한 피드백**을 받을 수 있음  
  물론 인간 리뷰어도 다시 AI를 쓸 수 있겠지만, 그건 저자도 마찬가지일 것임