1P by GN⁺ 1일전 | ★ favorite | 댓글 2개
  • 국제 머신러닝 학회 ICLR 2026의 논문 심사평 중 21%가 전적으로 인공지능에 의해 작성된 것으로 확인
  • Pangram Labs의 AI 탐지 도구가 7만5800건의 심사평을 분석해 절반 이상에서 AI 사용 흔적을 발견
  • 일부 연구자들은 비정상적으로 장황하거나 부정확한 피드백을 받아 AI 생성 가능성을 제기
  • 학회 측은 AI 사용 정책 위반 여부를 자동화 도구로 점검하겠다고 밝혔으며, 신뢰 회복 절차를 진행 중
  • 이번 사태는 학술 심사 과정의 투명성과 신뢰성 확보가 시급함을 보여주는 사례

ICLR 2026 논문 심사에서 드러난 AI 사용 실태

  • 국제 머신러닝 학회 ICLR 2026의 논문 심사평 중 약 21%가 완전히 AI로 작성, 절반 이상이 AI의 영향을 받은 것으로 분석됨
    • 분석은 Pangram Labs가 수행했으며, 총 1만9490편의 논문과 7만5800건의 심사평을 대상으로 함
    • Pangram은 AI 생성 텍스트 탐지 도구를 사용해 결과를 공개함
  • 학회는 AI 사용이 심사 정책을 위반했는지 자동화 도구로 검토할 계획을 밝힘
    • ICLR 2026의 프로그램 책임자는 이번이 대규모로 AI 심사 문제가 드러난 첫 사례라고 언급

연구자들의 문제 제기와 조사 과정

  • 여러 연구자들이 AI가 작성한 것으로 의심되는 심사평을 소셜미디어에서 공유
    • 일부 심사평은 ‘환각 인용(hallucinated citations)’ 이나 모호하고 장황한 피드백을 포함
  • Carnegie Mellon University의 Graham Neubig은 비정상적인 심사평을 받고 AI 생성 여부 검증을 요청
    • 그는 X(옛 트위터)에 보상 공지를 올렸고, Pangram Labs의 Max Spero가 이에 응답해 전수 조사를 실시
    • Pangram은 12시간 만에 모든 제출물의 텍스트를 분석할 코드를 작성했다고 설명

Pangram Labs의 분석 결과

  • Pangram의 도구는 LLM(대규모 언어모델) 이 생성하거나 편집한 텍스트를 예측하는 방식으로 작동
    • 분석 결과 1만5899건의 심사평이 완전히 AI 생성, 199편의 논문(1%)도 전적으로 AI 작성으로 판정
    • 61%의 논문은 인간 작성, 9%는 절반 이상이 AI 생성 텍스트 포함
  • Pangram은 자사 모델을 ICLR 2026에 프리프린트 형태로 제출, 해당 논문 심사 중 일부도 AI 생성으로 판정됨

연구자들의 반응

  • 코펜하겐대 Desmond Elliott는 자신이 제출한 논문 심사 중 하나가 논문 요지를 잘못 이해하고 잘못된 수치를 언급했다고 지적
    • 그의 박사과정 학생은 해당 심사평이 LLM이 작성한 것 같다고 추정
    • Pangram의 분석 결과, 그 심사평은 실제로 완전히 AI 생성으로 확인
    • 해당 심사평은 논문에 가장 낮은 평가 점수를 부여해, 채택 여부 경계선에 놓이게 됨

학회 대응과 향후 과제

  • 학회 측은 AI 사용 탐지 자동화 도구 도입을 예고하며, 심사 신뢰성 회복을 목표로 함
  • 프로그램 책임자는 이번 과정을 통해 신뢰의 개념을 재정립할 필요가 있다고 언급
  • 이번 사건은 AI가 학술 심사 과정에 깊숙이 침투했음을 보여주는 사례로, 연구 평가의 투명성 확보가 핵심 과제로 부상
Hacker News 의견
  • 글쓰기에서 AI 의존이 커지고 있다고 생각하지만, 이 기사에서 사용한 방법론은 Pangram의 홍보처럼 보임
    AI 탐지기는 대부분 신뢰할 수 없고, LLM을 써본 적 없는 사람들에게는 오히려 해로움
    관련 논의는 이 링크에서 볼 수 있음

    • 나는 Pangram의 공동 창업자임. 우리는 이 문제 영역에서 실질적인 진전을 이뤘음
      GPTZero 같은 구식 탐지기를 떠올린다면, 최근 성능 향상을 못 본 것임
      시카고대 경제학자들의 논문에 따르면, 1,992개의 인간 작성 문서에서 거짓 양성 0건, AI 문서 탐지율 99% 이상을 기록했음
    • AI 탐지기는 사람을 처벌하는 데 쓰일 때만 해로움
      이번 연구처럼 통계적 분석에 쓰이는 건 문제없음
      실제로 AI로 작성된 논문은 거의 없고, 리뷰에만 많이 쓰인 게 자연스러운 결과임
    • 어떤 사람들은 LLM을 불신하면서도, 자신들의 편견을 확인해주는 연구라면 LLM을 기꺼이 사용함
      이런 이중잣대가 흥미로움
  • 20%라는 수치가 정확하든 아니든, 상위 학회들의 리뷰 품질 하락은 모두가 체감하고 있음
    일부 분야에서는 리뷰어 담합이 실제로 존재하며, AC까지 연루된 경우도 있음
    지금은 누구도 ‘원칙적으로 옳은 일’이라서 논문을 정성껏 리뷰하지 않음

    • 과거에는 명시적 인센티브가 없어도 양심적으로 리뷰했지만, 그런 문화가 완전히 사라졌음
    • AI 연구자들이 거액 연봉으로 스카우트되는 상황에서, 시스템이 왜곡되는 건 당연한 일임
    • 이런 현상은 일종의 시장 조정으로 볼 수도 있음
      경력용 논문이 너무 많아지니, 리뷰어들이 신경을 덜 쓰게 되는 것임
  • Pangram의 분석에 따르면 ICLR 리뷰 중 21%가 완전한 AI 생성, 절반 이상이 AI 흔적을 포함함
    하지만 “증거”가 무엇인지, AI 생성임을 어떻게 입증할 수 있는지가 의문임

    • “증거”라는 표현은 부적절했음. 하지만 통계적 분석은 객관적일 수 있음
      이런 도구들은 그 목적에 적합함
    • 실제로 그들이 방법론을 설명한 논문을 작성했음
    • 어쩌면 AI 탐지기 자체가 AI일 수도 있음
    • 나도 학생 과제 채점할 때 비슷한 문제를 겪음
      대부분 AI로 쓴 걸 ‘느끼지만’, 증명할 수 없으니 아무 조치도 못 함
    • 사실 텍스트만으로는 구분 불가능
      메타데이터 같은 추가 정보가 없으면, LLM이 썼는지 아닌지 판단 자체가 무의미함
  • 헤드라인이 사실일 수도 있지만, AI 탐지기의 신뢰성은 여전히 낮음
    Pangram의 도구가 그 오명을 벗었다는 증거는 없음

    • Pangram 공동 창업자로서 말하자면, 우리 거짓 양성률은 1만 분의 1 수준임
      블로그 글에 자세히 설명했음
      ICLR 2022 리뷰 10,202건 중 10,190건이 인간 작성, 12건만 AI 편집 흔적이 있었음
    • 학회 논문은 원래 형식화된 문체를 따르기 때문에, AI 여부를 구분하기 어려움
    • 논문은 1%인데 리뷰는 20%가 AI라면, 단순히 리뷰어들이 AI에 더 의존했기 때문일 것임
      개인을 단죄할 수는 없지만, 다수 리뷰가 AI에 맡겨졌다고 거의 확신할 수 있음
  • “21%의 리뷰가 AI 생성”이라는 기사 제목을 보고, 오히려 생각보다 낮다는 인상을 받음

    • 21%가 완전한 AI 생성이라면, 이는 곧 명백한 부정행위
      사고 조사에서 말하는 ‘스위스 치즈 구멍이 일렬로 맞물린’ 상황처럼, 직무 태만이 누적된 결과임
  • 처음엔 놀랐지만, 21%는 오히려 충격적으로 낮은 수치
    게다가 이 수치는 AI 탐지기를 판매하는 회사에서 나온 것이므로, 거짓 양성 가능성도 있음

  • 핵심은 리뷰가 AI로 작성됐느냐가 아니라, 리뷰의 정확성

    • 아니, 그게 핵심이 아님
      학회는 ‘동료 심사’ 를 표방하는데, 아무리 뛰어난 AI라도 동료는 아님
    • 연구가 실제로 유용하고 정확하다면 그게 더 중요함
      Pangram이 AI 탐지로 분노를 자극하며 클릭베이트를 노린 것처럼 보임
    • 현실은 이렇음
      1. 과학자가 편견을 담은 연구를 함
      2. 리뷰어가 AI로 겉보기 그럴듯한 리뷰를 생성함
      3. 결국 연구자가 스스로 리뷰를 다시 해야 하는 기괴한 순환이 생김
  • 결국 AI가 만든 괴물의 첫 피해자는, 그것을 만든 프로그래머·연구자·대학 같은 지식노동자들임

  • 이번 학회는 예전에 OpenReview 버그로 모든 리뷰어가 잠시 신원 노출된 곳임
    관련 기사에 따르면, 이후 점수는 초기화되고 새 AC들이 다시 결정을 내리게 됨

  • 앞으로는 모든 논문에 AI 리뷰를 기본 제공하고, 인간 리뷰어는 그 결과를 보완하는 방식이 나을 수도 있음
    이렇게 하면 리뷰어가 AI의 결과를 검토하게 되고, 저자도 예상 가능한 피드백을 받을 수 있음
    물론 인간 리뷰어도 다시 AI를 쓸 수 있겠지만, 그건 저자도 마찬가지일 것임