주요 AI 학회, AI가 작성한 심사평으로 넘치는 중

▲

GN⁺ 5달전 | parent | ★ favorite | on: 주요 AI 학회, AI가 작성한 심사평으로 넘치는 중(nature.com)

Hacker News 의견

글쓰기에서 AI 의존이 커지고 있다고 생각하지만, 이 기사에서 사용한 방법론은 Pangram의 홍보처럼 보임
AI 탐지기는 대부분 신뢰할 수 없고, LLM을 써본 적 없는 사람들에게는 오히려 해로움
관련 논의는 이 링크에서 볼 수 있음
- 나는 Pangram의 공동 창업자임. 우리는 이 문제 영역에서 실질적인 진전을 이뤘음
  GPTZero 같은 구식 탐지기를 떠올린다면, 최근 성능 향상을 못 본 것임
  시카고대 경제학자들의 논문에 따르면, 1,992개의 인간 작성 문서에서 거짓 양성 0건, AI 문서 탐지율 99% 이상을 기록했음
- AI 탐지기는 사람을 처벌하는 데 쓰일 때만 해로움
  이번 연구처럼 통계적 분석에 쓰이는 건 문제없음
  실제로 AI로 작성된 논문은 거의 없고, 리뷰에만 많이 쓰인 게 자연스러운 결과임
- 어떤 사람들은 LLM을 불신하면서도, 자신들의 편견을 확인해주는 연구라면 LLM을 기꺼이 사용함
  이런 이중잣대가 흥미로움
20%라는 수치가 정확하든 아니든, 상위 학회들의 리뷰 품질 하락은 모두가 체감하고 있음
일부 분야에서는 리뷰어 담합이 실제로 존재하며, AC까지 연루된 경우도 있음
지금은 누구도 ‘원칙적으로 옳은 일’이라서 논문을 정성껏 리뷰하지 않음
- 과거에는 명시적 인센티브가 없어도 양심적으로 리뷰했지만, 그런 문화가 완전히 사라졌음
- AI 연구자들이 거액 연봉으로 스카우트되는 상황에서, 시스템이 왜곡되는 건 당연한 일임
- 이런 현상은 일종의 시장 조정으로 볼 수도 있음
  경력용 논문이 너무 많아지니, 리뷰어들이 신경을 덜 쓰게 되는 것임
Pangram의 분석에 따르면 ICLR 리뷰 중 21%가 완전한 AI 생성, 절반 이상이 AI 흔적을 포함함
하지만 “증거”가 무엇인지, AI 생성임을 어떻게 입증할 수 있는지가 의문임
- “증거”라는 표현은 부적절했음. 하지만 통계적 분석은 객관적일 수 있음
  이런 도구들은 그 목적에 적합함
- 실제로 그들이 방법론을 설명한 논문을 작성했음
- 어쩌면 AI 탐지기 자체가 AI일 수도 있음
- 나도 학생 과제 채점할 때 비슷한 문제를 겪음
  대부분 AI로 쓴 걸 ‘느끼지만’, 증명할 수 없으니 아무 조치도 못 함
- 사실 텍스트만으로는 구분 불가능함
  메타데이터 같은 추가 정보가 없으면, LLM이 썼는지 아닌지 판단 자체가 무의미함
헤드라인이 사실일 수도 있지만, AI 탐지기의 신뢰성은 여전히 낮음
Pangram의 도구가 그 오명을 벗었다는 증거는 없음
- Pangram 공동 창업자로서 말하자면, 우리 거짓 양성률은 1만 분의 1 수준임
  블로그 글에 자세히 설명했음
  ICLR 2022 리뷰 10,202건 중 10,190건이 인간 작성, 12건만 AI 편집 흔적이 있었음
- 학회 논문은 원래 형식화된 문체를 따르기 때문에, AI 여부를 구분하기 어려움
- 논문은 1%인데 리뷰는 20%가 AI라면, 단순히 리뷰어들이 AI에 더 의존했기 때문일 것임
  개인을 단죄할 수는 없지만, 다수 리뷰가 AI에 맡겨졌다고 거의 확신할 수 있음
“21%의 리뷰가 AI 생성”이라는 기사 제목을 보고, 오히려 생각보다 낮다는 인상을 받음
- 21%가 완전한 AI 생성이라면, 이는 곧 명백한 부정행위임
  사고 조사에서 말하는 ‘스위스 치즈 구멍이 일렬로 맞물린’ 상황처럼, 직무 태만이 누적된 결과임
처음엔 놀랐지만, 21%는 오히려 충격적으로 낮은 수치임
게다가 이 수치는 AI 탐지기를 판매하는 회사에서 나온 것이므로, 거짓 양성 가능성도 있음
핵심은 리뷰가 AI로 작성됐느냐가 아니라, 리뷰의 정확성임
- 아니, 그게 핵심이 아님
  학회는 ‘동료 심사’ 를 표방하는데, 아무리 뛰어난 AI라도 동료는 아님
- 연구가 실제로 유용하고 정확하다면 그게 더 중요함
  Pangram이 AI 탐지로 분노를 자극하며 클릭베이트를 노린 것처럼 보임
- 현실은 이렇음
  1. 과학자가 편견을 담은 연구를 함
  2. 리뷰어가 AI로 겉보기 그럴듯한 리뷰를 생성함
  3. 결국 연구자가 스스로 리뷰를 다시 해야 하는 기괴한 순환이 생김
결국 AI가 만든 괴물의 첫 피해자는, 그것을 만든 프로그래머·연구자·대학 같은 지식노동자들임
이번 학회는 예전에 OpenReview 버그로 모든 리뷰어가 잠시 신원 노출된 곳임
관련 기사에 따르면, 이후 점수는 초기화되고 새 AC들이 다시 결정을 내리게 됨
앞으로는 모든 논문에 AI 리뷰를 기본 제공하고, 인간 리뷰어는 그 결과를 보완하는 방식이 나을 수도 있음
이렇게 하면 리뷰어가 AI의 결과를 검토하게 되고, 저자도 예상 가능한 피드백을 받을 수 있음
물론 인간 리뷰어도 다시 AI를 쓸 수 있겠지만, 그건 저자도 마찬가지일 것임