글쓰기에서 AI 의존이 커지고 있다고 생각하지만, 이 기사에서 사용한 방법론은 Pangram의 홍보처럼 보임
AI 탐지기는 대부분 신뢰할 수 없고, LLM을 써본 적 없는 사람들에게는 오히려 해로움
관련 논의는 이 링크에서 볼 수 있음
나는 Pangram의 공동 창업자임. 우리는 이 문제 영역에서 실질적인 진전을 이뤘음
GPTZero 같은 구식 탐지기를 떠올린다면, 최근 성능 향상을 못 본 것임
시카고대 경제학자들의 논문에 따르면, 1,992개의 인간 작성 문서에서 거짓 양성 0건, AI 문서 탐지율 99% 이상을 기록했음
AI 탐지기는 사람을 처벌하는 데 쓰일 때만 해로움
이번 연구처럼 통계적 분석에 쓰이는 건 문제없음
실제로 AI로 작성된 논문은 거의 없고, 리뷰에만 많이 쓰인 게 자연스러운 결과임
어떤 사람들은 LLM을 불신하면서도, 자신들의 편견을 확인해주는 연구라면 LLM을 기꺼이 사용함
이런 이중잣대가 흥미로움
20%라는 수치가 정확하든 아니든, 상위 학회들의 리뷰 품질 하락은 모두가 체감하고 있음
일부 분야에서는 리뷰어 담합이 실제로 존재하며, AC까지 연루된 경우도 있음
지금은 누구도 ‘원칙적으로 옳은 일’이라서 논문을 정성껏 리뷰하지 않음
과거에는 명시적 인센티브가 없어도 양심적으로 리뷰했지만, 그런 문화가 완전히 사라졌음
AI 연구자들이 거액 연봉으로 스카우트되는 상황에서, 시스템이 왜곡되는 건 당연한 일임
이런 현상은 일종의 시장 조정으로 볼 수도 있음
경력용 논문이 너무 많아지니, 리뷰어들이 신경을 덜 쓰게 되는 것임
Pangram의 분석에 따르면 ICLR 리뷰 중 21%가 완전한 AI 생성, 절반 이상이 AI 흔적을 포함함
하지만 “증거”가 무엇인지, AI 생성임을 어떻게 입증할 수 있는지가 의문임
“증거”라는 표현은 부적절했음. 하지만 통계적 분석은 객관적일 수 있음
이런 도구들은 그 목적에 적합함
나도 학생 과제 채점할 때 비슷한 문제를 겪음
대부분 AI로 쓴 걸 ‘느끼지만’, 증명할 수 없으니 아무 조치도 못 함
사실 텍스트만으로는 구분 불가능함
메타데이터 같은 추가 정보가 없으면, LLM이 썼는지 아닌지 판단 자체가 무의미함
헤드라인이 사실일 수도 있지만, AI 탐지기의 신뢰성은 여전히 낮음
Pangram의 도구가 그 오명을 벗었다는 증거는 없음
Pangram 공동 창업자로서 말하자면, 우리 거짓 양성률은 1만 분의 1 수준임 블로그 글에 자세히 설명했음
ICLR 2022 리뷰 10,202건 중 10,190건이 인간 작성, 12건만 AI 편집 흔적이 있었음
학회 논문은 원래 형식화된 문체를 따르기 때문에, AI 여부를 구분하기 어려움
논문은 1%인데 리뷰는 20%가 AI라면, 단순히 리뷰어들이 AI에 더 의존했기 때문일 것임
개인을 단죄할 수는 없지만, 다수 리뷰가 AI에 맡겨졌다고 거의 확신할 수 있음
“21%의 리뷰가 AI 생성”이라는 기사 제목을 보고, 오히려 생각보다 낮다는 인상을 받음
21%가 완전한 AI 생성이라면, 이는 곧 명백한 부정행위임
사고 조사에서 말하는 ‘스위스 치즈 구멍이 일렬로 맞물린’ 상황처럼, 직무 태만이 누적된 결과임
처음엔 놀랐지만, 21%는 오히려 충격적으로 낮은 수치임
게다가 이 수치는 AI 탐지기를 판매하는 회사에서 나온 것이므로, 거짓 양성 가능성도 있음
핵심은 리뷰가 AI로 작성됐느냐가 아니라, 리뷰의 정확성임
아니, 그게 핵심이 아님
학회는 ‘동료 심사’ 를 표방하는데, 아무리 뛰어난 AI라도 동료는 아님
연구가 실제로 유용하고 정확하다면 그게 더 중요함
Pangram이 AI 탐지로 분노를 자극하며 클릭베이트를 노린 것처럼 보임
현실은 이렇음
과학자가 편견을 담은 연구를 함
리뷰어가 AI로 겉보기 그럴듯한 리뷰를 생성함
결국 연구자가 스스로 리뷰를 다시 해야 하는 기괴한 순환이 생김
결국 AI가 만든 괴물의 첫 피해자는, 그것을 만든 프로그래머·연구자·대학 같은 지식노동자들임
이번 학회는 예전에 OpenReview 버그로 모든 리뷰어가 잠시 신원 노출된 곳임 관련 기사에 따르면, 이후 점수는 초기화되고 새 AC들이 다시 결정을 내리게 됨
앞으로는 모든 논문에 AI 리뷰를 기본 제공하고, 인간 리뷰어는 그 결과를 보완하는 방식이 나을 수도 있음
이렇게 하면 리뷰어가 AI의 결과를 검토하게 되고, 저자도 예상 가능한 피드백을 받을 수 있음
물론 인간 리뷰어도 다시 AI를 쓸 수 있겠지만, 그건 저자도 마찬가지일 것임
Hacker News 의견
글쓰기에서 AI 의존이 커지고 있다고 생각하지만, 이 기사에서 사용한 방법론은 Pangram의 홍보처럼 보임
AI 탐지기는 대부분 신뢰할 수 없고, LLM을 써본 적 없는 사람들에게는 오히려 해로움
관련 논의는 이 링크에서 볼 수 있음
GPTZero 같은 구식 탐지기를 떠올린다면, 최근 성능 향상을 못 본 것임
시카고대 경제학자들의 논문에 따르면, 1,992개의 인간 작성 문서에서 거짓 양성 0건, AI 문서 탐지율 99% 이상을 기록했음
이번 연구처럼 통계적 분석에 쓰이는 건 문제없음
실제로 AI로 작성된 논문은 거의 없고, 리뷰에만 많이 쓰인 게 자연스러운 결과임
이런 이중잣대가 흥미로움
20%라는 수치가 정확하든 아니든, 상위 학회들의 리뷰 품질 하락은 모두가 체감하고 있음
일부 분야에서는 리뷰어 담합이 실제로 존재하며, AC까지 연루된 경우도 있음
지금은 누구도 ‘원칙적으로 옳은 일’이라서 논문을 정성껏 리뷰하지 않음
경력용 논문이 너무 많아지니, 리뷰어들이 신경을 덜 쓰게 되는 것임
Pangram의 분석에 따르면 ICLR 리뷰 중 21%가 완전한 AI 생성, 절반 이상이 AI 흔적을 포함함
하지만 “증거”가 무엇인지, AI 생성임을 어떻게 입증할 수 있는지가 의문임
이런 도구들은 그 목적에 적합함
대부분 AI로 쓴 걸 ‘느끼지만’, 증명할 수 없으니 아무 조치도 못 함
메타데이터 같은 추가 정보가 없으면, LLM이 썼는지 아닌지 판단 자체가 무의미함
헤드라인이 사실일 수도 있지만, AI 탐지기의 신뢰성은 여전히 낮음
Pangram의 도구가 그 오명을 벗었다는 증거는 없음
블로그 글에 자세히 설명했음
ICLR 2022 리뷰 10,202건 중 10,190건이 인간 작성, 12건만 AI 편집 흔적이 있었음
개인을 단죄할 수는 없지만, 다수 리뷰가 AI에 맡겨졌다고 거의 확신할 수 있음
“21%의 리뷰가 AI 생성”이라는 기사 제목을 보고, 오히려 생각보다 낮다는 인상을 받음
사고 조사에서 말하는 ‘스위스 치즈 구멍이 일렬로 맞물린’ 상황처럼, 직무 태만이 누적된 결과임
처음엔 놀랐지만, 21%는 오히려 충격적으로 낮은 수치임
게다가 이 수치는 AI 탐지기를 판매하는 회사에서 나온 것이므로, 거짓 양성 가능성도 있음
핵심은 리뷰가 AI로 작성됐느냐가 아니라, 리뷰의 정확성임
학회는 ‘동료 심사’ 를 표방하는데, 아무리 뛰어난 AI라도 동료는 아님
Pangram이 AI 탐지로 분노를 자극하며 클릭베이트를 노린 것처럼 보임
결국 AI가 만든 괴물의 첫 피해자는, 그것을 만든 프로그래머·연구자·대학 같은 지식노동자들임
이번 학회는 예전에 OpenReview 버그로 모든 리뷰어가 잠시 신원 노출된 곳임
관련 기사에 따르면, 이후 점수는 초기화되고 새 AC들이 다시 결정을 내리게 됨
앞으로는 모든 논문에 AI 리뷰를 기본 제공하고, 인간 리뷰어는 그 결과를 보완하는 방식이 나을 수도 있음
이렇게 하면 리뷰어가 AI의 결과를 검토하게 되고, 저자도 예상 가능한 피드백을 받을 수 있음
물론 인간 리뷰어도 다시 AI를 쓸 수 있겠지만, 그건 저자도 마찬가지일 것임