GN⁺: GPT로 생성된 Google Scholar의 가짜 논문: 주요 특징, 확산, 증거 조작 방지를 위한 시사점
(misinforeview.hks.harvard.edu)- Google Scholar에서 일반적으로 사용되는 GPT 모델로 생성된 것으로 보이는 다수의 의심스러운 논문이 쉽게 발견되고 있음
- 이러한 논문들은 주로 널리 사용되는 범용 AI 애플리케이션, 특히 ChatGPT를 사용해 만들어지며 과학적인 글쓰기를 모방함
- Google Scholar는 이런 의심스러운 논문을 평판 있고 품질이 관리되는 연구 논문과 같이 나열함
- Google Scholar에서 발견된 의심스러운 GPT 생성 과학 논문 샘플을 분석한 결과, 많은 논문이 환경, 건강, 컴퓨팅 등 디지털 디스인포메이션에 취약한 응용 분야를 다룸
- 정치적으로 갈등이 큰 영역에서 악의적인 증거 조작 가능성이 높아지는 것은 점점 더 우려스러운 문제임
발견 사항
발견 1: 139개의 GPT로 생성된 의심스러운 논문이 Google Scholar 검색 결과에서 일반 논문으로 나열됨. 비색인 저널이 많음
- 의심스러운 논문 중 대부분은 비색인 저널이나 워킹 페이퍼였지만, 일부는 정평 있는 저널, 출판물, 컨퍼런스, 레포지토리에서도 발견됨
- 총 139개의 ChatGPT 또는 유사한 LLM 애플리케이션을 기만적으로 사용한 것으로 의심되는 논문을 찾음
- 이 중 19개는 색인 저널, 89개는 비색인 저널, 19개는 대학 데이터베이스의 학생 논문, 12개는 워킹 페이퍼(대부분 프레프린트 DB)였음
- 환경과 건강 관련 논문은 샘플의 약 34% 차지하며 이 중 66%가 비색인 저널에 실림
발견 2: GPT로 생성된 의심스러운 논문은 온라인으로 배포되며 학술 커뮤니케이션 인프라 전반에 퍼져 있고, 여러 사본으로 존재하는 경우가 많음. 실무적 시사점이 있는 응용 분야가 지배적
- 환경 이슈 관련 27개 논문은 26개 고유 도메인에서 56개 URL로 발견됨
- 건강 이슈 관련 20개 논문은 20개 고유 도메인에서 46개 URL로 발견됨
- 식별된 논문 대부분이 여러 사본으로 존재하며 이미 여러 아카이브, 레포지토리, 소셜 미디어로 확산됨
- 학술 기록에서 이들을 제거하는 것은 어렵거나 불가능할 것임
발견 3: Google Scholar는 품질 관리된 인용 DB와 그렇지 않은 인용 DB의 결과를 동일한 인터페이스로 제시하므로 GPT로 생성된 의심스러운 논문에 제한 없이 접근할 수 있음
- 공개 접근 가능한 학술 커뮤니케이션 인프라에서 Google Scholar의 핵심적 위상과 포함 기준의 표준, 투명성, 책무성 부재는 과학에 대한 대중의 신뢰에 심각한 영향을 미칠 수 있음
- 이는 Google Scholar의 증거 해킹 악용 가능성을 높이고, 가짜 논문을 원 출처에서 철회하거나 삭제하려는 시도에 영향을 미칠 것임
- 어떤 해결책이라도 학술 커뮤니케이션 인프라 전체와 서로 다른 행위자, 이해관계, 동기의 상호작용을 고려해야 함
GN⁺의 의견
이 문제는 다음과 같은 이유로 우려스러운 상황임:
-
GPT 생성 논문이 학술 커뮤니케이션 시스템을 압도하고 과학 기록의 무결성을 위협할 가능성이 있음. 이는 기존의 paper mill 문제를 더욱 악화시킬 것임.
-
AI로 만들어진 과학적으로 설득력 있어 보이는 내용이 사실은 기만적으로 생성되었을 가능성이 있음. 이는 과학 지식에 대한 대중의 신뢰를 약화시키고 심각한 사회적 위험을 초래할 수 있음.
-
Google Scholar의 포함 기준이 불투명하고 책무성이 부족함. 이는 표준에 부합하는 인용 DB와 그렇지 않은 DB를 구분 없이 검색 결과로 제시하는 문제와 연결됨.
-
가짜 논문이 다양한 플랫폼으로 확산되기 때문에 원본을 철회해도 이를 추적하고 제거하기 어려움. 이는 해당 연구 분야에서 오랫동안 부정적인 영향을 미칠 수 있음.
-
건강, 환경 등 사회적으로 민감하고 중요한 주제에서 GPT 생성 논문이 많이 발견됨. 이는 정책 결정에 심각한 혼란을 초래할 수 있으며, 정치적으로 악용될 소지가 있음.
이 문제에 대응하기 위해서는 기술적, 교육적, 제도적 접근을 동시에 고려해야 함. 예를 들어
- 학술 검색 엔진에서 peer-review 여부 등으로 필터링할 수 있는 옵션 제공
- 평가 도구를 학술 검색 엔진의 인터페이스와 크롤러에 통합
- 상업적 이유가 아닌 공익을 위해 운영되는 무료 학술 검색 엔진 구축
- 정책 입안자, 과학 커뮤니케이터, 언론인 등을 대상으로 한 교육 이니셔티브
근본적으로는 학술 출판 시스템의 문제, "publish or perish" 풍토, 구글의 독점, 정보 통제를 둘러싼 이념 갈등 등 보다 큰 맥락에서 이 문제를 접근해야 할 것임. 기술적 해법만으로는 부족함.
Hacker News 의견
-
APS March Meeting에서 과학 저널 편집자가 LLM 생성 논문보다 LLM 생성 리뷰를 더 걱정함
- LLM이 긴 논리적 추론보다 내용 요약에 더 능숙함
- 리뷰는 공개되지 않아 부끄러움을 덜 느끼게 함
-
저자들의 파이썬 스크립트에 버그가 있을 수 있음
- 'bib' 키가 API 응답에 없으면 데이터 프레임의 열이 불일치할 수 있음
- 플래그 배열을 사용해 나쁜 결과를 제거할 수 있지만 코드에 사용되지 않음
-
GPT가 과학 논문을 조작하는 것을 쉽게 만들 수 있지만, 인간도 AI 없이 잘 해왔음
- 관련된 흥미로운 동영상 링크 공유
-
LLM 관련 논문에서 데이터 수집 방법이 더 정교했으면 좋겠음
- LLM 사용이 교정 이상으로 과학과 사회에 미치는 영향이 큼
- 교정의 범위가 사람마다 다름
-
관련 분야의 전문가들은 가짜 결과를 쉽게 구별할 수 있음
- 참신함이 없는 내용은 구별이 어려움
- 연구자의 정직성 문제는 AI 이전부터 존재함
- 비전문가가 정보의 진위를 구별하기 어려움
-
이전 논의에서 GPT 사용을 의심한 논문들이 실제로는 OpenAI 이전에 작성된 것임
-
ChatGPT가 진실을 이해하지 못함
- 데이터 레이크 관련 연구 프로젝트에서 ChatGPT 사용 시 가짜 링크와 마케팅 자료 요약이 많음
-
기사 이미지가 AI 생성이 아닌 점을 높이 평가함
-
GPT 생성 논문이 영어가 모국어가 아닌 사람들이 영어를 개선하기 위해 작성된 것일 수 있음
-
어두운 시대에 접어들고 있는 것 같음