7P by neo 1달전 | favorite | 댓글 2개
  • Google Scholar에서 일반적으로 사용되는 GPT 모델로 생성된 것으로 보이는 다수의 의심스러운 논문이 쉽게 발견되고 있음
  • 이러한 논문들은 주로 널리 사용되는 범용 AI 애플리케이션, 특히 ChatGPT를 사용해 만들어지며 과학적인 글쓰기를 모방함
  • Google Scholar는 이런 의심스러운 논문을 평판 있고 품질이 관리되는 연구 논문과 같이 나열함
  • Google Scholar에서 발견된 의심스러운 GPT 생성 과학 논문 샘플을 분석한 결과, 많은 논문이 환경, 건강, 컴퓨팅 등 디지털 디스인포메이션에 취약한 응용 분야를 다룸
  • 정치적으로 갈등이 큰 영역에서 악의적인 증거 조작 가능성이 높아지는 것은 점점 더 우려스러운 문제임

발견 사항

발견 1: 139개의 GPT로 생성된 의심스러운 논문이 Google Scholar 검색 결과에서 일반 논문으로 나열됨. 비색인 저널이 많음

  • 의심스러운 논문 중 대부분은 비색인 저널이나 워킹 페이퍼였지만, 일부는 정평 있는 저널, 출판물, 컨퍼런스, 레포지토리에서도 발견됨
  • 총 139개의 ChatGPT 또는 유사한 LLM 애플리케이션을 기만적으로 사용한 것으로 의심되는 논문을 찾음
  • 이 중 19개는 색인 저널, 89개는 비색인 저널, 19개는 대학 데이터베이스의 학생 논문, 12개는 워킹 페이퍼(대부분 프레프린트 DB)였음
  • 환경과 건강 관련 논문은 샘플의 약 34% 차지하며 이 중 66%가 비색인 저널에 실림

발견 2: GPT로 생성된 의심스러운 논문은 온라인으로 배포되며 학술 커뮤니케이션 인프라 전반에 퍼져 있고, 여러 사본으로 존재하는 경우가 많음. 실무적 시사점이 있는 응용 분야가 지배적

  • 환경 이슈 관련 27개 논문은 26개 고유 도메인에서 56개 URL로 발견됨
  • 건강 이슈 관련 20개 논문은 20개 고유 도메인에서 46개 URL로 발견됨
  • 식별된 논문 대부분이 여러 사본으로 존재하며 이미 여러 아카이브, 레포지토리, 소셜 미디어로 확산됨
  • 학술 기록에서 이들을 제거하는 것은 어렵거나 불가능할 것임

발견 3: Google Scholar는 품질 관리된 인용 DB와 그렇지 않은 인용 DB의 결과를 동일한 인터페이스로 제시하므로 GPT로 생성된 의심스러운 논문에 제한 없이 접근할 수 있음

  • 공개 접근 가능한 학술 커뮤니케이션 인프라에서 Google Scholar의 핵심적 위상과 포함 기준의 표준, 투명성, 책무성 부재는 과학에 대한 대중의 신뢰에 심각한 영향을 미칠 수 있음
  • 이는 Google Scholar의 증거 해킹 악용 가능성을 높이고, 가짜 논문을 원 출처에서 철회하거나 삭제하려는 시도에 영향을 미칠 것임
  • 어떤 해결책이라도 학술 커뮤니케이션 인프라 전체와 서로 다른 행위자, 이해관계, 동기의 상호작용을 고려해야 함

GN⁺의 의견

이 문제는 다음과 같은 이유로 우려스러운 상황임:

  1. GPT 생성 논문이 학술 커뮤니케이션 시스템을 압도하고 과학 기록의 무결성을 위협할 가능성이 있음. 이는 기존의 paper mill 문제를 더욱 악화시킬 것임.

  2. AI로 만들어진 과학적으로 설득력 있어 보이는 내용이 사실은 기만적으로 생성되었을 가능성이 있음. 이는 과학 지식에 대한 대중의 신뢰를 약화시키고 심각한 사회적 위험을 초래할 수 있음.

  3. Google Scholar의 포함 기준이 불투명하고 책무성이 부족함. 이는 표준에 부합하는 인용 DB와 그렇지 않은 DB를 구분 없이 검색 결과로 제시하는 문제와 연결됨.

  4. 가짜 논문이 다양한 플랫폼으로 확산되기 때문에 원본을 철회해도 이를 추적하고 제거하기 어려움. 이는 해당 연구 분야에서 오랫동안 부정적인 영향을 미칠 수 있음.

  5. 건강, 환경 등 사회적으로 민감하고 중요한 주제에서 GPT 생성 논문이 많이 발견됨. 이는 정책 결정에 심각한 혼란을 초래할 수 있으며, 정치적으로 악용될 소지가 있음.

이 문제에 대응하기 위해서는 기술적, 교육적, 제도적 접근을 동시에 고려해야 함. 예를 들어

  • 학술 검색 엔진에서 peer-review 여부 등으로 필터링할 수 있는 옵션 제공
  • 평가 도구를 학술 검색 엔진의 인터페이스와 크롤러에 통합
  • 상업적 이유가 아닌 공익을 위해 운영되는 무료 학술 검색 엔진 구축
  • 정책 입안자, 과학 커뮤니케이터, 언론인 등을 대상으로 한 교육 이니셔티브

근본적으로는 학술 출판 시스템의 문제, "publish or perish" 풍토, 구글의 독점, 정보 통제를 둘러싼 이념 갈등 등 보다 큰 맥락에서 이 문제를 접근해야 할 것임. 기술적 해법만으로는 부족함.

alphaXiv - arXiv의 논문에 대해서 공개 토론하기

위 플랫폼과 이 글이 같이 보이니 뭔가 연결되는 느낌이

Hacker News 의견
  • APS March Meeting에서 과학 저널 편집자가 LLM 생성 논문보다 LLM 생성 리뷰를 더 걱정함

    • LLM이 긴 논리적 추론보다 내용 요약에 더 능숙함
    • 리뷰는 공개되지 않아 부끄러움을 덜 느끼게 함
  • 저자들의 파이썬 스크립트에 버그가 있을 수 있음

    • 'bib' 키가 API 응답에 없으면 데이터 프레임의 열이 불일치할 수 있음
    • 플래그 배열을 사용해 나쁜 결과를 제거할 수 있지만 코드에 사용되지 않음
  • GPT가 과학 논문을 조작하는 것을 쉽게 만들 수 있지만, 인간도 AI 없이 잘 해왔음

    • 관련된 흥미로운 동영상 링크 공유
  • LLM 관련 논문에서 데이터 수집 방법이 더 정교했으면 좋겠음

    • LLM 사용이 교정 이상으로 과학과 사회에 미치는 영향이 큼
    • 교정의 범위가 사람마다 다름
  • 관련 분야의 전문가들은 가짜 결과를 쉽게 구별할 수 있음

    • 참신함이 없는 내용은 구별이 어려움
    • 연구자의 정직성 문제는 AI 이전부터 존재함
    • 비전문가가 정보의 진위를 구별하기 어려움
  • 이전 논의에서 GPT 사용을 의심한 논문들이 실제로는 OpenAI 이전에 작성된 것임

  • ChatGPT가 진실을 이해하지 못함

    • 데이터 레이크 관련 연구 프로젝트에서 ChatGPT 사용 시 가짜 링크와 마케팅 자료 요약이 많음
  • 기사 이미지가 AI 생성이 아닌 점을 높이 평가함

  • GPT 생성 논문이 영어가 모국어가 아닌 사람들이 영어를 개선하기 위해 작성된 것일 수 있음

  • 어두운 시대에 접어들고 있는 것 같음