2P by GN⁺ 2일전 | ★ favorite | 댓글 4개
  • GPTZero가 ICLR 2026 제출 논문에서 50건 이상의 인용 오류 및 허위 저자 정보를 검출
  • 각 논문은 OpenReview 링크와 함께 실제 존재 여부 및 인용 일치 여부가 검증됨
  • 다수의 사례에서 존재하지 않는 저자, 잘못된 연도, 다른 논문 제목이 포함된 것으로 확인
  • 일부 논문은 실제 논문과 부분적으로 일치하지만 세부 메타데이터가 왜곡되어 있음
  • 학계 제출물에서도 AI 생성 환각(hallucination) 문제가 확산되고 있음을 보여주는 사례

GPTZero의 ICLR 2026 환각 검출 결과

  • GPTZero는 ICLR 2026 제출 논문들을 대상으로 인용문과 저자 정보를 자동 검증
    • 각 논문은 OpenReview 링크, GPTZero 검증 링크, 그리고 인용 정보가 함께 제시됨
    • 검증 결과, 50건 이상에서 허위 인용 또는 존재하지 않는 저자가 발견됨

대표적 환각 사례

  • TamperTok 논문은 실제 존재하지만 모든 저자 정보가 잘못됨
  • MixtureVitae 논문은 첫 3명의 저자는 일치하나 나머지 7명은 존재하지 않음
  • OrtSAE, Principled Policy Optimization, IMPQ 등은 실제 논문과 제목 또는 저자가 불일치
  • PDMBench는 유사한 논문이 존재하나 연도와 제목이 다름
  • C3-OWD, GRF-LLM 등은 부분적 일치로 분류됨

완전 불일치 사례

  • Catch-Only-One, TopoMHC, ThinkGeo, Reflexion, LOSI 등은 인용된 논문이 존재하지 않음
  • SAFE-LLM, Typed Chain-of-Thought, MANTA 등은 유사 논문이 있으나 메타데이터 불일치
  • AI-Assisted Medical Triage Assistant, QUART, KARMA 등은 전혀 관련 없는 논문 인용

검증 방식과 결과 유형

  • GPTZero는 각 인용을 실제 데이터베이스(예: arXiv, NeurIPS, ICLR, ACL 등)와 비교
    • 결과는 “존재함”, “부분 일치”, “불일치”, “허위 저자” 등으로 분류
    • 일부 항목은 실제 논문이 존재하지만 저자·연도·제목이 모두 다름으로 표시됨

의미와 시사점

  • ICLR 2026 제출물 중 다수가 AI 생성 텍스트의 환각 문제를 그대로 포함
  • 학술 논문 작성 과정에서도 사실 검증 자동화 도구의 필요성이 부각
  • GPTZero의 검출 결과는 AI 생성 콘텐츠의 신뢰성 검증 체계 강화 필요성을 보여줌

반복적인 비슷한 지식 수준의 AI에서 더 발전을 거듭할 자 많은가?
그렇지 않다면, 그저 똑같은 복제인간의 복제글만 세상천지 덮고 그 속에서 옥석을 가려내는 것이 더 힘들게 될 것 같습니다.

LLM이 인류의 발전을 오히려 저해할 수도 있겠다는 생각을 오래 전부터 하고 있는데, 그 맥락에서 제가 생각했던 문제가 대두되었네요. 인지부하를 낮추는 것은 사람 입장에서 마약과도 같은 것 같습니다. 저도 연구를 하지만, 팀 내에서도 LLM 모델들을 쓰면 쓸 수록 생각을 안하는 습관이 생기는 것 같다고 경계하고 있거든요. 아마 이 문제는 계속해서 심화될 것 같습니다. 피어리뷰로는 커버하기 어려운 수준으로 양이 비대해지기 때문에, 다른 방법을 찾긴해야 할 것 같습니다. 최근 유명 학회들의 논문 제출 건 수가 크게 늘고 있는 것 같은데, 비슷한 이유가 아닌가 싶네요.

동의합니다. 이대로라면 계속 인간의 뇌가 줄어들 것 같아요.
결국 인공지능이 인간을 지배하게 되는 시나리오는 지금 우리가 생각할 수 있는 가장 고차원적 생각이 될지도 모릅니다. 앞으로는 그 생각까지 도달할 수 없을 정도로 새로운 번혁이 없이 그저 AI에게 통제당할 때까지의 수렴구간만 있을 수도 있어요.

Hacker News 의견
  • 이런 행위는 명백한 직업적 비윤리 행위라고 생각함
    내 연구원이 이런 짓을 했다면 해고 위험에 처했을 것임
    리뷰어로서 저자가 거짓말을 하는 걸 보면 논문 전체를 신뢰할 수 없고, 윤리적으로는 즉시 리젝하는 게 맞다고 봄
    실수는 흔하지만, 이건 차원이 다른 문제임

    • 이건 문화적 차이의 문제로도 보임
      서구권에서는 개인의 정직성이 학계 전체의 신뢰를 지탱한다고 보지만, 중동·인도·중국권에서는 이런 행위를 저널의 책임으로 돌리는 경향이 있음
      이런 차이를 이해하지 못하면 협업이 매우 혼란스러움
  • 내 경험상 논문 품질을 떨어뜨리는 주된 문제는 잘못된 인용
    인용이 존재하지 않는 것보다, 인용된 자료가 실제로는 그런 말을 하지 않거나 맥락을 왜곡하는 경우가 훨씬 많음
    이런 오류를 찾으려면 원문을 읽고 이해해야 해서 시간이 엄청 걸림
    이런 행위는 단순 실수가 아니라 지식의 부식을 초래하므로, ‘3회 경고 후 퇴출’ 같은 제재가 필요함

    • 이런 검증은 오히려 LLM이 잘할 수 있는 영역일 수도 있음
      논문 내 주장과 인용 목록을 비교해 실제로 근거가 되는지 자동으로 확인하는 식으로 활용 가능함
    • 하지만 일부 연구자는 자금 지원자(Exxon, Meta, Pfizer 등)의 입맛에 맞는 결과를 내기 위해 의도적으로 왜곡함
      이런 경우는 단순한 부주의가 아니라 이해관계에 따른 조작
    • 가짜 인용은 빙산의 일각일 뿐이고, 인용 남용이 훨씬 오래되고 심각한 문제임
  • AI가 문제라기보다, 게으름과 부주의가 문제라고 생각함
    과학자가 LLM으로 허위 인용이 포함된 논문을 쓴다면, 그건 나쁜 과학자임
    이런 행위에 사회적 제재가 없으면 결국 묵인하게 됨

    • 나는 산업 전기기사인데, 나쁜 전기 작업은 전문가만 알아볼 수 있음
      기술적 검증에는 숙련된 검사자가 필요함
    • 하지만 “AI가 문제가 아니다”라는 말은 총기 논쟁의 “총이 아니라 사람이 문제다”와 비슷한 회피 논리로 들림
      결국 AI 자체가 문제라고 봄
    • 목수 비유를 이어가면, LLM이 만든 선반은 겉보기엔 멀쩡하지만 구조적으로 부실함
      겉모습이 좋아서 오히려 문제를 감추게 됨
    • 나도 Gemini Pro로 논문을 찾지만, 여전히 인용이 엉망임
      그래도 최근 1년간 환각이 줄었고, 검증된 논문으로 제한하면 꽤 쓸 만함
      다만 연구자들이 이런 도구에 의존하지 않으려면, 지속적인 펀딩 경쟁 구조부터 바뀌어야 함
    • Bruce Schneier의 말처럼, 누구나 자신이 검증할 수 없는 알고리즘을 만들 수 있음
      LLM도 마찬가지로, 사용자가 원하던 답을 그대로 돌려주며 확증편향을 강화함
      과학 연구에 LLM을 안전하게 쓰는 방법은 없다고 생각함
  • 실제로 논문들을 직접 읽어보면, 단순히 AI가 글을 쓴 게 아니라 아이디어 자체가 AI 생성인 경우가 많음
    표면적으로는 그럴듯하지만 내용은 허무맹랑함
    진짜 연구자가 단순한 .bib 오류로 이런 목록에 포함됐다면 안타까움

  • Avi Loeb(하버드 이론물리학자)이 학생들이 존재하지 않는 논문을 인용하는 사례가 급증했다고 언급함
    LLM이 만들어낸 허구를 그대로 믿고 검증조차 하지 않음
    관련 기사: How AI is making us dumber

    • 다만 Loeb은 UFO 주장으로도 유명한 인물이라 신뢰성 논란이 있음
    • 어떤 이는 그를 신뢰할 수 없는 인물로 봄
    • 이런 현상은 리더십의 책임 회피 문화에서 비롯된다고 생각함
      위에서 잘못된 본보기를 보이면서 아래 사람을 꾸짖는 건 나쁜 교육임
  • 이 연구가 잘못된 인용을 모두 LLM의 환각으로 간주한 것인지 궁금함
    LLM 이전의 논문에서도 이런 오류가 있었는지 기준선 분석이 필요함

    • 논문에 ‘Defining Hallucitations’ 섹션이 있고, 거기서 허위 인용의 정의와 거짓 양성 문제를 설명함
      2010년대 논문에 같은 도구를 적용하면 어떤 결과가 나올지 궁금함
    • 나도 대학원 시절 .bib 파일에 작은 오류가 있었음
      대부분 저널은 DOI 기반으로 인용을 검증하므로, 과거 논문도 비교 분석해야 함
    • 실제로 공개된 논문들을 보면 AI 생성 흔적이 뚜렷함
      주제만 던져도 LLM이 비슷한 논문을 만들어낼 정도로 유사함
    • 사실 LLM 이전에도 사람들은 실수하고, 책과 논문에도 오류가 많았음
      인간의 불완전한 지식 체계가 원인이지, LLM만의 문제는 아님
    • 요약하자면, 그들의 도구는 이런 검증을 수행하고 있음
  • 피어 리뷰의 목적은 단순한 오류 검출이 아니라 새로움과 완성도 평가
    그렇다면 부주의를 막기 위한 인센티브가 필요함
    예를 들어, 출판사가 보상금 제도를 만들어 중대한 부주의를 발견한 사람에게 상금을 주거나,
    반복적 부주의 연구자를 공개하는 Wall of Shame을 운영하는 방법도 있음

    • 또는 논문 제출 시 자동 인용 검사를 돌려 하루 이틀 내 오류를 알려주는 시스템을 도입하면 좋을 것임
  • 15년 전부터 Zotero 같은 인용 관리 툴을 써왔는데, 아직도 저자명이 틀린 인용이 많다는 게 놀라움
    .bib 파일 제출을 의무화하면 DOI 검증으로 기본적인 품질 관리는 가능할 텐데
    이런 기본 검증조차 안 하는 게 충격적임

    • 하지만 Zotero도 완벽하지 않음
      저자 스스로 자기 논문을 잘못 인용하는 경우도 있고, DOI는 맞아도 저자명 오타가 흔함
      도구 덕분에 인용 수는 늘고 오류율은 줄었지만, 여전히 논문 하나당 최소 한 개의 오류는 남음
  • 2만 건의 제출 중 300건만 검사했는데 이미 수백 건의 환각 논문이 발견됐다면, 실제 규모는 훨씬 클 것임

    • 한 컨퍼런스에 2만 건 제출이라니, 그 자체로 비정상적인 규모
  • LLM의 환각은 설계된 특성임
    통계적으로 그럴듯한 출력을 내는 과정에서 가짜 인용이 자연스럽게 생김
    하지만 기계가 진짜 인용을 만드는 건 기술적으로 가능함
    다만 현재 LLM은 우리가 요구한 ‘정확한 인용 생성’이 아니라, 겉모양만 비슷한 결과물을 내고 있음