14P by GN⁺ 23일전 | ★ favorite | 댓글 5개
  • 최근 AI 도구들이 연구 논문에서 계산, 방법론, 참고 문헌의 오류를 찾아내고 있음
  • 지난해, 검은색 플라스틱 조리기구에 암을 유발하는 화학물질이 포함되어 있다는 연구 결과가 보도됨
    • 하지만 연구의 수학적 오류로 인해 실제 화학물질 농도가 안전 한계치보다 10배 낮았음이 밝혀짐
    • 인공지능(AI) 모델이 이 오류를 몇 초 만에 발견할 수 있었음

AI 기반 연구 논문 오류 탐지 프로젝트

Black Spatula Project

  • 오픈소스 AI 도구로 약 500개의 논문을 분석해 오류를 탐지
  • 콜롬비아의 독립 AI 연구원 Joaquin Gulloso가 프로젝트를 조율하고 있으며, 8명의 개발자와 수백 명의 자문단이 참여 중
  • 오류 목록은 공개되지 않았으며, 오류 발견 시 연구자에게 직접 연락해 수정 유도 중

YesNoError

  • Black Spatula Project에서 영감을 받아 시작된 프로젝트
  • 창립자이자 AI 기업가인 Matt Schlicht가 주도
  • 전용 암호화폐로 자금 지원받아 운영
  • 현재까지 약 37,000개의 논문을 두 달 만에 분석 완료
  • 오류가 발견된 논문은 웹사이트에 표시되지만, 대부분은 아직 전문가 검증 전 상태
  • 장기적으로는 ResearchHub(암호화폐로 박사 연구자에게 보상)와 협업해 오류 검증 계획

연구자 및 저널에 AI 도구 사용 장려

  • 연구자가 논문 제출 전, 저널이 논문 게재 전 AI 도구를 사용해 오류 사전 탐지 유도
  • 오류 및 연구 부정 방지를 통해 과학적 신뢰성 강화 기대

학계의 반응 및 우려

  • 연구 무결성 전문가들은 프로젝트에 신중하게 긍정적 반응
  • 틸뷔르흐 대학교의 Michèle Nuijten 연구원은 다음과 같은 우려 제기:
    • AI 도구의 정확도가 명확히 검증되지 않으면, 오류 지적이 잘못될 경우 평판 손상 우려
  • 린네 대학의 법의학적 메타과학자 James Heathers는 다음과 같이 지지 발언:
    • "형편없는 논문을 철회하는 것보다 작성이 훨씬 쉽다"
    • AI가 논문을 선별하고 추가 검토를 유도하는 데 유용할 수 있음

AI 도구의 작동 방식

  • 대형 언어 모델(LLM) 사용해 논문의 오류 탐지
    • 논문에서 표, 이미지 등 정보를 추출 후 복잡한 명령어(프롬프트) 생성
    • AI 모델이 여러 번 논문을 분석해 다양한 유형의 오류 탐색 및 결과 교차 검증 수행
    • 논문 분석 비용: 논문 길이 및 프롬프트 복잡도에 따라 15센트~수달러 수준

오탐(False Positive) 문제

  • Black Spatula Project → 약 10%의 오탐 발생
    • 모든 오류는 전문가 검증 필요 → 전문가 부족이 가장 큰 병목 현상
  • YesNoError → 10,000개 논문 중 수학적 오류 100개 검증 결과 90% 이상이 실제 오류로 확인됨
    • YesNoError는 오탐률 감소 작업 중이며, 학계와 지속적 피드백 수용 중

오탐 문제에 대한 비판

  • 린네 대학의 Nick Brown 연구원:
    • YesNoError가 분석한 40개 논문 중 14개에서 오탐 확인 → 주로 글쓰기 문제
    • 사소한 오류로 인해 학계에 불필요한 부담 발생 가능성
    • "기술이 대폭 개선되지 않는 한, 명백한 이득 없이 많은 작업이 필요할 것"

AI 도구의 향후 과제 및 기대

  • YesNoError는 암호화폐 보유자가 검토할 논문을 우선 결정하는 방식 도입 계획
    • 정치적으로 민감한 주제(예: 기후 과학) 논문이 타겟이 될 가능성 존재
  • Brown 연구원: "AI 도구가 진짜 효과를 보인다면, 특정 연구 분야에서 큰 변화가 일어날 수 있음"

저품질 논문은 걸러지겠지만, 반면 좋은 논문들도 허들이 높아지면서, 상대적으로 창의적이지 못하게 될 수 있을 것 같아 우려되네요. 논리적 빈틈이 있어도, 그로 인해서 발생하는 새로운 아이디어들도 있기 때문에, 개인적으로는 엄청 달갑지는 않은 것 같습니다.

AI가 틀릴수도 있을텐데, AI가 지적한 사항이 틀리지 않았다는 걸 어떻게 검증할지 궁금하네요.

LLM이 대중화되면서 정보의 불균형으로 인한 수요가 대부분이었던 곳에는 엄청난 변화들이 생기고 있네요.

인류의 각종 경전을 분석하게 시켜보면 어떨까 싶네요 ㅎㅎ

Hacker News 의견
  • AI가 출판된 논문에서 명백한 오류를 발견할 수 있다면, 검토 과정의 일부로 활용될 수 있음. 저자들이 제출 전에 자신의 작업에 이를 적용할 수 있어 논문의 질을 크게 높일 수 있음

    • 중요한 점은 전문가들, 즉 저자와 동료 심사자들이 이 과정에 참여한다는 것임. 그들은 잘못된 긍정 결과를 쉽게 무시할 수 있지만, 통계적 실수나 전문 분야가 아닌 부분에서의 경고를 받을 수 있음
  • 현재 YesNoError 웹사이트에는 많은 잘못된 긍정 결과가 포함되어 있음. Linnaeus University의 연구자인 Nick Brown은 40개의 문제 있는 논문 중 14개가 잘못된 긍정 결과라고 밝힘

    • 대부분의 문제는 글쓰기 문제로 보이며, 많은 탐지가 잘못되었다고 함
    • 이 기술이 크게 개선되지 않는 한, 명백한 이익 없이 많은 작업을 생성할 것이라고 경고함
  • 현재 AI가 주도하는 것이므로 사람들이 사기나 잘못된 논리를 검사한다고 생각할 수 있음. 실제로는 자기 일관성과 훈련 데이터와의 일관성을 검사함

    • 오타, 오해의 소지가 있는 표현, 사실 및 다이어그램의 교차 검증에는 좋을 수 있지만, 제조된 데이터나 그럴듯하지만 잘못된 결론에는 크게 기여하지 않을 것임
  • AI를 사용하여 철회된 논문의 영향을 매핑하는 아이디어 제안. 철회된 논문에서 더 이상 지원되지 않는 결론을 식별하고, 하류 논문에서 어디에 나타나는지 확인할 수 있음

  • 우리의 집단 기억이 너무 짧은가? AI가 만들어낸 버그 보고서로 인한 문제를 잊었는가?

  • Black Spatula 프로젝트에서 주요 오류를 감지한 두 가지 예시 제공

    • 복잡한 다중 에이전트 파이프라인이 필요하지 않았으며, 단일 프롬프트로 이러한 오류를 감지할 수 있었음
  • 이 아이디어는 좋으며, 자신의 회사 보고서에 적용하여 명백한 오류를 상사에게 보내기 전에 감지하고 싶음

    • 그러나 두 가지 접근 방식이 강조됨. 하나는 소규모 접근 방식으로 먼저 출판하지 않고 저자에게 비공개로 접근함. 다른 하나는 먼저 출판하고 인간 검토가 없으며 자체 암호화폐를 가짐
  • YesNoError는 암호화폐 보유자가 어떤 논문이 먼저 검토될지 결정하도록 계획 중임

  • 이 아이디어는 매우 나쁜 생각임. 첫 번째 섹션을 건너뛰고 "잘못된 긍정 결과" 섹션을 읽어야 함

  • 이 가치에 대해 매우 회의적임. AI "검토"로 인해 근거 없는 주장에 응답하는 데 낭비된 시간이 이미 있었음. 이러한 주장은 이전에도 있었겠지만, 텍스트 생성기는 일반 사람들과 아마추어를 설득할 수 있는 올바른 용어로 환각하는 방법을 알고 있으며, 다루기 더 성가심