생성형 AI와 위키백과 편집: 2025년에 배운 것들

▲

GN⁺ 3달전 | parent | ★ favorite | on: 생성형 AI와 위키백과 편집: 2025년에 배운 것들(wikiedu.org)

Hacker News 의견들

위키피디아에는 예전부터 출처 검증 실패 문제가 만연해 있었음
최근 들어 그 빈도가 늘었다는 증거는 찾기 어려움
대부분의 작성자는 자신이 아는 내용을 쓰고, 나중에 그럴듯한 인용을 최소한으로 붙이는 식으로 작성하는 듯함
페이지의 전문성 수준이나 주제의 니치함에 따라 신뢰도가 달라지는 느낌임
- 최근 Changelog 팟캐스트 에피소드에서 실시간으로 이런 사례가 있었음
  진행자들이 자신들이 “GitHub 출신”으로 잘못 표기된 걸 발견했고, 게스트가 녹음 중에 위키피디아 인용을 수정함
- 내가 겪은 문제는 두 가지임. 하나는 가짜 인용이고, 다른 하나는 인용은 진짜지만 출처가 신뢰할 수 없는 사람에게서 나온 경우임
  이런 문제를 지적하면 일부 편집자들은 “위키피디아는 신뢰할 만하다”고 주장함
  이런 인식이 바뀌지 않으면 개선은 어려울 것 같음
- LLM은 인간보다 훨씬 높은 빈도로 근거 없는 결론을 추가할 수 있음
- 사실 이런 인용 검증은 AI가 자동으로 탐지하고 인간이 검토하도록 플래그를 다는 데 활용될 수도 있을 것 같음
- 많은 문서들이 인용이 거의 없거나, 잘못된 인용으로 결론이 왜곡되는 경우가 많음
  예를 들어 물 분자의 행동을 잘못 해석한 사례처럼 말임
기사에서 세 번이나 “생성형 AI의 출력은 복붙하지 말라”고 강조함
나도 비슷한 경험을 했음. 처음엔 놀라울 정도로 그럴듯하지만, 곧 허상과 잡음이 많다는 걸 깨닫게 됨
그래도 아이디어 발상이나 브레인스토밍에는 꽤 유용함
내가 제목을 선택한 이유는 기사 핵심을 강조하기 위함임
“플래그된 문서의 3분의 2 이상이 검증에 실패했다”는 문장이 특히 인상적이었음
- 정치 관련 문서에서는 예전부터 이런 문제가 흔했음
  직접 인용을 검증해보면 엉터리 출처가 많음
  AI가 문제를 악화시킬 수는 있지만, 인간의 악의적 편집도 여전함
- 원래 제출된 제목은 “플래그된 문서 대부분이 검증에 실패했다”였음
  그 표현이 핵심을 잘 담고 있다고 생각함
- 사람도 근거 없는 내용을 쓰지만, LLM은 속도와 규모 면에서 훨씬 빠름
  AI 이전의 인용 오류율이 어느 정도였는지 비교 데이터가 궁금함
이 기사는 위키피디아 전체가 아니라 Wiki Edu 프로그램을 통한 편집만 다룸
즉, 대학생들이 수업 과제로 작성한 문서에 대한 이야기임
- 학생들에게 위키피디아 편집을 강제로 시키면, 열정 없이 작성된 품질 낮은 결과물이 나오는 건 당연함
  결국 문제는 위키피디아보다 대학 내 AI 사용 습관에 더 가까움
- 이건 학생들이 논문 쓸 때 그럴듯한 인용만 찾아 붙이는 습관과도 비슷함
  심지어 박사 과정 학생들조차 이런 식으로 글을 쓰는 걸 보면 안타까움
- Wiki Edu 편집 문서 중에는 창의적 글쓰기 과제처럼 보이는 것도 있었음
  출처를 읽어보면 어색하게 의미를 오해하거나 잘못 요약한 경우가 많았음
  LLM은 이런 학생들의 “점수용 글쓰기”에 딱 맞는 도구임
위키피디아 문제를 넘어, 전 세계 수백만 명이 LLM으로 텍스트를 만들고 그중 일부가 사실처럼 소비되는 현상이 더 큰 문제임
LLM은 진실에 대한 의무가 없고, 오직 문법적 일관성에만 충실함
- 사실 LLM은 문법적 일관성조차 아니라, 대중적으로 통용되는 문체에 맞추려는 경향이 있음
  그게 우연히 맞을 때도 있지만, 항상 불안정함
일부 문서만 봐도 봇 작성 비율이 실제보다 적게 탐지된 것일 수도 있음
즉, 검증에 실패한 문서만 탐지되었을 가능성이 있음
- Pangram이라는 분류 모델은 인간이 쓴 텍스트와 여러 LLM이 쓴 텍스트를 비교해 학습한 텍스트 분류 신경망임
  자세한 내용은 논문 PDF에서 볼 수 있음
LLM 제공자 입장에서는 공유 자원 오염 같은 비극임
위키피디아가 학습 데이터의 큰 비중을 차지하는데, 왜 스스로 오염시키는지 의문임
위키피디아에서 AI 사용을 금지하는 정책이 생기면 흥미로울 듯함
- 문제의 주체는 AI 제공자가 아니라 사용자들임
  GitHub에서도 같은 일이 벌어지고 있음
- 하지만 이런 인용 오류는 LLM 이전부터 존재했음
  위키피디아뿐 아니라 다른 곳에서도 출처가 주장과 맞지 않는 인용은 흔함
- 결국 이런 문제를 일으키는 건 개인 사용자들임
진짜 유용한 기능은 편집 가이드라인을 묻는 챗봇일 것 같음
현재는 경험 많은 편집자들조차 토론 페이지에서 규칙을 제멋대로 해석함
“일단 되돌리고 나중에 이유를 붙이는” 문화가 초보자에게 큰 장벽이 됨
이런 부분은 봇이 즉시 반박해줄 수 있을 것 같음
또 다른 문제는 Grokipedia 같은 AI 기반 위키임
겉보기엔 위키피디아보다 세련되고 모바일 친화적이지만, 의도적으로 왜곡된 정보를 담고 있음
일부 거대 기업이나 정치 세력이 민주주의적 정보원을 약화시키려는 목적이 있을지도 모름
위키피디아가 이런 공격의 표적이 되지 않도록 주의해야 함
AI 스팸이 품질을 떨어뜨리는 건 맞지만, 근본적으로는 위키피디아의 품질 관리 문제임
검토 과정이 느리고, 새 정보가 맞는지 보장도 없음
AI 스팸이 사라져도 품질 관리가 개선되지 않으면 의미가 없음
위키피디아는 평균적인 독자 수준에 맞춰 명확히 설명하는 방향으로 품질 관리 체계를 다시 세워야 함