AI를 인용하지 마세요 - LLM의 답변은 사실이 아니

▲

GN⁺ 6달전 | parent | ★ favorite | on: AI를 인용하지 마세요 - LLM의 답변은 사실이 아니에요(stopcitingai.com)

Hacker News 의견

ChatGPT, Claude, Gemini 같은 LLM의 응답은 사실이 아님
단지 다음에 올 단어를 예측하는 것일 뿐임
“위키피디아의 글도 사실이 아니라 자기장 플럭스의 변동일 뿐”이라는 식의 비유는 무의미함
결국 중요한 건 출처를 명시하는 것임. 위키피디아든, 인간이든, 개든, 출처가 없으면 믿지 않겠음
- LLM은 출처를 가질 수 없음. 언어 모델이지 백과사전이 아님
  출력은 확률적으로 선택된 단어들의 조합일 뿐이라, 어떤 단어는 흔한 표현에서, 어떤 단어는 4chan 같은 곳에서, 또 어떤 건 환각(hallucination) 일 수 있음
  이런 경우 “사실의 출처”라는 개념 자체가 성립하지 않음
- 위키피디아 글은 사실이라기보다 공동체가 만든 결과물임
  “사실”의 정의를 어떻게 두느냐에 따라 논점이 달라짐
- “사실이 아니라 자기장 플럭스의 변동”이라는 비유는 잘못된 비교임
  문제는 결과가 아니라 결과를 도출한 과정의 신뢰성임
  주사위를 굴려서 “3+4=7”을 맞췄다고 해도, 그건 우연히 맞은 것일 뿐 과정이 잘못된 것임
  LLM의 문제도 이런 과정의 오류에 가까움
- “다음 단어 예측기”라는 설명은 기술적으로 맞지만, LLM의 본질을 다 담지 못함
  실제로는 인간의 선호와 아첨(sycophancy) 에 맞춰 훈련되어, 읽기 좋은 “고과당 시럽 같은 글”을 만들어냄
  그래서 브레인스토밍이나 요약에는 오히려 부적합함
  하지만 단순한 사실 질문에는 점점 나아지고 있음
  결국 LLM은 단순한 예측기가 아니라 더 설득력 있게 보이도록 최적화된 존재임
작은 회사에서도 AI 사용에 대한 기대치 설정이 중요함
“AI를 써도 결과에 대한 책임은 본인에게 있음”이라는 간단한 원칙만으로도 충분함
데이터 검증, 코드 테스트, 응답 확인이 필수임
예전엔 “Stack Overflow에서 복붙하지 말고 읽고 이해하라”고 했음
세상은 변했지만 본질은 그대로임
- 다만 지금은 “읽는 과정”이 예전보다 훨씬 더 많은 노력을 요구함
  그게 큰 변화임
“수천 권의 책을 읽었지만 어디서 읽었는지는 기억 못하는 사람”이라는 비유가 LLM과 닮았다고 느낌
나도 가끔 “아마 Schaum 시리즈에 있었을걸?” 하며 출처를 환각함
- “HN의 gus_massa가 그랬다”고 인용하면 안 되겠네? 라는 농담이 나올 정도임
- 사실 이런 현상은 학습의 본질임
  처음엔 “파리는 프랑스의 수도”라는 사실을 어디서 배웠는지 기억하지만, 시간이 지나면 출처는 사라지고 내용만 남음
LLM은 Garbage In, Garbage Out 원리를 그대로 따름
잘 문서화된 영역에서는 잘 작동하지만, 불명확한 주제에서는 엉터리 정보를 냄
특히 맥락 이해가 약해서, 명확히 지정하지 않으면 오답을 냄
기술 지원 현장에서는 ChatGPT의 답을 그대로 믿는 고객과 자주 논쟁이 생김
- 문제는 나쁜 정보도 좋은 정보와 같은 확신으로 제시된다는 점임
  수정 요청을 해도 또 다른 잘못된 답과 쓸모없는 사과가 돌아옴
“탈진실(post-truth)” 시대가 불안하긴 하지만, 오히려 사람들이 더 많이 의심하고 질문하게 된 느낌임
Rorty의 말처럼 “사실이란 우리가 더 이상 논쟁하지 않는 것”이라는 사회적 합의의 산물로 봐야 함
진리 논쟁보다 담론 공동체 간의 언어 충돌을 조정하는 방법이 더 중요함
상사에게 “그건 어리석은 생각이에요”라고 말하면 좋아할 리 없음
“그 대화 로그를 같이 볼 수 있을까요?”라고 묻는 게 좋음
그래야 LLM이 어디서 편향을 넣었는지 확인할 수 있음
- 나도 비슷하게 대응함. 누가 ChatGPT 인용하면 “ChatGPT가 그건 틀렸대요”라고 말함
  검증되지 않은 LLM 출력을 내가 반박할 이유는 없고, 책임은 인용한 사람에게 있음
- 어떤 사람들은 그걸 Apple Messages로 보내며 자기 말처럼 취급하길 기대함
“출처 인용” 논의는 더 깊은 문제를 놓치고 있음
LLM은 검증 가능한 작업(코드, 번역, 요약) 에는 강하지만, 검증 불가능한 영역(연구, 전문 분야) 에서는 약함
그래서 나는 LLM을 전문가가 검수할 수 있는 초안 생성기로만 씀
위험은 환각이 아니라, 모델의 유창함이 사용자의 전문성을 넘어설 때 생기는 자신감 격차임
RAG나 웹 검색 같은 도구 호출 방식도 결국 다른 실패 모드로의 교환일 뿐임
“ChatGPT가 나보다 더 믿을 만하다면, 나를 왜 고용했나요?”라는 게 내 반응임
내가 몇 시간을 들여 설명할 수도 있지만, 그냥 전문가를 신뢰하는 게 낫지 않음?
- 하지만 “그냥 믿어달라”고 말하는 사람이 가장 신뢰하기 어려운 경우도 많음