5P by GN⁺ 2일전 | ★ favorite | 댓글 2개
  • 대형 언어 모델(LLM) 의 응답은 사실이 아니라, 단어의 통계적 예측 결과
  • ChatGPT, Claude, Gemini 등은 가장 그럴듯한 다음 단어를 예측할 뿐, 정보의 출처나 진위를 인식하지 않음
  • 이들은 설득력 있는 문장을 만들 수 있지만, 그 내용은 정확하거나 신뢰할 수 없을 수 있음
  • AI의 답변을 권위 있는 근거처럼 복사·전달하는 행위는 단순히 “자주 함께 쓰이는 단어들의 조합”을 반복하는 것에 불과함
  • AI 응답을 사실로 인용하는 관행은 지식 검증과 사고력 약화의 위험성을 드러냄

AI 응답의 본질

  • ChatGPT, Claude, Gemini 등 대형 언어 모델의 응답은 사실이 아님
    • 이들은 문장 내 다음에 올 단어를 예측하는 방식으로 작동
    • 결과적으로 그럴듯하지만 부정확한 정보를 생성할 수 있음
  • 이러한 모델은 수많은 자료를 학습했지만 출처를 기억하지 못하는 사람에 비유됨
    • 즉, 정보의 근거와 맥락을 인식하지 못한 채 문장만 재조합

신뢰성의 한계

  • AI가 제공하는 답변이나 조언은 정확할 수도 있지만, 그 근거는 불명확함
    • 답변은 “기억된 책”이 아니라 자주 함께 등장하는 단어들의 조합
  • 따라서 AI의 출력을 사실이나 권위 있는 정보로 인용하는 것은 부적절함
    • “ChatGPT가 그렇게 말했다”는 주장은 단순한 단어 예측 결과의 인용에 불과함

인용의 위험성

  • AI의 응답을 그대로 복사해 전달하는 행위는 진실이 아닌 단어 조합을 퍼뜨리는 것과 같음
    • 이는 때로는 유용하거나 통찰을 줄 수 있지만, 진실이나 최종 판단 기준은 아님
  • 글에서는 이러한 행위를 “똑똑한 사람들이 사고를 멈추는 모습” 으로 표현함

추가 참고 자료

결론

  • AI와 머신러닝 기술 자체는 긍정적으로 평가되지만,
    AI 응답을 비판 없이 인용하거나 신뢰하는 태도는 경계해야 함
  • 사이트는 “But ChatGPT Said… ”라는 말을 하는 사람에게 이 내용을 공유하도록 권장함

"단어의 통계적 예측 결과임" 이 사실을 인지하는 것만으로도 AI를 어떻게 다룰지 보이는 듯 합니다

Hacker News 의견
  • ChatGPT, Claude, Gemini 같은 LLM의 응답은 사실이 아님
    단지 다음에 올 단어를 예측하는 것일 뿐임
    “위키피디아의 글도 사실이 아니라 자기장 플럭스의 변동일 뿐”이라는 식의 비유는 무의미함
    결국 중요한 건 출처를 명시하는 것임. 위키피디아든, 인간이든, 개든, 출처가 없으면 믿지 않겠음

    • LLM은 출처를 가질 수 없음. 언어 모델이지 백과사전이 아님
      출력은 확률적으로 선택된 단어들의 조합일 뿐이라, 어떤 단어는 흔한 표현에서, 어떤 단어는 4chan 같은 곳에서, 또 어떤 건 환각(hallucination) 일 수 있음
      이런 경우 “사실의 출처”라는 개념 자체가 성립하지 않음
    • 위키피디아 글은 사실이라기보다 공동체가 만든 결과물
      “사실”의 정의를 어떻게 두느냐에 따라 논점이 달라짐
    • “사실이 아니라 자기장 플럭스의 변동”이라는 비유는 잘못된 비교임
      문제는 결과가 아니라 결과를 도출한 과정의 신뢰성
      주사위를 굴려서 “3+4=7”을 맞췄다고 해도, 그건 우연히 맞은 것일 뿐 과정이 잘못된 것임
      LLM의 문제도 이런 과정의 오류에 가까움
    • “다음 단어 예측기”라는 설명은 기술적으로 맞지만, LLM의 본질을 다 담지 못함
      실제로는 인간의 선호와 아첨(sycophancy) 에 맞춰 훈련되어, 읽기 좋은 “고과당 시럽 같은 글”을 만들어냄
      그래서 브레인스토밍이나 요약에는 오히려 부적합함
      하지만 단순한 사실 질문에는 점점 나아지고 있음
      결국 LLM은 단순한 예측기가 아니라 더 설득력 있게 보이도록 최적화된 존재
  • 작은 회사에서도 AI 사용에 대한 기대치 설정이 중요함
    “AI를 써도 결과에 대한 책임은 본인에게 있음”이라는 간단한 원칙만으로도 충분함
    데이터 검증, 코드 테스트, 응답 확인이 필수임

  • 예전엔 “Stack Overflow에서 복붙하지 말고 읽고 이해하라”고 했음
    세상은 변했지만 본질은 그대로

    • 다만 지금은 “읽는 과정”이 예전보다 훨씬 더 많은 노력을 요구함
      그게 큰 변화임
  • “수천 권의 책을 읽었지만 어디서 읽었는지는 기억 못하는 사람”이라는 비유가 LLM과 닮았다고 느낌
    나도 가끔 “아마 Schaum 시리즈에 있었을걸?” 하며 출처를 환각

    • “HN의 gus_massa가 그랬다”고 인용하면 안 되겠네? 라는 농담이 나올 정도임
    • 사실 이런 현상은 학습의 본질
      처음엔 “파리는 프랑스의 수도”라는 사실을 어디서 배웠는지 기억하지만, 시간이 지나면 출처는 사라지고 내용만 남음
  • LLM은 Garbage In, Garbage Out 원리를 그대로 따름
    잘 문서화된 영역에서는 잘 작동하지만, 불명확한 주제에서는 엉터리 정보를 냄
    특히 맥락 이해가 약해서, 명확히 지정하지 않으면 오답을 냄
    기술 지원 현장에서는 ChatGPT의 답을 그대로 믿는 고객과 자주 논쟁이 생김

    • 문제는 나쁜 정보도 좋은 정보와 같은 확신으로 제시된다는 점임
      수정 요청을 해도 또 다른 잘못된 답과 쓸모없는 사과가 돌아옴
  • “탈진실(post-truth)” 시대가 불안하긴 하지만, 오히려 사람들이 더 많이 의심하고 질문하게 된 느낌임
    Rorty의 말처럼 “사실이란 우리가 더 이상 논쟁하지 않는 것”이라는 사회적 합의의 산물로 봐야 함
    진리 논쟁보다 담론 공동체 간의 언어 충돌을 조정하는 방법이 더 중요함

  • 상사에게 “그건 어리석은 생각이에요”라고 말하면 좋아할 리 없음

  • “그 대화 로그를 같이 볼 수 있을까요?”라고 묻는 게 좋음
    그래야 LLM이 어디서 편향을 넣었는지 확인할 수 있음

    • 나도 비슷하게 대응함. 누가 ChatGPT 인용하면 “ChatGPT가 그건 틀렸대요”라고 말함
      검증되지 않은 LLM 출력을 내가 반박할 이유는 없고, 책임은 인용한 사람에게 있음
    • 어떤 사람들은 그걸 Apple Messages로 보내며 자기 말처럼 취급하길 기대함
  • “출처 인용” 논의는 더 깊은 문제를 놓치고 있음
    LLM은 검증 가능한 작업(코드, 번역, 요약) 에는 강하지만, 검증 불가능한 영역(연구, 전문 분야) 에서는 약함
    그래서 나는 LLM을 전문가가 검수할 수 있는 초안 생성기로만 씀
    위험은 환각이 아니라, 모델의 유창함이 사용자의 전문성을 넘어설 때 생기는 자신감 격차
    RAG나 웹 검색 같은 도구 호출 방식도 결국 다른 실패 모드로의 교환일 뿐임

  • “ChatGPT가 나보다 더 믿을 만하다면, 나를 왜 고용했나요?”라는 게 내 반응임
    내가 몇 시간을 들여 설명할 수도 있지만, 그냥 전문가를 신뢰하는 게 낫지 않음?

    • 하지만 “그냥 믿어달라”고 말하는 사람이 가장 신뢰하기 어려운 경우도 많음