GN⁺: LLMs의 영원한 환각 현상, 우리가 받아들여야 할 현실
(arxiv.org)LLMs Will Always Hallucinate, and We Need to Live With This
서론
- 대형 언어 모델(LLM)이 다양한 분야에서 널리 사용됨에 따라, 이들의 고유한 한계를 비판적으로 검토하는 것이 중요함
- 이 연구는 언어 모델의 환각이 단순한 오류가 아니라 이러한 시스템의 필연적인 특징임을 주장함
환각의 본질
- 환각은 LLM의 근본적인 수학적 및 논리적 구조에서 비롯됨
- 아키텍처 개선, 데이터셋 향상, 사실 확인 메커니즘을 통해 이를 제거하는 것은 불가능함
- 계산 이론과 괴델의 첫 번째 불완전성 정리를 바탕으로, 할팅 문제, 공백 문제, 수용 문제와 같은 문제의 결정 불가능성을 참조함
LLM 과정의 모든 단계에서의 환각
- 훈련 데이터 수집, 사실 검색, 의도 분류, 텍스트 생성의 모든 단계에서 환각이 발생할 확률이 있음
- 구조적 환각이라는 개념을 도입하여 이러한 시스템의 본질적인 특성으로 확립함
결론
- 환각의 수학적 확실성을 확립함으로써, 이를 완전히 완화할 수 있다는 기존의 개념에 도전함
GN⁺의 정리
- 이 연구는 LLM의 환각이 필연적이라는 점을 수학적으로 증명하여, 이를 완전히 제거할 수 없음을 강조함
- 계산 이론과 괴델의 불완전성 정리를 통해 환각의 본질을 설명함
- LLM의 모든 단계에서 환각이 발생할 수 있음을 보여줌
- 이 연구는 LLM의 한계를 이해하고, 이를 수용하는 것이 중요함을 시사함
Hacker News 의견
-
수학적 확실성을 통해 환각을 증명함으로써, 환각이 완전히 해결될 수 있다는 기존의 개념에 도전함
- "환각"이라는 용어가 모델의 정상적인 기능에 문제가 있다는 인식을 주기 때문에, 다른 용어를 선택했으면 오해를 피할 수 있었을 것임
- 환각은 모델의 오작동이 아니라, 생성된 텍스트가 목적에 맞지 않는다는 가치 판단임
- 환각을 줄이는 것과 "정렬"을 만드는 것은 동일한 문제임
-
환각은 질문에 대한 첫 번째 가능한 답변을 말하는 결과임
- 인간은 대부분의 질문에 대해 이전에 답변한 경험이 있고, 실수를 기억하여 반복하지 않음
- 인간은 말을 하기 전에 생각하고, 초기 반응을 다른 지식과 연관시킴
- LLM이 즉시 올바른 답변을 생성할 것으로 기대해서는 안 됨
- 인간의 사고 과정은 다양한 역할과 페르소나를 가짐
- 초기 "초안" 답변이 형성된 후에야 추가적인 맥락을 생성함
- LLM의 첫 번째 "직감적 반응"을 기반으로 지능을 평가하는 것은 잘못된 판단임
-
현재의 아키텍처는 근본적으로 "환각"이 내재되어 있어 실용적인 사용을 제한함
- 이 기사에서는 "환각하지 않음"의 불가능한 한계를 제시함
- 형식적 시스템과 기계적 계산의 근본적인 한계를 재확인함
- 이 한계는 인간에게도 적용됨
-
LLM의 환각은 지식을 표현하는 방식과 관련이 있음
- 모델이 환각할 때도 여전히 훈련된 대로 가능성 있는 텍스트를 생성함
- 훈련 데이터의 일반적인 패턴, 즉 문법과 단어 선택에 의존함
- 적절한 아키텍처 변경으로 환각 문제를 해결할 수 있을 것임
- 그러나 이러한 변경이 효율적인 모델 훈련과 양립할 수 있을지는 미지수임
-
불완전한 훈련 데이터는 측정할 가치가 없음
- 불완전한 데이터는 학습의 본질임
- 완전한 데이터가 있다면 기계 학습이 필요 없고, 입력을 출력으로 매핑하는 함수를 만들면 됨
- 기계 학습은 예측을 기반으로 간극을 메우는 것임
- 인간 지능과 학습에도 동일하게 적용됨
- LLM은 항상 환각할 것이지만, 인간도 항상 환각함
- 진정한 문제는 LLM이 인간처럼 환각하도록 만드는 것임
-
LLM은 '전문가 시스템'처럼 될 것임
- AI 전문가로서 자신을 한정하지 말 것을 권장함
-
LLM과 효과적으로 작업하기 위해서는 본질적으로 신뢰할 수 없고 비결정론적인 기술을 사용하는 능력이 필요함
- 많은 사람들이 이 장애물을 극복하기 어려워함
-
이제 거품이 터질 때가 되었음
-
우리는 LLM을 "수용"할 필요가 없음
- 사용하지 않거나 무시하거나 확산과 수용에 반대할 수 있음
-
이 논문은 잘못 작성되었고, 의미 있는 수학적 이론이 개발되었다는 믿음이 낮음
- 예시: 첫 10페이지는 의미 없는 내용임