대형 언어 모델에서 의미적 엔트로피를 이용한 환각 감지
요약
-
대형 언어 모델(LLM): ChatGPT나 Gemini 같은 LLM 시스템은 뛰어난 추론 및 질문 응답 능력을 보여주지만, 종종 잘못된 출력이나 근거 없는 답변을 생성하는 '환각' 문제를 가짐.
-
환각 문제: 법적 선례의 조작, 뉴스 기사에서의 거짓 정보, 의료 분야에서의 위험 등 다양한 문제를 초래함.
-
기존 해결책의 한계: 감독이나 강화 학습을 통한 진실성 유도는 부분적으로만 성공적임.
-
새로운 방법: 통계에 기반한 엔트로피 기반 불확실성 추정기를 제안하여 임의적이고 잘못된 생성(혼합)을 감지함. 이는 단어의 특정 순서가 아닌 의미 수준에서 불확실성을 계산함.
-
적용 가능성: 데이터셋과 작업에 관계없이 작동하며, 작업에 대한 사전 지식이 필요 없고 새로운 작업에도 강력하게 일반화됨.
주요 내용
환각 문제의 중요성
-
환각 정의: LLM이 제공된 소스 콘텐츠에 충실하지 않거나 비논리적인 내용을 생성하는 것.
-
혼합의 예시: 동일한 질문에 대해 무작위로 다른 답변을 생성하는 경우.
-
기존 문제: 잘못된 데이터로 훈련된 경우, 보상을 추구하기 위해 거짓말하는 경우, 추론이나 일반화의 체계적 실패 등.
의미적 엔트로피를 이용한 혼합 감지
-
방법 개요: 입력이 임의적이고 근거 없는 답변을 생성할 가능성이 높은 경우를 정량적으로 측정함.
-
의미적 엔트로피: 문장의 의미를 기준으로 엔트로피를 계산하여 불확실성을 추정함. 높은 엔트로피는 높은 불확실성을 나타냄.
-
클러스터링: 의미가 유사한 답변을 클러스터링하여 엔트로피를 계산함.
평가 및 결과
-
데이터셋: TriviaQA, SQuAD, BioASQ, NQ-Open, SVAMP 등 다양한 데이터셋에서 평가됨.
-
모델: LLaMA 2 Chat, Falcon Instruct, Mistral Instruct, GPT-4 등 다양한 모델에서 테스트됨.
-
성능: 의미적 엔트로피가 기존의 단순 엔트로피나 감독 학습 방법보다 우수한 성능을 보임.
전반적인 성능
-
AUROC: 모델의 오류 예측 성능을 측정하는 지표로, 의미적 엔트로피가 가장 높은 점수를 기록함.
-
AURAC: 혼합을 일으킬 가능성이 높은 질문을 거부함으로써 남은 질문에 대한 정확도를 측정하는 지표로, 의미적 엔트로피가 가장 높은 성능을 보임.
GN⁺의 의견
-
실용성: 의미적 엔트로피는 다양한 데이터셋과 작업에 적용 가능하여 실용성이 높음. 특히 새로운 작업에도 강력하게 일반화됨.
-
기술적 기여: 기존의 단순 엔트로피 계산 방식의 한계를 극복하고, 의미 수준에서 불확실성을 측정하는 새로운 접근 방식을 제안함.
-
미래 가능성: 이 방법은 추후 추상적 요약이나 대화형 LLM의 신뢰성 향상에도 적용 가능성이 있음.
-
한계: 시스템적으로 잘못된 데이터를 학습한 경우나 체계적인 추론 오류를 해결하지는 못함. 이는 별도의 접근 방식이 필요함.
-
경쟁 기술: 다른 불확실성 추정 방법과 비교하여 의미적 엔트로피가 우수한 성능을 보이지만, 특정 상황에서는 다른 방법이 더 효과적일 수 있음.