LLM의 불확실성 감지 기술

(thariq.io)

LLM의 불확실성 감지

이 글은 XJDR의 새로운 프로젝트인 Entropix에서 개발한 새로운 추론 기법을 설명함. Entropix는 불확실한 순간에 샘플링을 더 똑똑하게 하여 모델의 추론을 개선하려고 시도함. 그러나 아직 대규모 평가가 이루어지지 않아 실제로 얼마나 도움이 되는지는 불확실함.

불확실성 개요

샘플링은 LLM이 선택하는 가능한 토큰의 분포(로그잇)에서 토큰을 선택하는 과정임.
모델의 예측에 대한 확신은 이 분포를 통해 알 수 있음.
Entropix는 적응형 샘플링을 사용하여 모델이 불확실할 때 더 나은 결정을 내리도록 함.

불확실성의 의미와 중요성

로그잇의 불확실성은 여러 가지 원인이 있을 수 있으며, 모두 나쁜 것은 아님.
원인에는 동의어나 동등한 토큰, 분기 경로, AI가 확신하지 못하는 경우 등이 있음.
Entropix는 불확실성의 정도에 따라 다른 방법으로 다음 토큰을 선택해야 한다고 제안함.

엔트로피와 바렌트로피

Entropix는 불확실성을 측정하는 두 가지 지표인 엔트로피와 바렌트로피를 사용함.
엔트로피는 예측된 로그잇이 서로 얼마나 다른지를 측정함.
바렌트로피는 불확실성의 "형태"를 나타내며, 높은 바렌트로피는 일부 값이 다른 값과 크게 다름을 나타냄.

수학적 설명

서프라이설은 사건의 예측 불가능성을 측정하는 개념임.
엔트로피는 모든 가능한 결과에 대한 서프라이설의 기대값임.
바렌트로피는 서프라이설의 분산으로 계산됨.

엔트로피와 바렌트로피에 기반한 적응형 샘플링

낮은 엔트로피, 낮은 바렌트로피

모델이 첫 번째 옵션뿐만 아니라 다른 옵션에도 확신이 있는 이상적인 경우임.
표준 argmax 샘플링을 사용하여 가장 높은 확률의 토큰을 선택함.

낮은 엔트로피, 높은 바렌트로피

모델이 몇 가지 옵션을 매우 높게 예측하는 경우임.
새로운 출력 분기를 나타낼 수 있으며, 여러 방법으로 분기를 구현할 수 있음.

높은 엔트로피, 낮은 바렌트로피

모델이 인식하지 못하는 것을 보고 있거나 모든 옵션이 서로 교환 가능할 수 있음.
"생각" 토큰을 사용하여 모델이 더 많은 계산 시간을 사용하도록 유도함.

높은 엔트로피, 높은 바렌트로피

모델이 명확한 선호도가 없지만 일부 출력에 더 확신이 있는 경우임.
무작위로 선택하거나 분기, 생각 토큰을 삽입할 수 있음.

분기와 생각 토큰

분기 예측은 몇 가지 로그잇을 따라가 다른 토큰으로 이어지는지를 보는 방법임.
생각 토큰은 불확실한 상태에서 더 많은 계산을 수행하는 방법임.

주의 엔트로피

Entropix는 주의 엔트로피를 사용하여 온도를 조정하는 데 사용함.
주의 엔트로피와 주의 일치도는 샘플링에 대한 추가 신호를 제공할 수 있음.

이게 중요한가?

Entropix의 통찰력은 이해하기 쉽고 완전히 새로운 것은 아님.
평가가 큰 이점을 보여주지 않더라도, 이러한 추론 기법은 실험하기 쉬운 방향임.

GN⁺의 정리

Entropix는 LLM의 불확실성을 다루기 위한 새로운 접근 방식을 제안함.
엔트로피와 바렌트로피를 사용하여 모델의 확신 수준을 측정하고, 적응형 샘플링을 통해 더 나은 결정을 내릴 수 있음.
이러한 기술은 대규모 예산 없이도 오픈 소스 해커들이 모델의 추론 능력을 개선할 수 있는 가능성을 제공함.
유사한 기능을 가진 프로젝트로는 Hugging Face의 Transformers가 추천됨.

▲

GN⁺ 8달전 [-]

Hacker News 의견

Charles Babbage는 잘못된 입력이 올바른 출력을 낼 수 있는지에 대한 질문에 혼란스러움을 느꼈음
소비자 하드웨어를 사용한 샘플링 기반 기술이 SOTA 모델을 개선할 수 있는 드문 기회임. 그러나 이는 지속되지 않을 것이며, 궁극적으로는 훈련 가능한 샘플러가 필요할 것임
- optillm은 이러한 기술을 구현한 프로젝트임
- Entropics의 추가 계산이 CoT 디코딩보다 나은 결과를 가져오지 않음
LLM의 많은 문제는 의미 누출이나 관련 없는 정보에 의해 발생함. 주의력 개선의 여지가 있을 수 있음
- 관련 블로그 포스트 작성: 의미 누출, LLM과 추론, O(1) 추론 시간 튜링 머신
현대의 GPT는 토큰 어휘에 대한 큰 분류기로부터 로짓을 출력함. 이는 공간 내에 존재하며, 비정상적인 볼록성 속성을 가진 다양체를 계산할 수 있음
높은 엔트로피 상황에서 모델이 불확실성을 감지하고 사용자에게 경고할 수 있는 기능이 필요함
LLM의 불확실성을 판단하는 기술이 있는지 확신할 수 없음. 최근 연구는 의미 엔트로피를 사용하여 LLM의 추측 여부를 통계적으로 정량화함
모델이 불확실성을 허용하지 않을 때의 출력을 실험해본 사람이 있는지 궁금함. 모든 토큰이 임계값 이상의 확실성을 가질 때까지 샘플러가 되돌아가는 방식임
LLM을 신뢰하여 최소한의 감독으로 작업을 수행하는 것에 대한 의문이 있음. 모든 것이 "환각"이나 추측일 수 있음
LLM의 문제는 단순히 "불확실성"뿐만 아니라 다양한 차원이 있음. 질문의 의미 부족, 정보 부족, 전문가 합의의 부재 등 다양한 이유가 있음
언어 모델을 위한 수많은 샘플링 전략이 존재함. 특정 샘플링 전략이 표준 top-k 또는 top-p 샘플링보다 우수하다는 것을 실증적으로 입증하기 어려움

답변달기