Show GN: KoHalluLens: 헛소리에도 taxonomy가 있다?!

ironman0722 · 2025-11-03T21:55:54+09:00

KoHalluLens는 Facebook Research의 HalluLens를 한국어로 확장한 프로젝트로, 매 새롭게 생성되는 한국어 test set을 기반으로 LLM의 hallucination을 체계적으로 평가했음. 이 벤치마크는 hallucination을 “사실과 다른 말하기”(Factuality issue)와 “모르는데 아는 척하기”(Hallucination)로 구분함 Extrinsic Hallucination(training 정보와 불일치)과 Intrinsic Hallucination(입력 context와 불일치)이라는 명확한 분류 기준을 제시함. 기존 벤치마크가 data leakage 위험을 안고 있었다면, HalluLens의 extrinsic hallucination은 매 evaluation마다 새로운 test set을 사용해 더 신뢰도 높은 평가를 가능하게 했음. KoHalluLens는 이를 한국어 평가 세트로 확장했으며, API hosting을 통해 별도의 컴퓨팅 자원 없이 직접 자신의 모델의 hallucination을 평가할 수 있도록 했음.

(github.com/NomaDamas)

1P by ironman0722 7달전 | ★ favorite | 댓글과 토론

KoHalluLens는 Facebook Research의 HalluLens를 한국어로 확장한 프로젝트로, 매 새롭게 생성되는 한국어 test set을 기반으로 LLM의 hallucination을 체계적으로 평가했음.
이 벤치마크는 hallucination을
- “사실과 다른 말하기”(Factuality issue)와
- “모르는데 아는 척하기”(Hallucination)로 구분함
Extrinsic Hallucination(training 정보와 불일치)과 Intrinsic Hallucination(입력 context와 불일치)이라는 명확한 분류 기준을 제시함.
기존 벤치마크가 data leakage 위험을 안고 있었다면, HalluLens의 extrinsic hallucination은 매 evaluation마다 새로운 test set을 사용해 더 신뢰도 높은 평가를 가능하게 했음.
KoHalluLens는 이를 한국어 평가 세트로 확장했으며, API hosting을 통해 별도의 컴퓨팅 자원 없이 직접 자신의 모델의 hallucination을 평가할 수 있도록 했음.

Show GN: KoHalluLens: 헛소리에도 taxonomy가 있다?!

함께 보면 좋은 글 β

댓글과 토론