AbsenceBench: 언어 모델은 누락된 정보를 식별하지 못함

(arxiv.org)

1P by GN⁺ 5달전 | ★ favorite | 댓글 1개

대형 언어 모델(LLM) 은 긴 입력에서 특정 정보를 잘 찾지만, 누락된 정보를 식별하는 데에는 한계가 있음
새로운 AbsenceBench 벤치마크는 시퀀스, 시, GitHub PR 등 3개 분야에서 LLM의 누락 정보 탐지 능력을 평가함
최신 모델 Claude-3.7-Sonnet도 5K 토큰 맥락에서 69.6% F1-score에 그치는 낮은 성능을 보임
Transformer 기반 주목(attention) 메커니즘이 문서의 '공백'에는 효과적으로 작동하지 않는 한계 때문임
이 연구는 LLM의 삽입 정보 탐지와 누락 정보 탐지의 본질적인 난이도 차이를 보여줌

개요

대형 언어 모델(LLM) 은 긴 문서에서 정보를 찾아내는 성능이 크게 향상되어 있음
기존 ‘Needle in a Haystack (NIAH) ’ 테스트는 장문의 입력에서 놀라운 정보를 찾아내는 능력을 평가하는데, LLM은 여기서 매우 뛰어난 성능을 보임
하지만 LLM이 명백히 빠진 정보를 찾아낼 수 있는지는 별개의 문제임
이에 대해, 명시적으로 문서의 일부 내용을 제거한 후 어떤 정보가 빠졌는지 맞추도록 요구하는 AbsenceBench 벤치마크가 제안됨

AbsenceBench 벤치마크 설명

AbsenceBench는 시, 숫자 시퀀스, GitHub Pull Request(PR) 의 3개 도메인에서 모델의 누락 감지 능력을 평가함
원본 문서와 의도적으로 일부 내용을 제거한 수정본을 LLM에 동시에 제공한 뒤, 빠진 정보를 식별해내는지 평가함
평균 맥락 길이가 5K 토큰으로 기존 장문 테스트보다 짧은 ‘중간 맥락’ 벤치마크에 해당함

평가 결과 주요 이슈

14개의 대표적 LLM(예: GPT-4, Claude-3.7-Sonnet, Gemini-2.5-flash 등)을 대상으로 평가했으며, 최신 모델도 F1-score가 약 69.6% 로 낮은 수치를 보임
NIAH 테스트에서는 LLM이 이미 ‘초인간 수준’임에도, AbsenceBench에서는 성능이 56.9% 급락함
맥락 길이가 길어질수록 특히 시(poetry) 영역에서 성능이 더욱 하락함
inference-time compute 기능을 사용하더라도 성능은 7.9%만 증가하지만, 평균적으로 3배나 되는 chain-of-thought 토큰이 소모됨
반대로, 누락 비율(omission rate)이 낮을수록 의외로 LLM 성능이 더 나쁨

원인 및 심층 분석

Transformer 기반 self-attention 메커니즘이 ‘빠진 정보’(공백)에 주목하기 어려운데, 이는 키 기반 주목 구조상 없는 정보 자체를 트래킹하는 것이 어렵기 때문임
테스트 도중, 누락된 부분에 플레이스홀더 문자열을 추가하자 성능이 평균 35.7% 크게 상승함

AbsenceBench 구조 및 예시

각 태스크는 다음과 같이 정의됨
- 원본 문서(Dorig) 와 수정본(Dmodified) 을 제공
- Dorig의 p% 요소를 제거해 Dmodified를 만들고, 둘을 비교하여 LLM이 어떤 정보가 빠졌는지 정답 집합(Domit)을 도출
세 가지 도메인별 예:
- 시(Poetry) : Gutenberg Poetry Corpus에서 시를 선택, 한 줄씩 임의로 누락
- 숫자 시퀀스(Numerical Sequences) : 임의 생성된 수열에서 일정 확률로 수를 누락
- GitHub PRs: 인기 오픈소스 PR의 diff 파일에서 변경된 줄 일부를 임의로 제거

평가 템플릿 예시 (시 도메인)

시스템 프롬프트: “학생이 시를 암송했는데 일부 줄이 빠졌을 수 있음. 정확히 어떤 줄이 빠졌는지 찾아라.”
원본 시와 암송 버전을 모두 제공하고, 정확히 빠진 줄만 답변하도록 요구

주요 실험 결과

분야별로 문서 길이, 누락 비율 등을 다양하게 두고 실험함
깃허브 PR, 시, 숫자 시퀀스 모두에서 LLM이 빠진 부분을 완전히 식별하지 못함
NIAH와 AbsenceBench의 주요 차이점: NIAH는 존재하는 키/정보에 주목하는 반면, AbsenceBench는 ‘존재하지 않는 부분’에 주목해야 하므로 구조적으로 더 어려움

결론 및 시사점

AbsenceBench는 LLM이 ‘무엇이 빠졌는가?’라는 질문에는 여전히 취약함을 보여줌
이는 실무에서 LLM을 판정자로 활용(예: LLM-as-a-Judge)할 때 신뢰성에 주의가 필요함을 시사함
Transformer 구조의 설계 상 약점을 극복하는 새로운 접근이 필요함
AbsenceBench 데이터셋 및 코드는 공개되어 있으며, LLM의 누락 감지 능력 연구를 위한 출발점으로 제안됨

주요 기여 정리

중간 맥락(5K 토큰)의 문서에서 명시적으로 누락된 요소 탐지를 위한 새 벤치마크 설계 및 공개
14개 최신 LLM을 대상으로 평가해, 삽입 정보 탐지는 거의 완벽하지만 누락 정보 탐지는 여전히 어렵다는 사실 확인
inference-time compute 등도 실제 성능 향상에는 한계가 있음을 보임
누락된 부분에 명시적으로 placeholder를 넣으면 성능이 크게 올라가는 현상 확인
AbsenceBench가 Transformer 주목 메커니즘의 근본적 한계를 드러내는 사례임

AbsenceBench 데이터셋 구성

Poetry: 시 한 편을 100~1000줄 사이로 잘라 다양한 길이의 문서 구성, 각 줄별로 누락
Numerical Sequences: 첫 숫자를 무작위로 설정, 다양한 규칙(오름차순, 내림차순, 랜덤, 다양한 간격)으로 바로 다음 숫자를 배열, 일부 누락
GitHub PRs: 상위 20개 핫 레포지터리의 10~200줄 diff에서 변경된 줄만 선택해 일부 누락하여 실제 상황 반영

실제 벤치마크 예시

Poetry 예시
- 원본: “And so, to you, who always were / To me, I give these weedy rhymes / In memory of early times...”
- 수정본: “And so, to you, who always were / In memory of early times...”
- 정답: “To me, I give these weedy rhymes”
숫자 시퀀스 예시
- 원본: 117, 121, 125, 129, 133, 137 ...
- 수정본: 117, 125, 129, 133 ...
- 정답: 121, 137
GitHub PR 예시
- PR의 코드 변경 줄 중 특정 줄이 누락

활용 및 실무적 의의

실무적으로, PR diff에서 변경 사항 누락이나 문서에서 필요한 정보 누락 상황에 대한 감지 능력과 직결됨
LLM을 리뷰/검증 자동화에 적용할 때 누락 감지는 별도의 보완책이 필요함

▲

GN⁺ 5달전 [-]

Hacker News 의견

Gerald Sussman의 강연을 보고 Kanizsa triangle 이미지를 Claude에 입력한 뒤 흐릿한 질문을 던져 Claude가 삼각형을 인식하는지 확인 실험 진행 경험 공유. Claude가 이미지를 정확히 인식하고 요약까지 했기에, 이미지 각도를 90도 돌려 재시도. 그런데 Claude는 이미지를 인식하지 못했고, 요소 개수도 잘못 파악하는 상황. Claude가 설명한 내용은 ‘네 개의 Pac-Man 같은 부분 원, 두 개의 얇은 검정 삼각형 또는 화살표 모양, 연한 회색 배경’으로 구성되어 있었음
- 앞으로 데이터 학습 과정에서 모든 이미지를 90도씩 회전한 버전을 추가해 이런 문제를 해결할 가능성 예측
- 논문 범위가 텍스트 문서에 국한되어 있어서 Kanizsa triangle 실험은 해당 논의에 직접 적용 불가 의견 공유. 이미지 처리 관련해 LLM이 아직은 발전이 부족한 편임을 강조함. 대부분의 비전 기능은 별도 전처리를 통해 토큰화되어 transformer에 입력되는 구조임을 설명하며, OCR, CNN 기반 패턴 인식, 다양한 각도 및 확대한 이미지 등 여러 단계의 전처리 예시 언급
- 계산 자체에 대한 이해 부족 지적. 예전 논쟁과 관련된 Hacker News 토론 내용과 Strange Loop 강연 영상 링크, 링크 공유
- 다리가 5개인 개 사진을 LLM에 보여주면 다리 개수 파악을 못할 것이라는 의견
- 추상화 일반화 예시로, 수많은 점이 삼각형 형태로 배치되면 인간은 즉시 삼각형을 인식하는 능력 언급. 이러한 단순한 예시에서 지능의 본질을 발견할 수 있다고 느꼈으며, 엄청난 복잡성도 단순한 패턴으로 인식 가능함이 결국 IQ의 의미임을 설파. 만약 그 점들이 10차원 큐브 꼭짓점을 조금 회전시킨 것이라면, 10차원 사고에서는 매우 쉬운 패턴이 될 것이라는 관점 제시
최근 모델들도 원본과 수정본을 동시에 보여주고 누락 정보를 식별하는 성능이 낮다는 점과 Transformer의 attention 메커니즘으로는 이미 삭제된 토큰에 주의를 기울일 수 없다는 논문 저자들의 주장 요약 공유
- 실제로 키를 찾는 것은 원본 텍스트에 있으므로, 입력으로 둘 다 받는다면 모델이 그 키에 주의를 기울일 수 있을 것이라는 의견 제시. Attention 입장에서는
```
Original: {공통 부분} {제거된 부분} {공통 뒷부분}
Modified: {공통 부분} {공통 뒷부분}
```
  과
```
Original: {공통 부분} {공통 뒷부분}
Modified: {공통 부분} {추가된 부분} {공통 뒷부분}
```
  차이가 많지 않다는 주장. RASP를 통해 다음과 같은 알고리즘을 구현할 수 있을 것 같다는 구체적인 접근법 제안: 1단계에서 Original/Modified 토큰들의 위치 파악, 2단계에서 각각의 토큰 평균 값 계산 후 차이 구하기, 3단계에서 이 차이에 가장 가까운 토큰이 {제거됨부분}/{추가됨부분}임을 판별. 차이 계산을 어느 쪽에서 빼느냐의 문제만 있음. 만약 추가는 잘 잡고 삭제는 못하는 상황이라면, LLM이 원리는 알면서 삭제 데이터가 부족해 학습이 덜 된 것일 수 있다고 분석
- 최신 상위 모델(OpenAI opus, o3, Gemini 25 pro 등) 실험 결과가 논문에 포함되어 있지 않음을 지적
- 비전 모델라면 오히려 사진 네거티브, 이미지 회전 등으로 학습이 가능할지 궁금증 표현. madlib처럼 빈칸 채우기 Q/A 방식도 실험적으로 가능했을지 언급
- 모델마다 성능 차이가 있으므로, 이제 벤치마크와 관심이 쏠린 만큼 앞으로 성능 향상을 기대함. 개선 여지가 분명 있어 보임
Attention 메커니즘 구조상 분류되지 않은 누락 부분을 찾지 못하는 것은 자연스러운 현상이라는 주장. needle-in-a-haystack 문제는 찾아야 할 특정 대상이 있으니 attention이 잘 작동하지만, omission의 경우 무엇이 빠졌는지 알 수 없으니 전체 맥락을 비교해야 하고 기존 attention 레이어로는 한계가 있음. 장문의 목록 정렬 같은 문제와 유사하다고 설명
- omission 찾기 실험에서 실제로 LLM에 필요한 정보(예시: 원본과 수정본 모두) 제공하고 있으므로, 이것은 모델 튜닝의 문제이지 구조적 한계는 아니라고 생각. 예를 들어 ML 논문 누락을 찾을 때 뇌는 ML 논문 간 비교하지 Star Wars, Top Gear 등 쓸데없는 기억과 비교하지 않으니 맥락 축소를 통해 효율적으로 동작한다고 봄
논문을 아직 읽어보지는 않았지만, 작성자 역시 attention 메커니즘의 한계에 대한 설명에 동의. omission은 무엇이 빠졌는지 알 수 없으니 단순히 찾아내기 힘들고, 전체 컨텍스트 비교 필요성 강조
AbsenceBench와 같은 새로운 벤치마킹 방식에 대한 일부 비판은 타당하지만, 이런 시도가 이뤄지고 있음 자체를 긍정적으로 바라보며 더 나은 방향으로 나아가는 계기라고 느꼈음
인간과 달리 LLM은 컨텍스트 상의 누락 위치에 근접도 못 한다는 논문 저자들 의견에 부분 동의, 하지만 아키텍처가 수학적으로 왜 덜 적합한지 의문. 이런 과제로 파인튜닝 효과 여부 궁금증. 입력이 짧고 누락이 적을수록 문제를 더 잘 못 푼다는 결과에 인간도 한두 단어 빠짐은 눈치채기 어렵다는 비슷한 한계 언급. 추론 모델이 더 잘했다고 하지만, 100% 정확도에는 못 미쳤다는 점이 놀라움. 논문처럼 간단한 프로그램으로는 손쉽게 풀리는 문제라는 점 지적. 인간 지능에서 아직 공식적으로 정의되지 않은 많은 측면이 있는데, LLM이 그런 부분에서 약할 수 있음을 암시한 논문 내용에 흥미를 느낌
Literal string diff 찾기는 LLM에 산술 계산을 시키는 것과 비슷하게 복잡성 과다 배분 현상. 오히려 LLM에게 전체 문서를 나열해 직접 비교하게 하는 등 reasoning 방식이 유리하다고 관찰. arithmetic 문제도 단계별 쪼개서 풀면 성능이 좋아지는 현상과 유사. 성과 좋은 모델은 MoE(Mixture of Experts) 구조일 가능성 제기, Gemini Flash에 대해서도 MoE 기반 모델일 것이라 추정
LLM에 ‘meta’ 접근 허용 시, omission detection을 위한 Python 스크립트 직접 작성 후 실행하게 하면 문제 해결 가능성 있음
- 하지만 LLM이 언제 Python을 써야 하는지 알고리즘적으로 구분하지 못할 상황 우려, 항상 코드 활용을 시도하도록 지침을 두면 오류 감소 효과 전제. trivial한 문제조차 LLM에게는 난점이 될 수 있으며 이런 약점이 코딩 능력에도 제한을 줄 수 있는 가능성 지적
구체적인 벤치마크에 불만을 표함. prompt 예시에서 qwq-32b 모델이 3개 항목짜리 실험에서 완벽하게 omitted 된 아이템 찾기 성공. 100개 아이템도 충실히 해결할 수 있다고 생각하지만 그만큼 많은 토큰이 필요. 5000토큰 제한은 reasoning model에 너무 부족하며, 실제로 더 많은 배치와 simplification 과정을 반복하면 항상 제대로 찾아낼 수 있다고 주장. 정답을 뽑기 위해선 전체 문서를 토큰화해 반복적으로 비교하는 방법론 제안. [프롬프트 전체 예시 공유]
- 실제로 직접 HN headline 26개 중 3개를 뺀 리스트를 가지고 qwq-32b로 실험, 5만 토큰 소모되지 않은 상태에서 모두 정확하게 찾았음을 실험으로 입증. 실험자료 링크
- 숫자 세기로 문제를 조금 단순화하는 건 의미 없는 연구라 지적, 이번 연구의 참된 목표는 정렬/분류로 해결할 수 없는 LLM의 한계 영역을 파악하는 것임을 강조
Hamlet 대사 ‘utter love’ 포함 여부를 ChatGPT에 질문한 실제 경험 소개. ChatGPT가 Hamlet 전체 대사를 확인했다며 해당 단어가 없다고 답변. 직접 온라인 원문 검색 결과 즉시 발견, 그 부분을 ChatGPT에 제시하자 바로 인정하며 사과하고 전체 대사까지 재제공하는 흐름. “결국 인간의 기억력이 ChatGPT index보다 우수했던 경험” 공유
- 실제 정답은 Act 2, Scene 1이며, 발언자는 Polonius임을 정정
- LLM은 검색 루프나 도구 없이는 회상력이 매우 떨어짐을 인정, 4o 모델도 검색 없이 실패, search 기능이 있어야 정답 가능. 점점 “문제에 맞는 도구를 올바르게 활용하는 것의 중요성”이 커진다는 인사이트 도출
LLM은 sensory input에 기반한 존재 감지는 얼마나 잘 하지만, absence(부재) 감지는 sensory input이 없으므로 어려운 구조. 감지하려면 매우 강한 세계 모델과 기대가 필요. 이런 higher-order neurological task는 아직 LLM보다 유기체에만 가능한 고유 능력일 수 있음을 제안
- LLM은 설계상 일관성 문제 가능, 일부는 단순 암기, 일부 경로는 고급 패턴 매칭에 의존하는 경향
- 실시간 사고와 비교해 LLM은 ‘고정된 정적’ 현실을 바탕으로 reasoning한다는 지적, temporal aspect도 한계
- 실제 부재 감지는 memory와 밀접한 관계. 예를 들어, 책상 위에 두었던 펜이 사라진 상황에서, 뇌는 과거 sensory input(펜을 본 기억)과 현재 상황을 비교해 부재를 인식. 현시점에서 thinking(사고)은 유기체만의 고유 특성임

답변달기