# 실제 팩트체크에서 프런티어 LLM 간 불일치

> Clean Markdown view of GeekNews topic #29977. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=29977](https://news.hada.io/topic?id=29977)
- GeekNews Markdown: [https://news.hada.io/topic/29977.md](https://news.hada.io/topic/29977.md)
- Type: GN+
- Author: [xguru](https://news.hada.io/@xguru)
- Published: 2026-05-29T09:33:08+09:00
- Updated: 2026-05-29T09:33:08+09:00
- Original source: [lenz.io](https://lenz.io/research/llm-disagreement)
- Points: 1
- Comments: 1

## Topic Body

- **프런티어 LLM 5종**은 실제 사용자 제출 클레임 1,000개 중 67%에서 판정이 갈렸고, 5개가 모두 일치한 경우는 33%였음
- **다수 판정**은 정답 라벨이 아니라 불일치 측정 기준이며, 비만장일치 67%에서는 최소 1개 모델이 틀릴 수밖에 없음
- 4단계 루브릭에서 2칸 이상 벌어진 **실질적 불일치**는 34%였고, True와 False의 극단적 분열도 21%로 나타남
- 모델 쌍별 라벨 일치율은 **53~75%** 였으며, 같은 기반 모델인 Gemini 3 Pro와 Search 버전의 일치율이 가장 높았음
- 데이터는 Lenz의 최근 실제 클레임에서 뽑았고 정답 라벨·LLM 채점기 없이 측정해, 정확도보다 **판정 구조의 불안정성**을 드러냄

---

### 실제 클레임에서 판정이 얼마나 자주 갈렸는가
- 분석 대상 1,000개 클레임 중 **672개, 67%**(95% CI 64–70%)에서 5개 프런티어 모델의 판정이 일치하지 않았음
  - 5개 모델이 모두 같은 판정을 낸 클레임은 328개, 33%(95% CI 30–36%)였음
  - 1개 모델만 다른 판정을 낸 클레임은 224개, 22%(95% CI 20–25%)였음
  - 2개 모델이 다른 판정을 낸 클레임은 316개, 32%(95% CI 29–35%)였음
  - 2-2-1 또는 2-1-1-1처럼 엄격한 다수가 형성되지 않은 분열은 132개, 13%(95% CI 11–15%)였음
  - 최소 2개 모델이 다른 판정을 낸 경우는 448개, 45%(95% CI 42–48%)였음
- **다수 판정**은 정확성의 대리 지표가 아니라 불일치를 세기 위한 구조적 기준임
  - 다수 판정이 틀릴 수 있고, 소수 판정을 낸 모델이 맞을 수도 있음
  - 네 개 판정 버킷 중 하나만 정답이라고 두면, 비만장일치 클레임 67%에서는 최소 1개 모델이 틀림
  - 3-2, 3-1-1, 다수 없음 분열을 포함한 45%에서는 최소 2개 모델이 틀림
  - 다수가 없는 13%에서는 어떤 버킷도 3표에 도달하지 못하므로 최소 3개 모델이 틀림
  - 5개 모델이 모두 동의한 33% 안에도 공유된 사각지대가 있을 수 있음
- 패널 합의도는 **Krippendorff’s α(ordinal)=0.639**였음
  - 모델 판정은 무작위에 가깝지는 않지만, 5개 모델을 하나의 상호교환 가능한 판정자로 볼 만큼 일관적이지도 않았음
  - True / Mostly True / Misleading / False가 순서형 범주이므로 순서형 α를 사용함

### 뉘앙스 차이와 실질적 불일치
- 1,000개 클레임 중 **343개, 34%**(95% CI 31–37%)에서 최소 두 모델의 판정이 4단계 루브릭상 2칸 이상 벌어졌음
  - True와 Mostly True의 차이는 신뢰도 보정에 가까운 뉘앙스 차이로 다룸
  - True와 False의 차이는 답 자체가 갈린 실질적 불일치로 다룸
- 측정은 5개 판정의 **최대 쌍대 버킷 거리**로 계산됨
  - 판정 순서는 `True (0) → Mostly True (1) → Misleading (2) → False (3)`임
  - 거리 0은 328개, 33%(95% CI 30–36%)로 5개 모델이 모두 같은 버킷을 고른 경우임
  - 거리 1은 329개, 33%(95% CI 30–36%)로 True ↔ Mostly True 같은 뉘앙스 차이에 해당함
  - 거리 2는 132개, 13%(95% CI 11–15%)로 True ↔ Misleading 또는 Mostly True ↔ False 같은 실질적 불일치임
  - 거리 3은 211개, 21%(95% CI 19–24%)로 True ↔ False의 극단적 분열임
- **버킷 거리**는 오류 크기의 정밀한 척도가 아니라 거친 지표임
  - True / Mostly True / Misleading / False를 등간격 순서 척도로 보는 단순화가 들어감
  - 2칸 차이는 루브릭 모호성, 시간 기준 차이, “Misleading” 해석 차이에서도 생길 수 있음

### 모델 간 일치율
- 5개 모델 쌍의 라벨 일치율은 **53%~75%** 범위였음
  - 가장 높은 일치율은 **Gemini 3 Pro × Gemini 3 Pro + Search**의 75%(95% CI 72–77%)였고, 두 모델은 같은 기반 모델을 공유함
  - 가장 낮은 일치율은 53%(95% CI 50–56%)로 세 쌍에서 나타남
- 주요 쌍별 일치율
  - GPT-5.4 × Claude Opus 4.7: 65%(95% CI 62–68%)
  - GPT-5.4 × Gemini 3 Pro: 65%(95% CI 62–68%)
  - GPT-5.4 × Gemini 3 Pro + Search: 60%(95% CI 57–63%)
  - GPT-5.4 × Sonar Pro: 60%(95% CI 57–63%)
  - Claude Opus 4.7 × Gemini 3 Pro: 53%(95% CI 50–56%)
  - Claude Opus 4.7 × Gemini 3 Pro + Search: 53%(95% CI 50–56%)
  - Claude Opus 4.7 × Sonar Pro: 58%(95% CI 55–61%)
  - Gemini 3 Pro × Sonar Pro: 53%(95% CI 50–56%)
  - Gemini 3 Pro + Search × Sonar Pro: 58%(95% CI 55–61%)

### 모델별 판정 경향
- ## 판정 분포
  - 모델마다 True/False 양극에 몰리는 정도와 Mostly True/Misleading 중간 버킷을 쓰는 정도가 달랐음
  - 정답 라벨이 없기 때문에 모델의 사전 경향과 클레임 특성의 영향을 분리할 수 없음
  - **GPT-5.4**: True 42%(95% CI 39–45%), Mostly True 16%(14–19%), Misleading 12%(10–14%), False 30%(28–33%)
  - **Claude Opus 4.7**: True 38%(35–41%), Mostly True 26%(23–29%), Misleading 19%(17–22%), False 17%(15–20%)
  - **Gemini 3 Pro**: True 54%(51–57%), Mostly True 3%(2–4%), Misleading 3%(2–4%), False 40%(37–43%)
  - **Gemini 3 Pro + Search**: True 52%(49–55%), Mostly True 4%(3–5%), Misleading 9%(7–11%), False 35%(32–38%)
  - **Sonar Pro**: True 35%(32–38%), Mostly True 23%(21–26%), Misleading 16%(14–18%), False 26%(23–28%)
- ## 나머지 패널 다수와의 일치
  - 각 모델이 나머지 4개 모델 중 3개 이상이 만든 엄격한 다수와 같은 판정을 낸 비율은 **69%~81%** 였음
  - 이 값은 해당 코퍼스에서의 동료 정렬도이며 정확성이 아님
  - 계산에는 나머지 4개 모델이 3/4 이상 다수를 형성한 클레임만 포함되어, 모델별 eligible n이 다름
  - GPT-5.4: 81%(95% CI 78–84%), eligible n=650, ineligible=350
  - Claude Opus 4.7: 70%(95% CI 67–74%), eligible n=691, ineligible=309
  - Gemini 3 Pro: 77%(95% CI 74–80%), eligible n=683, ineligible=317
  - Gemini 3 Pro + Search: 76%(95% CI 73–79%), eligible n=693, ineligible=307
  - Sonar Pro: 69%(95% CI 66–73%), eligible n=675, ineligible=325

### 영역별 불일치
- 영역별 분모는 해당 영역의 클레임 수이며, 대부분의 영역에서 **불일치율**이 절반을 크게 넘었음
  - Finance: 75개, 임의 불일치 67%(95% CI 55–76%), 실질적 불일치 39%(28–50%), 다수 없음 20%(13–30%)
  - General: 179개, 임의 불일치 68%(60–74%), 실질적 불일치 40%(33–48%), 다수 없음 12%(8–17%)
  - Health: 171개, 임의 불일치 71%(64–78%), 실질적 불일치 29%(23–36%), 다수 없음 12%(8–17%)
  - History: 131개, 임의 불일치 53%(44–61%), 실질적 불일치 24%(17–32%), 다수 없음 13%(8–20%)
  - Legal: 48개, 임의 불일치 77%(63–87%), 실질적 불일치 40%(27–54%), 다수 없음 19%(10–32%)
  - Politics: 168개, 임의 불일치 70%(62–76%), 실질적 불일치 38%(31–46%), 다수 없음 8%(5–13%)
  - Science: 151개, 임의 불일치 68%(60–75%), 실질적 불일치 36%(29–44%), 다수 없음 21%(15–28%)
  - Tech: 77개, 임의 불일치 69%(58–78%), 실질적 불일치 31%(22–42%), 다수 없음 8%(4–16%)
- 영역 구분은 Lenz의 트래픽 패턴을 반영하며, 모든 팩트체크 가능 클레임을 균등 표본추출한 결과가 아님

### 판정 버킷별 합의
- 패널이 **중간 버킷**에 도달할 때는 거의 수렴하지 않았음
  - Mostly True와 Misleading의 다수 판정에서 만장일치는 각각 최대 5% 수준에 그침
  - True와 False 다수 판정의 만장일치 비율은 각각 47%, 43%였음
- 엄격한 3/5 이상 다수가 해당 판정을 낸 클레임 기준
  - True: eligible n=438, 만장일치 47%(95% CI 42–51%), 3~4표 다수 53%(49–58%)
  - Mostly True: eligible n=76, 만장일치 0%(95% CI 0–5%), 3~4표 다수 100%(95% CI 95–100%)
  - Misleading: eligible n=74, 만장일치 5%(95% CI 2–13%), 3~4표 다수 95%(87–98%)
  - False: eligible n=280, 만장일치 43%(95% CI 37–49%), 3~4표 다수 57%(51–63%)
- 5개 모델이 모두 같은 판정을 낸 328개 클레임도 양극에 몰렸음
  - True: 204개, 만장일치 중 62%(95% CI 57–67%)
  - Mostly True: 0개, 0%(95% CI 0–1%)
  - Misleading: 4개, 1%(95% CI 0–3%)
  - False: 120개, 37%(95% CI 32–42%)
- [17,856개 PolitiFact 클레임에 대한 단일 계열 Llama-3 절제 연구, Schwab et al. 2025](https://arxiv.org/abs/2502.08909)에서도 정교한 라벨에서 팩트체크 판정 모델의 오류가 집중되는 관련 결과가 나옴

### 데이터셋과 제외 기준
- 분석 대상은 **1,000개 클레임**임
  - [Lenz](https://lenz.io/) 팩트체크 플랫폼에 제출된 실제 사용자 요청 중 제외 조건을 통과한 가장 최근 클레임임
  - 모든 클레임은 2026년 2월 15일 이후에 생성됨
  - **Lenz 자체 판정**은 분석에 사용되지 않았고, 분석은 Lenz와 프런티어 모델의 비교가 아니라 프런티어 모델 간 불일치만 측정함
- `atomic_claim` 필드는 사용자가 입력한 원문이 아니라 Lenz의 [프레이밍 단계](https://lenz.io/how-it-works)를 거쳐 정리된 중립적·검증 가능 명제임
  - 예를 들어 “Canadian authorities are throwing Christians in jail for quoting the Bible!!!”라는 입력은 “As of April 4, 2026, Canadian authorities have jailed individuals for publicly quoting the Bible because of their Christian beliefs.”라는 명제로 바뀜
- 제외된 클레임
  - 제출자가 비공개로 표시한 클레임
  - 플랫폼 직원, 내부 계정, 에이전트/API 제출 클레임
  - 편집 상태가 `pending` 또는 `hidden`인 클레임
  - 공개 인물이 아닌 개인에 대한 개인정보를 포함해 Lenz의 PII 스크리닝 단계에서 자동 플래그된 클레임
  - OpenAI `text-embedding-3-small` 1536차원 임베딩의 `atomic_claim` 간 코사인 거리 `0.2` 이내인 근접 중복 클레임
  - 5개 모델 중 하나라도 한 번의 재시도 후에도 파싱 가능한 판정을 내지 못한 클레임
  - 수집 시점 기준 180일보다 오래된 클레임
- 근접 중복에서는 시간 의존적 명제의 경우 더 최신 클레임을, 그 외에는 Lenz에서 조회수가 가장 많은 기존 클레임을 대표 행으로 삼음

### 방법론
- ## 모델과 프롬프트
  - **파라메트릭 모델**: GPT-5.4(OpenAI), Claude Opus 4.7(Anthropic), Gemini 3 Pro(Google)
  - **검색 증강 모델**: Gemini 3 Pro + Search(Google), Sonar Pro(Perplexity)
  - 각 클레임은 제출일에 맞춘 “as of YYYY-MM-DD” 기준일과 함께 제시됨
  - 모델은 `True`, `Mostly True`, `Misleading`, `False` 중 하나를 강제로 선택해야 했음
```text
Classify this claim as of &lt;date&gt;: "&lt;atomic claim&gt;"

Output exactly one label: True, Mostly True, Misleading, or False.
No explanations, no qualifiers.
```
  - Abstain 선택지는 제공하지 않았고, 강제 선택으로 모델 간 비교를 대칭적으로 유지함
- ## 호출 설정과 채점
  - 모든 모델은 같은 시스템 플레이스홀더 `.`와 같은 사용자 프롬프트 템플릿 `usr_v2`를 받음
  - 구조화 출력 스키마, 도구 호출 스키마, seed, top-p, logit-bias 제어는 사용하지 않음
  - 지원되는 경우 결정론적 디코딩을 요청해 `temperature=0.0`을 사용함
  - GPT-5.4와 Claude Opus 4.7은 제공자 어댑터가 커스텀 temperature 설정을 거부해 명시적 temperature 없이 호출됨
  - GPT-5.4, Claude Opus 4.7, Sonar Pro는 출력 길이를 16토큰으로 제한했고, Gemini 3 Pro와 Gemini 3 Pro + Search는 1024토큰 제한을 사용함
  - Gemini 3 Pro + Search는 Google Search grounding을 켰고, Sonar Pro는 Perplexity의 search-backed API를 통한 검색 증강 모델로 다룸
  - 정규화 후 네 개 라벨 중 정확히 하나와 일치해야 파싱 가능한 출력으로 인정됨
  - **LLM 채점기**와 참조 정답 라벨은 사용하지 않았고, 모든 측정은 5개 모델의 직접 파싱 라벨 일치에서 나옴
- ## 통계 처리
  - 코퍼스는 단일 팩트체크 플랫폼에 제출된 가장 최근 1,000개 eligible 클레임이며, 더 넓은 모집단의 확률표본이 아님
  - Wilson 95% 신뢰구간은 같은 선별 규칙을 따르는 유사한 eligible 제출 흐름에서 각 클레임이 독립적으로 뽑힌다는 모델하의 명목 이항 구간임
  - Lenz 클레임은 뉴스 이벤트 주변으로 제출이 몰리고, 같은 사용자가 한 세션에서 관련 클레임을 여러 개 제출할 수 있어 독립동일분포가 아님
  - 더 정직한 클러스터 모델에서는 실제 표본 변동성이 Wilson 구간보다 커질 가능성이 있음
  - 모델 간 유의성 검정은 하지 않고, 쌍별 일치율과 Wilson 95% CI를 기술 통계로 보고함

### 재현성과 공개 산출물
- 전체 클레임별 데이터는 [CSV](https://lenz.io/research/llm-disagreement/data.csv)로 제공됨
  - 각 행에는 claim ID와 URL, atomic claim 텍스트, 5개 프런티어 판정, 최대 쌍대 버킷 거리, 영역, 생성일이 포함됨
  - 제출자가 이후 클레임을 삭제하거나 비공개로 바꾸면 일부 페이지는 사용할 수 없을 수 있음
- [PDF](https://lenz.io/research/llm-disagreement/pdf)는 오프라인 읽기, 인용, arxiv 스타일 프리프린트 호스팅을 위한 브라우저 독립 렌더링본임
- 스냅샷은 **v1.0**이며 데이터 기준일은 2026년 5월 21일임
  - 아카이브 URL `https://lenz.io/research/llm-disagreement/v1.0`은 v1.0 스냅샷을 영구 제공함
  - 일반 URL이 향후 버전으로 바뀌어도 인용 안정성을 유지함
- 영구 기록과 인용은 [doi.org/10.5281/zenodo.20344847](https://doi.org/10.5281/zenodo.20344847)에서 제공됨

### 한계
- **비둘기집 원리 기반 오류 하한**은 루브릭 불일치의 하한이지, 특정 클레임에서 어떤 모델이 사실적으로 틀렸다는 판정이 아님
  - 네 개 버킷 중 하나만 정답일 수 있으므로 어떤 불일치든 최소 하나의 일관되지 않은 판정을 뜻함
  - 하지만 어떤 모델이 어떤 클레임에서 틀렸는지는 알 수 없음
- **버킷 거리의 순서성**은 단순화임
  - True / Mostly True / Misleading / False를 등간격 순서 척도로 취급함
  - 2칸 차이는 루브릭 모호성, 시간 기준 차이, “Misleading” 해석 차이에서 비롯될 수 있으며, 반드시 더 큰 사실 오류를 뜻하지 않음
- 판정 모호성은 LLM만의 문제가 아니라 **과제 자체의 속성**이기도 함
  - [AVeriTeC](https://arxiv.org/abs/2305.13117)은 50개 팩트체크 조직을 기준으로 다중 라운드 검토를 거친 4,568개 클레임 코퍼스이며, 판정의 주석자 간 합의가 κ=0.619에 머묾
  - 프런티어 모델 불일치 중 일부는 어떤 평가자에게도 어려운 라벨 자체의 특성을 반영함
- 스냅샷은 특정 날짜와 특정 모델 버전에 고정됨
  - 프런티어 LLM은 비결정적이므로 같은 모델과 프롬프트로 다시 실행해도 수치가 어느 정도 달라질 수 있음
  - 새 모델이나 다른 프롬프트로 재실행하면 수치가 더 많이 움직일 수 있음
- 검색 지원 모델은 추론 시점에 출처를 조회했을 수 있지만, 무엇을 검색했는지는 통제하거나 감사하지 않음

### 기존 연구와 후속 계획
- [Yang & Wang (2026)](https://arxiv.org/abs/2602.11898)은 최상위 프런티어 모델들이 총 정확도를 맞춘 상태에서도 MMLU-Pro와 GPQA 항목의 16~38%에서 불일치함을 보임
- 실제 클레임 검증의 엄격한 인간 주석 기준점으로는 [AVeriTeC](https://arxiv.org/abs/2305.13117)이 제시됨
- 더 큰 팩트체크 코퍼스로는 [단일 계열 Llama-3 절제 설정의 17,856개 PolitiFact 클레임](https://arxiv.org/abs/2502.08909)이 있음
- Lenz 코퍼스는 지난 180일의 실제 사용자 제출이고, lenz.io에만 색인되어 있으며, 공개 학습 세트에서 표준 판정과 짝지어진 적이 없음
- 후속 연구는 같은 코퍼스 전체를 사람이 라벨링하고, 그 라벨을 정답으로 삼아 5개 프런티어 모델과 Lenz 자체 판정을 평가할 예정임
- 목표는 리더보드가 아니라 프런티어 패널이 인간 합의에서 벗어나는 위치, Lenz가 둘 모두에서 벗어나는 위치, 어떤 범주가 불일치를 유발하는지를 분석하는 것임

### 윤리와 데이터 사용
- 사용한 필드는 공개 클레임 필드인 **atomic claim 텍스트**와 생성일뿐임
  - 개인정보는 사용하지 않음
  - 비공개 클레임과 직원 클레임은 제외됨
  - 프런티어 모델에는 클레임 텍스트와 기준일만 제공되며, 제출자 신원이나 분석 신호는 제공되지 않음
- 제출자가 나중에 클레임을 비공개화하거나 삭제하면 해당 클레임은 스냅샷과 향후 다운로드에서 제거될 수 있음

### 프런티어 패널이 크게 갈린 예시
- 부록은 최고 버킷과 최저 버킷 사이의 간격이 가장 큰 20개 클레임을 제시함
  - 최소 한 모델의 판정이 다른 모델보다 2칸 이상 떨어진 실질적 불일치 클레임임
  - 최대 쌍대 버킷 거리 내림차순으로 정렬하고, 다수 없음 사례를 먼저 tie-break한 뒤 claim ID의 안정 해시로 정렬함
- 대표적인 **거리 3·다수 없음** 사례
  - [Muthiah Muralidaran이 Indian Premier League는 순수한 비즈니스이고 낮은 점수 경기는 스폰서에게 지루해 평평한 피치가 준비된다고 말했다는 클레임](https://lenz.io/c/muthiah-muralidaran-ipl-flat-pitches-sponsors-d3a2982b): GPT-5.4 True, Claude Opus 4.7 Mostly True, Gemini 3 Pro False, Gemini 3 Pro + Search Misleading, Sonar Pro Misleading
  - [2025년 기준 Nigeria에서 World Bank의 active portfolio가 164억 달러를 넘는다는 클레임](https://lenz.io/c/world-bank-active-portfolio-nigeria-2025-f335b39b): GPT-5.4 Mostly True, Claude Opus 4.7 True, Gemini 3 Pro False, Gemini 3 Pro + Search Misleading, Sonar Pro Misleading
  - [긍정적 감정 내용이 적은 음악을 선호하는 사람이 지능이 더 높은 경향이 있다는 클레임](https://lenz.io/c/music-preference-low-positive-emotion-higher-intelligence-99b3cabf): GPT-5.4 Misleading, Claude Opus 4.7 Mostly True, Gemini 3 Pro False, Gemini 3 Pro + Search True, Sonar Pro Misleading
  - [Kota, Rajasthan의 호스텔이 학생 자살 예방 조치로 케이지형 천장 선풍기를 흔히 사용한다는 클레임](https://lenz.io/c/kota-rajasthan-hostels-caged-fans-student-suicide-prevention-d3ea3ea1): GPT-5.4 Mostly True, Claude Opus 4.7 True, Gemini 3 Pro False, Gemini 3 Pro + Search Misleading, Sonar Pro False
  - [2026년 5월 6일 기준 여러 국가의 무슬림들이 India West Bengal의 Hooghly district에 모였다는 클레임](https://lenz.io/c/muslims-multiple-countries-gathered-hooghly-2026-15005cba): GPT-5.4 True, Claude Opus 4.7 Mostly True, Gemini 3 Pro False, Gemini 3 Pro + Search Misleading, Sonar Pro True

## Comments


### Comment 58498

- Author: neo
- Created: 2026-05-29T09:33:09+09:00
- Points: 1

###### [Hacker News 의견들](https://news.ycombinator.com/item?id=48307887) 
- 사용한 프롬프트는 다음과 같았음: `Classify this claim as of : ""` / `Output exactly one label: True, Mostly True, Misleading, or False. No explanations, no qualifiers.`  
  주장 목록은 [https://lenz.io/research/llm-disagreement/data.csv](<https://lenz.io/research/llm-disagreement/data.csv>)에 있고, 탐색하기 쉽게 Datasette Lite에 넣어 둠. 불일치 예시는 [https://lite.datasette.io/?csv=https%3A%2F%2Fstatic.simonwil...](<https://lite.datasette.io/?csv=https%3A%2F%2Fstatic.simonwillison.net%2Fstatic%2Fcors-allow%2F2026%2Flenz-llm-disagreement.csv#/data/lenz-llm-disagreement/2>)임  
  “모든 아몬드는 미국 캘리포니아주에서 재배된다”라는 주장은 거짓이지만, Opus 4.7만 “misleading”이라고 답함. “mostly true”와 “misleading”을 넣어 둔 데다 “설명 금지” 규칙까지 있으니 이야기의 힘이 약해짐  
  더 나은 예로 “불완전한 이집트 비자 신청서는 이집트 비자 신청이 거절되는 가장 흔한 이유 중 하나다”는 모델들이 “true”와 “mostly true”로 갈렸는데, “among the most”라는 표현상 둘은 사실상 같은 뜻임  
  더 결정적인 예로 “2026년 5월 18일 우크라이나가 러시아 모스크바에 드론 공격을 수행했다”는 검색 도구가 없으면 정답은 “검증할 수 없음”뿐인데, 그런 선택지가 없었고 답은 true/false로 갈림: [https://lite.datasette.io/?csv=https%3A%2F%2Fstatic.simonwil...](<https://lite.datasette.io/?csv=https%3A%2F%2Fstatic.simonwillison.net%2Fstatic%2Fcors-allow%2F2026%2Flenz-llm-disagreement.csv#/data/lenz-llm-disagreement/76>)
  * 각 평가자에게 **True / Mostly True / Misleading / False**의 정의를 주지 않았다면, “주장 하나에는 정답 범주가 하나뿐”이라는 글의 주장 자체를 false로 보겠음  
    어떤 주장은 동시에 “misleading”이면서 true 또는 false일 수 있음. “대체로 거짓”인 경우는 어느 범주에 넣어야 하는지도 불명확함  
    얼마나 틀려야 “mostly true”에서 “false”로 넘어가는지도 기준이 없음. 결국 사실 이해가 아니라 모델이 **mostly**와 **misleading**을 어떻게 정의하는지까지 시험하는 셈이라, 모델들이 사실 자체에 근본적으로 불일치한다고 말하는 건 과장임
  * 또 다른 치명적인 오류는 **모델 내부 분산**을 측정하려 하지 않았다는 점임  
    엄격한 평가를 실제로 연결해 보면 웹 검색 같은 도구 호출에서는 인프라 문제, 일시적 실패, 온갖 비결정성이 그대로 들어옴  
    검색 없는 3개 모델과 검색 에이전트를 나눠 수치를 보여 줬어야 함. 지식 기준일 이후의 최신 사실 주장에 대해 검색 없는 모델은 사실상 의미가 약하고, “모르겠다” 선택지가 없어서 결과가 완전히 무효에 가까움. 모르는데도 말할 수 없으니 그럴듯한 답을 찍는 셈임  
    강제 선택과 “약한/강한” 변형이 헤드라인 수치를 부풀린다는 데도 동의함. 이런 구분을 하려면 훨씬 엄격한 프롬프트가 필요하고, “mostly”가 무슨 뜻인지 모델에 맡기지 않도록 문맥 내 예시(ICL)도 들어가야 할 가능성이 큼
  * “대다수”가 Wikipedia 기준으로 약 51%라는 뜻이라면[1], 51%가 어떻게 “전부”에 가깝다고 볼 수 있어서 “misleading”이 유효한 답이 될 수 있는지 모르겠음  
    뭔가 놓친 게 있는지 궁금함  
    [1]: [https://en.wikipedia.org/wiki/Almond#Production](<https://en.wikipedia.org/wiki/Almond#Production>)
  * Opus 4.7이 다른 모델보다 더 **유보적 답변**을 많이 한다는 느낌이 있었는데, 실제로 맞았음  
    `claude-opus-4-7`은 1000개 중 451개, 45.1%였고 `sonar-pro`는 39.1%, `gpt-5.4`는 27.7%, `gemini-3-retrieval`은 12.9%, `gemini-3-pro`는 6.0%였음  
    Datasette 쿼리는 여기 있음: [https://lite.datasette.io/?csv=https%3A%2F%2Fstatic.simonwil...](<https://lite.datasette.io/?csv=https%3A%2F%2Fstatic.simonwillison.net%2Fstatic%2Fcors-allow%2F2026%2Flenz-llm-disagreement.csv#/data?sql=WITH+verdicts+AS+%28%0A++SELECT+claim_id%2C+%27gpt-5.4%27+AS+model%2C+%22gpt-5.4_verdict%22+AS+verdict%0A++FROM+%22lenz-llm-disagreement%22%0A%0A++UNION+ALL%0A++SELECT+claim_id%2C+%27claude-opus-4-7%27%2C+%22claude-opus-4-7_verdict%22%0A++FROM+%22lenz-llm-disagreement%22%0A%0A++UNION+ALL%0A++SELECT+claim_id%2C+%27gemini-3-pro%27%2C+%22gemini-3-pro_verdict%22%0A++FROM+%22lenz-llm-disagreement%22%0A%0A++UNION+ALL%0A++SELECT+claim_id%2C+%27gemini-3-retrieval%27%2C+%22gemini-3-retrieval_verdict%22%0A++FROM+%22lenz-llm-disagreement%22%0A%0A++UNION+ALL%0A++SELECT+claim_id%2C+%27sonar-pro%27%2C+%22sonar-pro_verdict%22%0A++FROM+%22lenz-llm-disagreement%22%0A%29%0ASELECT%0A++model%2C%0A++COUNT%28*%29+AS+total_claims%2C%0A++SUM%28CASE+WHEN+verdict+NOT+IN+%28%27True%27%2C+%27False%27%29+AND+verdict+IS+NOT+NULL+THEN+1+ELSE+0+END%29+AS+hedged_count%2C%0A++ROUND%28%0A++++100.0+*+SUM%28CASE+WHEN+verdict+NOT+IN+%28%27True%27%2C+%27False%27%29+AND+verdict+IS+NOT+NULL+THEN+1+ELSE+0+END%29+%2F+COUNT%28*%29%2C%0A++++1%0A++%29+AS+hedged_pct%0AFROM+verdicts%0AGROUP+BY+model%0AORDER+BY+hedged_count+DESC%3B>)
  * LLM을 **신탁처럼** 쓸 거라면 이 프롬프트가 불합리하다고 보진 않음. LLM은 천재처럼 팔리고 있고, 사람들도 특히 과학소설 속 AI가 지나치게 정확한 존재로 그려지는 탓에 그렇게 대함  
    “천재급 지능”을 가진 완벽한 도구라면 올바르게 답해야 함

- “외계 생명체는 우주 어딘가에 존재한다”라는 주장에서 GPT-5.4와 Opus 4.7은 Misleading, Gemini 3와 Gemini 3 (Retrieval), Sonar Pro는 FALSE라고 답함  
  이상한 사실 주장임. 실제 정답은 **아무도 확실히 모른다**인데, 그 선택지가 없음
  * 이 불일치가 문제를 보여 준다고 하는 건 더 이상함. 이 주제에 대해 지식이 많은 인간 5명에게 객관식으로 정답을 고르라고 하면, 이 5개 LLM보다 훨씬 더 크게 갈릴 가능성이 큼  
    환각이 문제가 아니라는 뜻은 아니지만, 이건 그것을 시험하는 방식으로 형편없음
  * 주어진 선택지 중에서는 “Misleading”이 아마 최선임. 증명되지는 않았지만 매우 그럴듯한 내용을 사실처럼 제시했기 때문임  
    다만 **unknown 또는 undecidable** 범주가 있어야 했음
  * 이런 패턴이 계속 보이고, **벤치마크**로는 매우 부실해 보임. 기대했던 주장들이 전혀 아님
  * 그렇다면 여기서는 misleading이 맞는 선택지 아닌가?
  * “misleading”이 어떻게 “unknown”을 대체할 수 있는지 모르겠음

- “이건 공개 정답표가 있는 벤치마크 항목이 아니라, 실제 사용자가 팩트체킹 플랫폼에 검증 요청한 주장들”이라는 부분은 좋음  
  다만 저자들이 보고서 자체를 작성하고 만드는 데 **LLM을 얼마나 썼는지** 정확히 밝히지 않으면 이게 얼마나 의미 있는지 모르겠음. “11. Ethics & data use” 섹션까지 있고 LLM의 무오류성 비슷한 주제를 다루면서도, 보고서 제작에 LLM을 사용했는지는 한 번도 나오지 않음
  * 데이터 수집과 처리는 수작업으로 했고, LLM은 보고서 초안 작성에 도움을 줌. 출판 전에는 모두 사람이 검토했음

- 이 실험이 여러 면에서 결함이 있다는 건 모두 **TRUE**라고 동의할 수 있을 듯함  
  그래도 사람들이 LLM을 사용할 때 저지르는 흔한 실수를 찾아내는 훌륭한 연습임. 프롬프트 엔지니어링 직무 면접 질문으로 좋을 것 같음

- 모델들이 날마다 더 **인간적**이 되어 감
  * 요즘은 많은 인간도 무엇이 사실인지 합의하지 못함. 점점 나빠지는 것 같고, 해결책은 잘 모르겠음

- Goodhart의 법칙 때문에 이 “벤치마크”는 며칠, 길어야 몇 주 안에 무의미해질 것임  
  다시 학습에 흡수되고 “해결된” 것처럼 보이겠지만, 추론이 생기는 게 아니라 새 “문제”에 조명이 비춰졌기 때문에 통계적으로 더 그럴듯한 정답성이 늘어날 뿐임. 그러고 나면 이게 “모든 것을 바꿀” 엄청난 “진보”라고 떠들썩해질 것임  
  덧붙이면, 기업 전략과 PR 학위가 있을 수도 없을 수도 있음
  * 그런 효과는 있지만 치명타는 아님. 실제 제품 트래픽 기반의 **비공개 벤치마크**도 많고, 오염되지 않은 공개 문제도 있음  
    연구소 사람들은 대체로 자신들이 뭘 하는지 알고 있고, 이런 문제를 모르는 게 아님
  * 인간 지능도 마찬가지 아닌가? 아는 똑똑한 사람들 중에도 명확한 진리값이 없어 보이는 믿음을 가진 사람이 많음

- 왜 **Grok**을 제외했는지 모르겠음. Grok이 훈련되는 방식의 철학적 차이가 공개되어 있으니 흥미로운 데이터 포인트가 됐을 텐데  
  그 차이에 대해 하루 종일 논쟁할 수는 있겠지만, 그것을 객관적으로 관찰할 기회를 놓친 건 아쉬움
  * 제목에 “Frontier”라고 되어 있으니 Grok은 제외될 것임  
    Grok은 많은 사람이 좋아하는 편향을 갖도록 훈련되었지만, 정확하도록 의도된 모델은 아님
  * 동의함. Grok이 얼마나 더 못할지 보면 재미있었을 듯함

- 이게 우리가 이미 모르던 무엇을 보여 주는지 모르겠음. LLM은 훈련 세트에 없는 데이터에 대한 질문에 정확한 답을 줄 수 없음  
  별 내용이 없어 보임
  * LLM은 훈련 세트에 있는 데이터에 대한 질문에도 부정확한 답을 할 수 있고, 그게 **신경망**의 본질임. 다만 데이터가 훈련 세트에 없을 때 그 가능성이 더 커질 뿐임
  * 안타깝게도 대부분은 이걸 모르고 LLM을 모든 것을 알고 모든 것을 할 수 있는 초능력 두뇌처럼 대함
  * 그렇다면 이 모델들이 매우 다른 훈련 세트를 쓰고 있고, 확신하면 안 될 때도 **높은 확신**을 보인다는 걸 보여 줌  
    “구강청결제가 효과적인가” 같은 질문은 의학 저널이라는 단단한 데이터 출처가 하나쯤 있을 것으로 보임
  * 기꺼이 대신 검색해 주고 Reddit 최상단 댓글을 답으로 줄 것임  
    이건 더 나쁨

- 왜 모두가 LLM에게 **팩트체킹**을 시키려고 그렇게 집착하는지 이해가 안 됨  
  이 기술은 그 용도가 아님. 특정 상황에서는 그럭저럭 작동할 수도 있지만, 그렇다고 잘 맞는 도구가 되는 건 아님  
  옷을 보관하려고 냉장고를 사는 것과 같음
  * Nietzsche라면 이것은 진실에 대한 환상이 아니라 안락함에 대한 환상이라고 말했을지도 모름  
    최후의 인간은 “사실 틀림” 또는 “사실 맞음”이라고 말해 주는 기계를 원함. 궁극적 진실이 없다는 심연을 곁에서 잠들 수 있을 만큼 작게 만들고 싶기 때문임
  * 사람들은 답을 얻으려고 질문함. 개인적으로는 꽤 중요하게 느껴짐. 특히 검색 엔진이 LLM 답변을 밀어붙이기 시작하면 더 그렇음
  * 하지만 사람들이 실제로 그렇게 쓰고 있음. 그래서 요점이 뭐임?

- **100% 로컬 CPU 팩트체킹**용으로 이걸 만들었음: [https://news.ycombinator.com/item?id=48301003](<https://news.ycombinator.com/item?id=48301003>)
  * 논문, 벤치마크, 하다못해 사람이 쓴 README도 없는데 왜 이걸 믿어야 함?