GPT-5.5, MIT 라이선스 GLM-5.2보다 환각률 3배

(arrowtsx.dev)

1P by GN⁺ 3시간전 | ★ favorite | 댓글 1개

대형 AI 연구소들 사이에서 무한 확장 전략에 대한 회의가 커지는 가운데, 모델 크기가 현실 정확성을 보장하지 않는다는 사례가 제시됨
MIT 라이선스 오픈 웨이트 모델인 GLM-5.2는 753B 파라미터, 약 40B 활성 파라미터로 GPT-5.5와 4점 차이까지 접근함
AA-Omniscience 환각률은 GLM-5.2 28%, GPT-5.5 86%, DeepSeek V4 Pro 94%로 나타나 불확실성 보정 격차가 성능 점수만큼 중요해짐
Python 테스트에서 DeepSeek V4 Pro는 3분 52초와 7.7k reasoning tokens를 쓰고도 틀렸고, GLM-5.2는 12초와 약 800 tokens로 기술적 불가능성을 짚어냄
모델 선택은 파라미터 수나 이론 성능만으로 판단하기 어렵고, 원시 능력·환각률·계산 효율성을 함께 봐야 함

모델 확장 전략에 대한 의심

주요 AI 연구소들 사이에서 파라미터 수와 학습 데이터 확장만으로 성능을 계속 끌어올리는 접근에 대한 회의가 커지고 있음
Claude Fable 5는 출시 3일 뒤 미국 정부에 의해 제한됐고, 국가 안보에서 비롯된 첫 미국 AI 금지 사례로 다뤄짐
- 세계 최대급 모델 중 하나가 단일 jailbreak 위험 때문에 금지됐다는 점이 확장 패러다임의 한계를 보여주는 사례로 쓰임
큰 모델은 여전히 Artificial Analysis Intelligence Index에서 높은 점수를 기록하지만, 오픈 웨이트 모델도 격차를 크게 좁힘
- Z.ai의 GLM-5.2는 753B 파라미터, 약 40B 활성 파라미터를 가진 MIT 라이선스 오픈 웨이트 LLM임
- GLM-5.2는 Artificial Analysis Intelligence Index에서 GPT-5.5와 4점, Fable 5와 9점 차이까지 접근함
- 폐쇄형 모델이 GLM-5.2보다 1.5~2배 더 큰 것으로 추정되는 상황에서, 이 격차 축소는 실제 지능의 plateau 가능성을 뒷받침함

환각률이 드러낸 불확실성 보정 문제

대량의 사실적이고 비이론적인 데이터로 학습된 모델은 모를 때도 답을 내는 방향으로 강화될 수 있음
AA-Omniscience benchmark의 환각률은 모델별 차이가 큼
- 환각률 비교: {b:94,28,36,48,86}
- DeepSeek V4 Pro: 1.6T 파라미터, 49B 활성 파라미터, AA Intelligence Index 44점, 환각률 94%
- GLM-5.2: 환각률 28%
- Opus 4.8: 환각률 36%
- Fable 5: 환각률 48%
- GPT-5.5: 환각률 86%
DeepSeek V4 Pro의 94% 환각률은 답을 찾지 못한 질문에서 “모른다”고 말한 비율이 약 6%에 그쳤고, 나머지는 확신 있게 잘못된 답을 냈다는 뜻임

Python 테스트에서 갈린 계산 효율

비교 테스트는 명확한 아키텍처 결함이 있는 비교적 복잡한 Python 질문으로 진행됨
- 두 모델 모두 high reasoning effort, temperature 1로 OpenRouter에서 테스트됨
- 시스템 프롬프트는 “You respond professionally. You are a highly capable coding assistant well-versed in Python.”임
- GLM-5.2는 Z.ai가 FP8 precision으로 제공했고, DeepSeek V4 Pro는 Baidu Qianfan이 FP8 precision으로 제공함
DeepSeek V4 Pro는 3분 52초 동안 7.7k reasoning tokens를 사용하고도 확신에 찬 잘못된 답을 생성함
GLM-5.2는 12초와 약 800 reasoning tokens만으로, single-threaded task가 yielding이나 system polling 없이 multiplexed I/O를 수행하는 것은 기술적으로 불가능하다고 판단함
reasoning budget, 말뭉치 크기, 파라미터 수를 무작정 늘리면 계산만 낭비하고 그럴듯한 오답을 만들 위험이 커짐
매우 큰 모델도 “모른다”고 말하거나 정교한 논리·기술적 오류를 인식하지 못할 수 있어, raw capability, uncertainty calibration/hallucination rate, computational efficiency를 함께 평가해야 함

GN⁺ 3시간전 [-]

Hacker News 의견들

실제 지능이 크게 정체됐고, 앞으로 더 큰 모델을 계속 학습시키면 지능이 정체될 뿐 아니라 더 나빠진다는 건 상당히 과감한 주장임
더 큰 모델과 더 많은 데이터가 곧 더 많은 환각으로 이어진다고 왜 결론 내리는지 모르겠음. 지난 몇 년간 실제로는 반대였고, 일부 모델은 여전히 더 많이 환각할 수 있지만, 현재 모델들은 더 작고 훨씬 적은 데이터로 학습된 초기 175B ChatGPT보다 훨씬 덜 환각함
주요 AI 연구소들이 끝없는 매개변수 수와 학습 데이터 확장에 회의적으로 바뀌고 있다는 인용 때문에 데이터를 언급했음. 지금 상황은 업계가 1T 미만 모델에서도 아직 뽑아낼 게 많다는 걸 본 것 같고, 다만 원하는 능력을 열려면 그 분포 안의 더 많고 고품질인 데이터가 필요해 보임
- 모델을 지금보다 더 똑똑하게 만들려면 학습할 사례와 예시가 필요한데, 인간 추론의 최상위 백분위에 가까워질수록 그런 자료가 극히 적어짐
  억지로 만든 논리 문제는 만들 수 있지만, 영어는 형식 논리가 아니라서 종종 언어 게임이 됨. “몬티 홀”류 문제도 다르게 제시하면 명백해지는, 인간에게만 흥미로운 언어 게임에 가깝다
  결국 모델 학습자는 학습 말뭉치, 즉 역사상 기록된 인간 산출물 전체의 압도적인 평범함과 싸우는 중임. 모델이 개선되면 다음 단계는 이런 한계를 넘기 위해 인간과 공동 설계되는 모델일 것임. 언어 사용 방식과 문제 해결 과정, 지금 “오케스트레이션”이라 부르는 것도 함께 진화할 것임
  거대한 문맥을 다룰 수 있고 같은 제약이 필요 없다면 현실 세계의 은유는 잘 맞지 않음. 환각과 외삽은 얼마나 다른가 같은 질문도 생김
  LLM에 대한 회의와 혼란의 상당 부분은 평균 지능의 사람이 매우 똑똑한 사람의 설명을 듣고 헛소리라 여긴 뒤, 오만하게 불친절하다고 비난하는 것과 크게 다르지 않음
  늑대가 인간 곁에 적합한 특성을 갖도록 개로 길들여졌듯, LLM도 우리의 한계, 오만함, 미적 편향과 선입견을 중심으로 진화할 것임. 대부분의 인간이 LLM에게 원하는 것은 근본적으로 지능과 합리성이 아님
- 인용문은 “더 큰 모델과 더 많은 데이터 = 더 많은 환각”이라고 말하지 않았음. 더 큰 모델은 지능이 정체된다고 했지, 더 많은 데이터나 환각 증가에 대한 말은 아니었음
  관련된 인용은 “모델이 매우 사실적이고 비이론적인 대량 데이터로 학습되면 항상 답을 내는 법을 배운다”는 부분임
  따라서 별개의 주장은 두 가지임. 1) 더 큰 모델은 성과가 정체된다 2) 더 많은 사실 데이터로 학습한 모델은 환각률이 높다
  1번은 잘 알려진 내용에 가까움. OpenAI의 확장 법칙 연구도 몇 년 전부터 매개변수 수와 학습 데이터량의 수확 체감을 보였던 것으로 기억함. 2번은 원문 내용 외에 어떤 근거가 있는지는 모르겠음
- 환각은 연산량과 메모리 용량에도 크게 영향받지 않나? 회사들은 에이전트식 구조에서 결과 검증에 더 많은 시간을 쓰고, 사고 토큰을 더 많이 쓰고, 양자화를 덜 할 수 있음. 이런 것들은 모두 연산량과 메모리에 크게 의존하지만 환각을 줄이는 것으로 입증됐음
  어쩌면 GPT-5.5가 연산량, 메모리, 에너지 부족 때문에 크게 제한된 것일 수도 있음
  더 큰 모델이 정체됐다고 결론 내리는 건 과장돼 보인다는 데 동의함
- 주요 AI 연구소들이 끝없는 매개변수 수와 학습 데이터 확장에 회의적으로 바뀐 건 대체로 학습 데이터 품질 때문일 가능성이 큼. 왜 이런 논의에서 이게 잘 언급되지 않는지 모르겠음
  처음부터 명백했듯, 확장 법칙은 기저 데이터에 기술된 능력 일부를 가능하게 했고, 인공 신경망이 그것을 잠재 공간에서 추상화하게 해줬을 뿐임
- 그건 과적합 아닌가? 데이터는 더 많지만, 그 데이터에 없는 걸 물으면 환각이 생기는 식임
이게 “최소 실행 가능 LLM”의 모습인지 궁금함. LLM이 얼마나 커야, 그다음부터는 더 큰 문맥 창과 PDF나 Markdown 파일 같은 동적 지식 콘텐츠를 밀어 넣어서 학습 데이터 밖 지식을 줄 수 있는지 자주 생각함
LLM에는 더 많은 데이터가 필요한 게 아니라 더 잘 다듬는 과정이 필요한 것 같음
환각은 겉보기에는 RLVR로 겨냥하기 쉬운 문제처럼 보임. 이미 정답으로 검증되는 엄청난 양의 추론 흔적을 생성하고 있으니, “모르겠다”를 유효한 답으로 넣고, 수천 개 추론 흔적 중 어느 것도 정답에 도달하지 못한 문제에서는 “모르겠다”에 도달한 흔적을 학습 데이터로 승격하면 됨
본질적으로 모델에게 “모르겠다”가 유효한 답이라고 가르치는 것임
Sam Altman도 예전에 이 생각을 암시하는 블로그 글을 썼던 것 같아서 모두에게 명백한 아이디어일 것임. 그렇다면 실제로는 생각만큼 쉽지 않다고 봐야 할 듯함
- 거의 모든 벤치마크가 정답이면 1점, 나머지는 0점으로 정확도를 측정하기 때문임. 확신이 10%인 질문 100개에 전부 “모르겠다”라고 답하면 0점이지만, 전부 자신 있게 답하면 기대값이 10점임. 그래서 대부분의 AI는 그렇게 학습됨
  무작위 추측이 모든 질문에 “모르겠다”라고 답하는 것보다 평균 점수가 낮아지는 AI 벤치마크는 내가 아는 한 AA-Omniscience뿐임
- 문제는 LLM의 출력과 도구가 그것을 해석하는 방식에 있다고 봄. 출력은 가능한 모든 다음 토큰의 확률 분포임. 모든 토큰의 확률이 매우 낮아도 전체 확률 합이 1이 되도록 정규화됨. 그 단계 이후에는 모델이 특정 토큰을 강하게 선호한 건지, 증폭된 잡음을 보고 있는 건지 구분하기 어려움
  별도의 “모르겠다” 토큰을 학습한다는 건 다른 모든 토큰 사이에 해자를 만들어야 한다는 뜻임. “예”와 “아니오” 사이에 둘 다 상대적으로 높은 확률을 갖는 흐릿한 잡음 영역이 있는 게 아니라, “모르겠다”가 더 높은 새로운 봉우리가 필요함. 그러면 다시 “예”와 “모르겠다”, “모르겠다”와 “아니오” 사이에 새로운 흐릿한 영역이 생김. 그 사이에 또 다른 답을 학습하려면 훨씬 더 정교해야 함
  대신 여러 선택지가 거의 같은 확률인지 확인할 수는 있음. 하지만 상위 두 선택지가 “Genève”와 “Geneva”처럼 사실상 동의어라서 모델이 답을 안다는 좋은 신호인지, 아니면 “예”와 “아니오”인지도 확인해야 함
- 핵심 문제는 환각 억제가 일반화되지 않는다는 것임. 다양한 질문에서 틀린 답을 벌줄 수는 있지만, 그것이 일관된 세계관의 출현으로 이어지지는 않음. 논리 능력과 결합된 일관된 세계관만이 환각에 대한 진정한 해결책임
  현재 구조에서는 열린 영역 작업에서 환각이 영원히 남을 가능성이 큼
- 그렇게 단순하지 않음. 이 질문이 궁금해서 예전에 정확히 이걸 목표로 LLM을 학습해 봤음
  작업은 단순했음. 질의, 검색 결과, 답변을 포함한 MS-MARCO[0] 데이터셋을 사용해 학습 세트를 만들었음. 1) 실제 근거 결과와 일부 무관한 결과를 섞고 정답을 붙인 질문 2) 무관한 결과만 붙이고 답을 “No answer present”로 둔 질문
  데이터셋은 거의 100만 샘플로 컸고, SFT처럼 데이터셋을 따라 하게 하는 방식부터 같은 사용자 질의에 대한 좋은 답과 나쁜 답을 대비시키는 DPO, 답 존재 여부 주석을 검증하는 GRPO까지 여러 기법으로 학습했음
  결과적으로 환각이 줄지 않고 오히려 훨씬 나빠졌음. 이제 모델은 답이 실제로 있어도, 또는 애초에 검색 결과가 필요 없는 간단한 질문, 예를 들어 X+Y 같은 문제에서도 “No answer present”라고 주장하기 시작했음
  물론 내 학습은 최전선 연구소들이 할 수 있는 것에 비하면 기본적이었다고 말할 수 있음. 그래도 더 근본적인 한계를 암시한다고 봄. LLM은 까다롭고, “검색 결과 목록을 보고, 사용자 질의와의 관련성을 확인하고, 답변 관련성이 특정 임계값보다 낮으면 답에 쓰지 않는다” 같은 것을 제1원리에서 깔끔히 이해하지 못함
  요약하면 생각만큼 단순하지 않고, 어쩌면 달성 불가능할 수도 있음
  0: https://huggingface.co/datasets/microsoft/ms_marco
- 그런 보상 함수를 쓸 수 있다면 LLM이 필요 없고, 그 보상 함수에 질의해서 어떤 질문이든 답하면 됨. 벤치마크를 만들고 자동 확인은 할 수 있지만, 일반적인 경우에는 해결할 수 없음. 모델은 벤치마크에서는 잘해도 벤치마크가 다루지 않는 영역에서는 여전히 과신한 답을 줄 수 있음
  모델이 “모르겠다”를 더 자주 말하게 조정할 수는 있지만 성능 비용이 듦. 의미 있게 답할 수 있는 질문 일부도 거부하게 됨. 퇴화한 경우 모델이 항상 또는 거의 항상 그 문장을 예측하도록 붕괴할 수도 있음
환각률 점수는 해석이 조금 까다로움. 모델이 답을 모르는 경우를 조건으로 한 값이기 때문임. 따라서 일상 사용에서 환각을 마주칠 확률을 직접 측정하지 않음. 그 확률은 모델이 답을 모를 확률과, 사용자의 작업 분포가 평가 분포와 얼마나 맞는지에도 달려 있음
이 환각률 차이를 순전히 모델 크기 탓으로 돌리기도 조심스러움. GLM-5.2는 매개변수가 두 배인 DeepSeek-V4 Pro보다 훨씬 덜 환각하지만, DeepSeek-V4 Flash는 GLM-5.2의 절반도 안 되는 크기인데 AA-Omniscience 환각 지수에서 1위임
Opus 4.8은 DeepSeek-V4 Pro보다 클 가능성이 높고, 지수에서 환각률 36%로 GLM-5.2의 28%보다 높지만 DeepSeek 수치보다는 훨씬 낮음. 또한 Opus의 정확도는 47%이고 GLM-5.2는 25%임. 이 숫자로 절대 환각률, 즉 환각 응답 수를 전체 응답 수로 나눈 값을 계산하면 Opus는 19%, GLM-5.2는 21%가 됨
따라서 다른 조건이 같다면 큰 모델은 답을 모르는 상황에서 환각에 더 취약할 수 있지만, 환각률에는 다른 요인도 많고, 이 지표가 추적할 핵심 지표인지도 완전히 명확하지 않음
- 동의하지 않는 건 아니지만, 동시에 모델은 그런 이분법적 의미에서 뭔가를 “아는” 게 아님. 단순한 설명처럼 보이지만 실제로는 굉장히 미묘함
  어떤 사실이 학습 데이터에 한 번 등장했는지, 전혀 등장하지 않았는지, 열 번인지, 천 번인지에 따라 모델이 무엇을 아는가? 사실은 그대로 저장되지 않고 구성요소로 쪼개져 가중치 안에 압축됨
  압도적으로 많이 등장하지 않은 “비슷한” 사실들은 함께 묶이고 결국 혼동됨. 그런데 비슷한 사실이란 무엇인가? 어떤 사실은 완전히 제거됐고, 어떤 사실은 다른 것들과 묶여 풀을 오염시키면서 동시에 추론 능력을 주는가? 모델은 아무것도 모르며, 자신이 무엇을 알고 모르는지도 결코 알 수 없음
- 어쩌면 질문이 쉬울수록 모델이 답을 모른다는 걸 깨닫기 더 쉬울 수도 있음
  Opus가 가장 어려운 질문을 제외하고 전부 맞힌다면, 틀리는 질문들은 검증이나 환각 탐지가 가장 어려운 질문들이기 때문에 환각률이 더 높아질 수 있음
- 그건 가정 질문으로 테스트할 수 있을 것 같음. 지식 기준일 이후에 일어나지 않은 일에 대해 묻거나, 실제로 풀 수 없는 것을 물어보면 됨
- 환각은 “근거화 실패”라고 불러야 함
  미국의 최전선 근처 모델 비용 구조에는 모델이 불확실하면서 검색할지 말지 헤맬 때마다 전기 충격기를 들이대는 듯한 무언가가 있음. 검색 회피 반응이 거의 모든 환각에 해당함
  나는 모델 차례를 기다리지도 않음. man page나 Hoogle 결과가 있으면 마지막 접두사 캐시 절단 지점에 넣어버림. 그렇게 하는 편이 이득임
- 여기에는 흔한 실패 모드인 지식 기준일 이후 정보가 빠져 있음. 그 시점 이후 정보가 필요하면 모델 크기와 상관없이 실패하므로, 지식 기반과 독립적으로 환각률이 중요할 수 있음
  모든 사용 사례가 지원 범위를 벗어날 위험을 균등하게 갖는다면 앞선 논리가 맞겠지만, 어떤 데이터 포인트가 지원 범위 밖이라는 게 보장되는 경우가 많으므로, 그것을 인식하는 절대 능력이 중요함
GPT-5.5와 DeepSeek V4 Pro가 엄청나게 큰데도 가장 뚜렷한 환각 선두라는 말은, 큰 모델일수록 환각 가능성이 높다는 뜻처럼 보임. 내 경험과는 맞지 않음
- 답을 모를 때 더 환각할 가능성이 높다는 뜻으로 보임. 큰 모델은 작은 모델보다 정답을 더 자주 돌려주겠지만, 틀리는 경우에는 “모르겠다”라고 하기보다 지어낼 가능성이 더 높다는 의미임
“모델이 매우 사실적이고 비이론적인 대량 데이터로 학습되면 항상 답을 내는 법을 배운다”는 부분과 DeepSeek V4 Pro의 AA-Omniscience 환각률 94%, GLM-5.2 28%, Opus 4.8 36%, Fable 5 48%, GPT-5.5 86%라는 수치가 놀라움
여기서 이전 연구를 통해 환각이 LLM의 근본 문제이고 프롬프트 주입처럼 고치기 어려울 가능성이 높다는 건 이미 알고 있었지만, 환각률이 이렇게 나쁜 줄은 몰랐음
모두가 최고 모델은 엣지 케이스에서만 환각하는 것처럼 행동해 왔지만, 여기서 가장 좋은 성능의 GLM-5.2조차 무언가를 “모를” 때 환각률이 28%임
다만 블로그 제목인 “Bigger models are not the way”가 더 적절하고, 더 큰 뉴스가 되어야 할 지점을 건드린다고 봄. 더 큰 모델과 더 큰 학습 세트가 이미 비례적인 수익을 내지 못한다면, 우리는 이미 S-곡선의 상단에 가까워졌을 가능성이 큼. OpenAI나 xAI 같은 회사의 가치평가가 이런 모델의 끝없는 확장이라는 터무니없는 생각에 크게 기대고 있다는 점을 고려하면 엄청난 뉴스임
- LLM에는 Wikipedia 같은 의미의 지식 개념이 없음
  질문 토큰이 답변 토큰을 정의할 뿐임. 핵심은 관련 가중치를 함께 군집화하는 데 있음
- 제목에 대해서는 동의하고, 내 실수였음. 특히 코딩 에이전트에서 이런 “최전선” 모델을 쓰며 정말 끔찍한 일을 겪었는데, 코드베이스에 대해 사실을 꾸며내는 경우가 많았음
벤치마크 점수만 극대화하는 거라면 더 크다고 항상 더 좋은 건 아닐 수 있지만, 일반 지능과 큰 모델 특유의 감각에서는 전혀 그렇지 않음
오픈소스 모델들은 인상적이지만, Opus나 5.5와 비교하면 벤치마크에서 잘 맞춘 좁은 문제 집합 바깥으로 나가는 순간 얼마나 빨리 무너지는지 꽤 명확함
환각률은 모델 크기의 문제가 아니라 학습 방식에 달려 있다고 봄. 모델들은 잘 구성된 질문과 잘 정리되고 올바른 답변이 압도적으로 많은 거대한 말뭉치로 학습됐음. 특히 책이 그렇고, 책은 해당 분야 전문가가 강하게 큐레이션한 자료임
책에서는 답이 없는 질문을 던지고, 그 질문에 왜 그리고 어떻게 답이 없는지 추론하고 설명하는 경우를 거의 보지 못함. 좋은 질문을 던진 뒤 솔직하게 답을 모른다고 설명하는 책도 거의 없음. 큐레이션 과정에서 저자가 답을 갖고 있지 않은 질문은 논의에서 빼기 때문임
또한 RLHF 동안 연구소들은 해답이 있고 흥미로운 답을 내는 질문에 편향돼 있고, 좋은 답이 없는 “나쁜” 질문은 과소대표한다고 봄. 모델이 모른다고 인정해야 하는 질문에는 RLHF 노력을 덜 들였을 가능성도 큼
인간은 평생 현실 세계에서 바로 답을 모르는 질문을 마주치며 학습했고, 답을 모른다거나 확실하지 않다는 걸 매우 빠르게 평가하는 법을 배웠음
또 인간에게는 LLM에 없는 공포가 있음. 인간 뇌에는 논리적 사고 부분과 분리된 편도체가 있어 공포 신호를 올리고, 그 결과 우리가 말하는 것에 훨씬 더 조심하게 됨. 반면 LLM에는 편도체 같은 공포 기관이 없고, 학습 말뭉치의 패턴에 따라 응답하는 법만 배움. 틀린 답을 해서 체면을 구기거나 해고될까 “두려워”하지 않으므로 완전히 틀린 답도 신나게 내놓을 수 있음
그래서 환각률은 학습으로 개선될 수 있지만, 현재 연구소들은 가장 지능적이고 유능한 모델을 만들기 위한 고위험 경쟁 때문에 그쪽을 최적화하지 않고 있음
대안으로 LLM에 별도의 편도체 같은 기관을 만들 수 있다고 봄. 그 기관이 사용자 프롬프트와 LLM의 사고 흔적을 바탕으로 비동기적으로 신호를 쏴서, LLM 추론에 공포 신호를 주입하고 더 안전한 답변으로 방향을 틀게 할 수 있음
- 모델 크기가 직접 원인은 아니라는 데는 확실히 동의함. 다만 매개변수 수가 더 큰 모델은 과적합이나 과소적합을 피하려면 많은 학습 데이터가 필요하다는 사실이 있음
  그래서 “최대 학습 데이터 크기”를 향한 경쟁이 의도치 않은 과적합으로 이어졌다고 봄. 치명적 수준은 아니지만, 모델 안에서 전지성처럼 보이는 인식을 촉발할 정도는 됨
- Skinner라면 공포나 탐욕 같은 감정보다는 결과의 문제라고 말했을 것임

답변달기

GPT-5.5, MIT 라이선스 GLM-5.2보다 환각률 3배

모델 확장 전략에 대한 의심

환각률이 드러낸 불확실성 보정 문제

Python 테스트에서 갈린 계산 효율

함께 보면 좋은 글 β

댓글과 토론

Hacker News 의견들