GLM-5.2, Artificial Analysis 오픈 가중치 모델 1위 등극

(artificialanalysis.ai)

1P by GN⁺ 3시간전 | ★ favorite | 댓글 1개

Z ai의 GLM-5.2는 Artificial Analysis Intelligence Index v4.1에서 51점을 기록해 오픈 가중치 모델 선두에 올랐고, 비용 대비 성능에서도 Pareto frontier에 위치함
모델 크기는 GLM-5.1과 같은 744B 전체 / 40B 활성 파라미터지만 점수는 11점 높아 MiniMax-M3, DeepSeek V4 Pro(max), Kimi K2.6을 앞섬
개선 폭은 대부분의 평가에서 나타났으며, 특히 과학적 추론 영역의 CritPt와 HLE 상승이 두드러짐
GDPval-AA v2에서는 1524점으로 MiniMax-M3와 DeepSeek V4 Pro(max)를 앞섰고, GPT-5.5(xhigh reasoning)와 비슷한 수준에 놓임
태스크당 43k 출력 토큰을 써 토큰 효율은 낮은 편이지만, 같은 지능 수준 모델 중 태스크당 비용은 가장 낮은 축에 있음

Intelligence Index v4.1에서 오픈 가중치 선두

GLM-5.2는 Artificial Analysis Intelligence Index v4.1에서 51점을 기록해 오픈 가중치 모델 중 1위에 오름
주요 오픈 가중치 모델 점수는 다음과 같음
- MiniMax-M3: 44
- DeepSeek V4 Pro(max): 44
- Kimi K2.6: 43
GLM-5.2는 GLM-5.1과 같은 744B 전체 파라미터 / 40B 활성 파라미터 규모지만, Intelligence Index v4.1 점수는 11점 높음

평가별 성능 개선

GLM-5.2는 GLM-5.1 대비 대부분의 평가에서 점수가 상승함
특히 과학적 추론 관련 평가에서 개선 폭이 큼
- CritPt: +16점, 21%
- HLE: +12점, 40%
- GPQA Diamond: +3점, 89%
다른 평가에서도 고르게 개선됨
- AA-LCR: +9점, 71%
- tau3 banking: +15점, 27%
- SciCode: +7점, 50%
- TerminalBench v2.1: +16점, 78%

GDPval-AA v2와 에이전트 성능

GLM-5.2는 실세계 에이전트 성능 지표인 GDPval-AA v2에서 1524점을 기록함
오픈 가중치 모델 비교에서는 가장 높은 점수임
- GLM-5.2: 1524
- MiniMax-M3: 1418
- DeepSeek V4 Pro(max): 1328
이 결과는 GPT-5.5(xhigh reasoning) 의 1514점과 사실상 비슷한 수준임
GDPval-AA v2는 기존 GDPval-AA에서 평가 방식을 바꿈
- Elo 기준선을 인간 성능 1000으로 설정
- frontier-model judge의 순환 패널 도입
- 더 긴 에이전트 궤적을 다루기 위해 턴 제한을 100에서 250으로 상향

비용, 가격, 토큰 사용량

GLM-5.2는 Intelligence vs Cost per Task 차트에서 Pareto frontier에 있으며, 같은 지능 수준 모델 중 태스크당 비용이 가장 낮은 축에 있음
태스크당 비용은 GLM-5.1보다 높지만, 더 높은 Intelligence 점수를 감안하면 비용 대비 위치가 유리함
- GLM-5.2: 약 $0.46
- GLM-5.1: $0.25
- Kimi K2.6: $0.31
- MiniMax-M3: $0.18
- DeepSeek V4 Pro(max): $0.05
first-party API 가격은 GLM-5.1과 같은 수준임
- 1M 입력 토큰당 $1.4
- 1M 출력 토큰당 $4.4
- 1M cache hit 토큰당 $0.26
Intelligence Index 태스크당 43k 출력 토큰을 사용하며, 이 중 37k는 reasoning 토큰임
출력 토큰 사용량은 주요 오픈 가중치 모델보다 높은 편임
- GLM-5.1: 26k
- MiniMax-M3: 24k
- Kimi K2.6: 35k
- DeepSeek V4 Pro(max): 37k
같은 지능 수준의 오픈 가중치 모델 중 토큰 효율은 낮은 편이며, Intelligence vs Output Tokens 차트에서 가장 매력적인 사분면에는 들지 않음

모델 세부 사항과 접근성

GLM-5.2의 라이선스는 MIT임
컨텍스트 윈도우는 1M 토큰으로, GLM-5.1의 200K에서 증가함
Z ai의 first-party API와 여러 third-party 제공자에서 사용할 수 있음
- DeepInfra
- Novita
- Nebius
- Parasail
- Siliconflow
- GMI Cloud
- Baseten
  - Fireworks
  - GLM-5.2는 AA-Omniscience Index에서 4점을 기록해 GLM-5.1의 2점보다 높음
  - 정확도는 25.1% 로 GLM-5.1의 24.2%보다 높음
  - hallucination rate는 28.1% 로 GLM-5.1의 29.4%보다 낮음
  - attempt rate는 47% 로 동일함
  - 모델 비교는 Artificial Analysis의 GLM-5.2 페이지에서 확인할 수 있음

GN⁺ 3시간전 [-]

Hacker News 의견들

꽤 좋은 단계 상승이고 최전선에 가까워진 듯하지만, 이제는 추론 효율에 더 집중했으면 함
LLM 평가용으로 Nim으로 간단한 수식 평가 라이브러리를 작성하게 하는 테스트를 쓰는데, GLM 5.2 xhigh는 첫 파일을 쓰기 전까지 15분 넘게 추론하며 약 45k 토큰을 썼음
https://artificialanalysis.ai/#output-tokens 기준으로 GPT 5.5 xhigh는 평균 총 16k 토큰, high는 10k, Fable 5는 33k, Opus 4.8은 41k, GLM 5.2는 42k라서 GPT 5.5의 추론 효율이 압도적으로 좋음
실제 요청 비용으로 환산하면 GLM 5.2가 GPT 5.5/Opus 4.8보다 싸겠지만, 많은 사람에게는 속도도 중요함
- GLM 5.2 Max는 사고 방식이 Opus 4.8 Max와 같아 보이고, 사고 체인과 출력 토큰 사용량도 매우 비슷함
  합리적인 토큰 사용량을 원하면 GLM 5.2를 High로 돌려야 하며, 대부분의 작업에서 Max에서 High로 내려도 품질 하락은 작고 토큰 사용량은 2~2.5배 줄어듦
  결국 GLM 5.2는 훨씬 싼 Opus 4.8의 동생 같은 모델이고, Opus 모델에 학습이 전혀 안 들어갔다는 건 정말 믿기 어렵다는 농담도 나옴
- “최전선에 가까워졌다”기보다 이미 넘어섰다고 봄
  개인적으로 쓰는 GLM + OpenCode 조합이 회사에서 써야 하는 Claude Code + Opus보다 훨씬 낫고, StackOverflow식 초보 실수를 훨씬 덜 하며 지시도 더 잘 따름
  하네스 사용자 경험도 설정을 무시하거나 임의로 바꾸거나 잘못 보고하지 않아서 훨씬 우수하고, Anthropic의 해자가 빠르게 사라지는 것 같음
- Opus에서도 비슷하게 너무 오래 생각하다가 “잠깐, 만약에…”를 반복하는 문제가 있음
  결국 중단시키고 “일단 코드부터 쓰고, 진행하면서 해결해”라고 말하게 되며, 작가의 막힘이 LLM에도 있는 느낌임
- https://en.wikipedia.org/wiki/Portia_(spider)가 떠오름
- Moonshot이 Kimi K2.7 Code에서 한 최근 작업이 다른 공개 모델 연구소에도 퍼졌으면 함
  Artificial Analysis 기준으로 K2.7 Code는 지능 면에서 K2.6과 비슷하지만, 같은 수준에 도달하는 데 출력 토큰을 절반만 씀
Artificial Analysis의 codingindex를 기준으로 모델 순위를 매기는 스크립트를 만들어 매일 쓰고 있음
메인 표 페이지에서 JSON을 받아 관심 있는 코딩 관련 필드만 파싱하며, 예전에는 메일링 리스트도 있었지만 관심이 많지 않아 꺼뒀음
현재 일부 결과에서는 Claude Fable 5, GPT-5.5 xhigh/high, Claude Opus 4.8, Gemini 3.1 Pro Preview, GLM-5.2 max, Qwen3.7 Max 등이 상위권이고, 실행은 $ curl day50.dev/art-analysis.sh | bash로 가능함
저장소는 https://github.com/day50-dev/aa-eval-email이며, 현재 공개 모델은 측정 방식에 따라 약 4~7개월 뒤처진 수준으로 보이고 이 추세라면 새해 전 공개 가중치 모델이 Claude Fable 5급 작업을 할 수도 있음
- Artificial Analysis의 코딩 지수는 Terminal-Bench Hard와 SciCode 두 벤치마크만으로 구성되어 있어서 좋은 코딩 지수인지 의심스러움
  Gemma 4 31B를 DeepSeek V4 Flash보다 높게 매기는데, 둘 다 다양한 코딩 작업에 써본 입장에서는 매번 DeepSeek를 고르겠음
- 멋진 프로젝트지만, 알 수 없는 출처의 Bash를 그냥 실행하라고 요구하는 건 꽤 나쁜 관행이라고 봄
왜 더 많은 사람이 이걸 이야기하지 않는지 모르겠음
사실상 Opus 4.7 품질을 말도 안 되는 가격에 제공하고 있고, 월 50달러에 무제한 토큰을 제공하는 곳도 있으며, 공식 ZAI API보다 3배 낮은 API 요금을 받는 곳도 있음
공식 ZAI API도 Opus보다 약 10배 싸기 때문에 Anthropic/OpenAI/Google에는 큰 타격이고 나머지 세계에는 큰 승리이며, 공개 모델에서는 공식 API 가격과 속도가 전부가 아님
- 중국 공개 모델을 몇 번 써봤지만 괜찮긴 해도 주장하는 벤치마크 수준에는 못 미쳤음
  GLM 5.2가 Opus 4.7에 가까울 수도 있지만, 계속 확인할 때마다 아직도 벤치마크 최적화만 하고 GPT나 Opus 수준이 아니었다면 “늑대가 나타났다” 식으로 받아들이게 됨
- 비공식 제공자는 조심해야 함
  모델을 잘못 설정하거나 몰래 양자화하는 경우가 많고, 한동안 공식 API의 Kimi와 대부분의 서드파티 제공자 사이에는 20~40% 차이가 있었음
- OpenRouter를 보면 더 싼 상품 일부는 양자화 모델이고, 양자화로 지능이 얼마나 줄어드는지는 확실치 않음
  3배 더 싼 API 가격이 어디인지 궁금했는데, Croft의 8비트 요금이 $0.50/$0.08/$2.20인 것을 확인함
  https://openrouter.ai/z-ai/glm-5.2
  https://ai.nahcrof.com/pricing
- 선택지가 너무 많아서 인간 입장에서 따라가는 것 자체가 계산적으로 비쌈
  이런 모델을 돌리는 방법을 알아내기도 어렵고 설치 프로그램도 없으며, 정말 관심 있는 1%가 아니라면 가이드를 검색하다가 그것도 낡았다는 걸 알게 됨
  “Claude Code 설치하고 월 100달러 내기”에 비해 학습 곡선이 너무 가파르며, 월 50달러 절약은 그 수고에 비하면 의미가 작음
- 우리 조직에서는 모두가 Claude에 과도하게 고정되어 있어서 마치 유일한 LLM인 것처럼 굴고 있음
  순전히 엔터프라이즈 안의 비엔지니어에게 맞춰져 있기 때문임
Artificial Analysis 코딩 벤치마크에서는 GLM 5.1 high가 실행 비용 면에서 GPT 5.5 xhigh에 꽤 가깝고, GPT 5.5 medium은 훨씬 저렴함
GPT 5.5 medium과 비교하면 GLM 5.1 xhigh는 비용이 두 배이고 지능은 절반 수준이라, 아직 GLM 5.2가 없더라도 메워야 할 격차가 큼
https://artificialanalysis.ai/agents/coding-agents?coding-agents-performance-chart=deep-swe&coding-agents-harness-comparison-chart=harness-deep-swe#coding-agents-performance-chart-tabs
DeepSWE는 개인적인 경험과도 잘 맞아서, 공개 모델에 대한 인터넷의 떠들썩함이 얼마나 정당한지 의문임
최전선에 가까운 모델을 원한다면 현재는 Opus, Fable, GPT5.5를 말하는 게 정직해 보임
- Z.ai 자체 실행에서 GLM 5.2는 DeepSWE 46.2점을 받았고, 그 위치는 Opus 4.7 xhigh와 Opus 4.8 medium 사이임
  https://z.ai/blog/glm-5.2
- 공개 모델을 쓰면 Codex와 같은 비용으로 개인정보 보호가 되는 구독을 받을 수 있음
  OpenAI, Google, Anthropic 구독은 그런 개인정보 보호 옵션이 없고, 링크를 보면 GPT 5.5가 Cursor CLI에서는 7위인데 Codex CLI에서는 3위로 올라가는 것도 흥미로움
  공개 모델을 Codex에서 테스트하지 않았으니 순수 모델 벤치마크라고 단정하기 어렵고, 공개 모델이 SWE 에이전트 하네스에 약한 것일 수도 있지만 그게 가장 단순한 설명은 아닌 듯함
- DeepSWE는 Artificial Analysis 지수나 다른 코딩 벤치마크보다 “맞는” 벤치마크처럼 느껴짐
  그 지표로 보면 GPT-5.5가 여전히 토큰 효율, 속도, 달러당 지능에서 왕임
  https://deepswe.datacurve.ai/
  Fable 5도 좋지만 아직 GPT-5.6은 보지 못했음
- 어제 OpenRouter에서 GLM 5.2를 써봤는데 대체로 괜찮았지만, 비교적 느린 작업 30분 동안 토큰 비용이 5달러나 나왔음
  DeepSeek V4보다 쉽게 4배 비싸지만 결과가 그만큼 낫다고 느끼지는 못했고, 나중에 GPT 5.5 in Codex로 검토해 보니 지저분한 부분도 많았음
  비용 대비 효과는 MiniMax M3 쪽이 더 좋았음
GLM 5.1/5.2가 비전 모델이 아니라는 점이 의외였음
요즘에는 꽤 드문 일이고, OpenAI/Anthropic/Gemini 모델은 모두 이미지를 받으며 Gemma 4, Qwen 3.6, Kimi 2.x 같은 주요 공개 가중치 계열도 이미지 입력을 지원함
GLM은 웹 디자인 같은 작업 점수가 높은 모델이라 이미지 입력이 있으면 스크린샷을 받아 HTML+CSS를 출력하는 데 유용할 텐데, 그 부분은 분명 빈틈임
- 코딩 하네스에 하위 에이전트를 설정해서 그런 작업에서는 아무 비전 모델로 새 하위 세션을 띄우고, 결과를 메인 모델에 다시 넣으면 됨
  “모든 걸 하는 하나의 모델”이 꼭 필요하지는 않음
- Google AI Studio를 무료 비전 브리지로 쓰고 있음
  Gemma 31B는 비전 작업을 꽤 잘하고, 하루 1500 요청이면 사실상 무제한에 가까움
- 그렇게 큰 빈틈으로 보이지는 않음
  UX/UI 작업 같은 사용처는 있겠지만 그 외에는 별로 필요하지 않고, 최전선 모델들도 실제 이미지를 복제하지는 못하며 개인 경험상 근사만 가능함
- DeepSeek V4에서도 같은 반응이었음
  비전 모델이었다면 더 유용했을 것 같음
지난 24시간 동안 이 모델을 꽤 써봤고, 상당히 유능하다는 건 확인했음
다만 약간 장황하고, 사고 기록에서 경로를 정하기 전 3~4번씩 재검토하는 경우를 봤으며, 복잡하고 추상적인 요구사항을 처리하는 능력은 GPT5.5만큼은 아님
그래도 대부분의 사람에게는 Z.AI 구독 + 월 20달러 OpenAI 구독 조합을 추천해도 될 정도고, GLM이 작성하고 GPT가 리뷰/디버깅하는 흐름은 월 200달러 플랜으로 GPT만 쓰는 것보다 아주 조금 나쁠 뿐 거의 무제한처럼 느껴짐
- 오늘 알게 됐는데 기본 추론 강도가 max로 설정되어 있음
  장황한 이유가 아마 그 때문일 것임
- 지금 가장 중요하게 보는 건 모델이 얼마나 글을 잘 쓰는지임
  프로그래밍을 할 줄 안다면 이제 모델이 필요한 일을 하도록 충분한 정보를 줄 수 있는 단계에 왔다고 봄
  반면 글쓰기는 뉘앙스가 너무 많아서 아직 크게 어려워하지만, 실제로 점점 좋아지고 있음
- 내 워크플로도 이와 같음
  하루에 한 번 코드를 무료 Claude Sonnet에 복사해 넣어서 실제로 읽을 만하게 만들고 있음
- Fable 5를 맛본 뒤로는 Opus 4.8도 더는 충분하지 않게 느껴짐
  Opus 4.8은 DeepSeek 4.0이나 Kimi 2.7이 흔들리고 실패하는 곳에서 성공하는 더 강한 코딩 에이전트인 건 맞지만, 대화체의 수사적 장식이 점점 거슬리고 때로는 눌러 묻기 전까지 일부러 애매하게 말하거나 진실을 아끼는 느낌이라 구독을 다시 생각하게 됨
GLM 5.2는 우리가 테스트한 모델 중 처음으로 Opus 4.6과 명확히 동급이거나 더 나은 모델임
다만 취약한 테스트 방법론을 쓰는 다른 벤치마크보다 우리 쪽에서는 GLM 5.2와 대부분의 중국 모델을 조금 낮게 보고 있음
데이터는 https://gertlabs.com/rankings에 있음
이런 모델을 돌리는 방법은 잘 모르지만, 중견·대기업이 모델을 로컬에 두려고 하드웨어를 사기 시작하는 시점이 얼마나 가까운지 궁금함
비싸고 최전선 모델만큼 유능하지는 않지만, 프라이버시와 통제권 측면의 장점은 꽤 큼
- 유럽의 여러 기업은 이미 한동안 70B 모델로 그렇게 해왔고, 새로 나온 700B~1T급 모델을 돌리기 위해 하드웨어를 업그레이드하고 있음
  Kimi K2 무렵부터 본격화됐지만 그런 하드웨어를 사고 호스팅하는 데는 시간이 걸림
  모든 회사가 영업비밀을 OpenAI나 Anthropic에 보내고 싶어 하거나, 법적으로 보낼 수 있는 것도 아님
- 새로운 상황은 아님
  AlexNet 같은 좋은 비전 모델이 나오던 시절, 특히 OCR에서도 기업은 클라우드와 GPU 자체 호스팅 사이에서 선택해야 했음
  결국 문제는 사용 패턴인데, 특정 시간대 업무 시간에 사용량이 몰리고 나머지 시간에는 GPU가 놀게 됨
  지연 시간에 민감한 작업에서는 수십 년 된 트레이드오프이며, LLM만의 특수한 문제가 아님
- 약 750B 모델이라 VRAM이 엄청나게 필요함
  꽤 결심이 강한 중견기업이어야 할 것 같음
- 완전한 프라이버시가 필요한 주요 사용처는 지금까지는 법률 업무로 보임
  증거개시에서 방대한 텍스트를 검색하는 데 최상위 모델까지는 필요 없지만 완전한 기밀성이 필요함
  r/localllama에는 다중 GPU 빌드를 자랑하는 변호사들이 꽤 있고, 마침 그들에게는 필요한 자금도 있음
- 진짜 국가안보 우려가 있는 게 아니라면, 기존 공급업체 몇 곳과 프라이버시 보호가 들어간 상업 계약을 협상하는 편이 나음
“GLM-5.2는 지능 대비 작업당 비용 파레토 프런티어에 있고, 같은 지능 수준 모델 중 작업당 비용이 가장 낮다”면서도 GLM-5.2가 작업당 약 $0.46이고 GLM-5.1은 $0.25, Kimi K2.6은 $0.31, MiniMax-M3는 $0.18, DeepSeek V4 Pro max는 $0.05라고 되어 있는데, 뭔가 놓친 건가 싶음
- 비교 대상을 잘못 고른 것 같음
  5.2와 지능 척도에서 가까운 다른 모델을 고르는 대신, 더 아래쪽의 공개 모델 몇 개를 골라 놓은 듯함
- 파레토 프런티어가 가장 싸다는 뜻은 아님
- 일부 모델은 보조금이 많이 들어가 있음
  추론 비용은 전체 매개변수와 활성 매개변수가 더 나은 측정치임
Mythos 보고 버그 기반 벤치마크에 GLM 5.2를 추가했는데 GLM 5.1보다는 낫지만 여전히 여러 모델보다 뒤처지고, 가장 직접적으로는 Qwen 3.7 Max와 비교될 만함
Gemma 4와 Qwen 3.6 같은 작은 자체 호스팅 가능 공개 모델들도 9개 중 3개로 같은 수의 버그를 찾았고, GLM 5.2는 한 버그의 위치는 맞췄지만 버그 자체를 다소 오해해서 부분 점수만 받았음
같은 실행에서 추가한 Kimi K2.7-code는 2.6 성능과 일관되게 좋지 않았으며, 이 특정 벤치마크에서는 더 좋고 싼 모델들이 있음
https://swelljoe.com/post/will-it-mythos/
이 작은 벤치마크가 뭔가를 증명하지는 않지만, 모델이 코드 안의 꽤 복잡한 문제를 추론할 수 있는지 빠르게 가늠하는 데는 유용함

답변달기

GLM-5.2, Artificial Analysis 오픈 가중치 모델 1위 등극

Intelligence Index v4.1에서 오픈 가중치 선두

평가별 성능 개선

GDPval-AA v2와 에이전트 성능

비용, 가격, 토큰 사용량

모델 세부 사항과 접근성

DeepInfra

Novita

Nebius

Parasail

Siliconflow

GMI Cloud

Baseten

함께 보면 좋은 글 β

댓글과 토론

Hacker News 의견들