GLM-5 공개 : 복잡한 시스템 엔지니어링과 장기 에이전트 작업을 목표로 하는 모델

(z.ai)

2P by GN⁺ 4시간전 | ★ favorite | 댓글 3개

인공지능 효율성과 장기적 작업 수행 능력을 강화한 대규모 언어모델
전작 대비 매개변수 7440억 개(활성 400억) 로 확장되고, 사전학습 데이터 28.5조 토큰으로 증가
DeepSeek Sparse Attention(DSA) 통합으로 긴 문맥 처리 능력을 유지하면서 배포 비용을 절감
새로운 비동기 강화학습 인프라 ‘slime’ 을 통해 훈련 효율을 높이고, 다양한 벤치마크에서 최고 수준의 성능을 기록
오픈소스로 공개되어 Hugging Face, ModelScope, Z.ai 플랫폼 등에서 접근 가능하며, Claude Code 및 OpenClaw와 호환

GLM-5 개요

GLM-5는 복잡한 시스템 엔지니어링과 장기 에이전트 작업 수행을 목표로 설계된 모델
- GLM-4.5 대비 매개변수가 3550억(활성 320억)에서 7440억(활성 400억)으로 증가
- 사전학습 데이터는 23조에서 28.5조 토큰으로 확대
DeepSeek Sparse Attention(DSA) 을 통합해 긴 문맥 처리 능력을 유지하면서 배포 비용을 크게 절감
slime이라는 비동기 강화학습 인프라를 도입해 훈련 처리량과 효율을 향상, 세밀한 후훈련 반복 가능

성능 향상 및 벤치마크 결과

GLM-5는 GLM-4.7 대비 전반적인 성능 향상을 보이며, Claude Opus 4.5 수준에 근접
내부 평가 세트 CC-Bench-V2에서 프런트엔드, 백엔드, 장기 작업 모두에서 우수한 결과
Vending Bench 2에서 오픈소스 모델 중 1위를 기록, 1년간 자판기 비즈니스 시뮬레이션에서 최종 잔액 4,432달러 달성
추론, 코딩, 에이전트 작업 전반에서 세계 최고 수준의 오픈소스 성능을 보유
- 예: SWE-bench Verified 77.8점, BrowseComp 62.0점, τ²-Bench 89.7점 등
GPT-5.2, Gemini 3.0 Pro 등 상위 모델과의 격차를 좁힘

오픈소스 공개 및 접근 경로

GLM-5는 MIT 라이선스로 공개되어 Hugging Face와 ModelScope에서 모델 가중치 다운로드 가능
Z.ai, BigModel.cn, api.z.ai 등에서 API 형태로 사용 가능
Claude Code 및 OpenClaw와 호환되어, 다양한 개발 환경에서 통합 사용 가능
Z.ai 플랫폼에서는 무료 체험 제공

오피스 및 문서 생성 기능

GLM-5는 “채팅에서 일(work)로”의 전환을 지향하며, 지식 노동자와 엔지니어를 위한 오피스 도구 역할 수행
텍스트나 소스 자료를 직접 .docx, .pdf, .xlsx 형식으로 변환해 PRD, 시험지, 재무 보고서, 메뉴 등 완성 문서 생성
Z.ai 애플리케이션은 PDF/Word/Excel 생성을 지원하는 Agent 모드를 제공, 다중 회차 협업 가능

개발자 및 배포 지원

GLM Coding Plan 구독자는 단계적으로 GLM-5 접근 가능
- Max 요금제 사용자는 즉시 "GLM-5" 모델명으로 활성화 가능
- GLM-5 요청은 GLM-4.7보다 더 많은 쿼터를 소모
GUI 환경을 선호하는 사용자를 위해 Z Code 에이전트 개발 환경 제공
OpenClaw 프레임워크를 통해 GLM-5를 앱과 디바이스 전반에서 작동하는 개인 비서형 에이전트로 활용 가능

로컬 배포 및 하드웨어 호환성

GLM-5는 vLLM, SGLang 등 추론 프레임워크를 지원하며, 공식 GitHub에서 배포 지침 제공
NVIDIA 외 칩셋(Huawei Ascend, Moore Threads, Cambricon, Kunlun, MetaX, Enflame, Hygon 등)에서도 실행 가능
- 커널 최적화와 모델 양자화를 통해 합리적 처리량 확보

▲

GN⁺ 4시간전 [-]

Hacker News 의견들

Pelican이 OpenRouter를 통해 생성된 결과를 봤음
새 자체는 단단한 조류처럼 보이지만, 자전거 프레임으로는 별로임
관련 링크
- Simon이 유지하고 있는 유일하게 의미 있는 벤치마크 시스템에 감사함
  Pelican 자전거 테스트의 맥락은 여기에서 볼 수 있음
- 이게 진짜 중요한 테스트라고 생각함, Simon에게 건배임
- 이제 Pelican 벤치마크는 시대에 뒤처졌다고 느낌
  SVG는 이미 어디에나 있으니, 더 현실적인 새로운 시나리오가 필요함
- 이 테스트가 생기기 전에는 Pelican 자전거 SVG가 몇 개나 있었을까 궁금함
  혹시 이런 결과들이 학습 데이터를 오염시키고 있는 건 아닐까 걱정됨
- 날개도 없는 새를 ‘단단한 새’라 부르는 게 AI 기대 격차의 상징적 사례라고 생각함
  AI가 스스로 ‘물갈퀴가 필요하다’고 말하면서도 실제 이미지엔 없다는 점이 흥미로움
  MMLU나 AIME처럼 90% 정확도를 ‘해결된 문제’로 보는 태도가 우려됨
  진짜 AGI라면 100% 정확도를 달성해야 하는데, 우리는 너무 쉽게 만족하고 있음
앞으로 회색 시장의 distillation 기반 빠른 복제가 필연적이라고 봄
예전엔 N-1, N-2 모델이 매력 없을 거라 생각했지만, 이제는 사용자 선호도조차 포화 상태라 그조차 충분히 만족시킬 듯함
Opus 4.5는 확실히 도약이었지만 4.6은 내 워크플로우를 바꾸진 않았음
결국 ‘인류 최대의 절도’ 다음엔 ‘최대의 인과응보’가 올 것 같음
사용자들은 중국산 AI가 미국 빅테크에서 훔쳤다는 사실에 전혀 개의치 않을 것임
- LLM 기업이 학습 데이터 사용을 정당화한다면, distiller가 LLM 출력을 학습하는 것도 같은 논리로 합법이어야 함
  “인간처럼 배운 것뿐인데 왜 불법이냐”는 주장이 가능함
- distillation을 막는 게 오히려 불법이어야 함
  수천 개의 AI 생성 콘텐츠 사이트를 만들고, 각 포스트에 프롬프트와 모델 정보를 공개하면 됨
  다른 이들이 그걸 ‘우연히’ 크롤링해 학습에 쓰는 구조임
- Opus 4.6은 긴 작업 지속성이 두드러짐
  예전보다 두 배는 더 멀리 가는 느낌이라 다시 돌아가고 싶지 않음
- 하지만 토큰 소비량이 너무 많아 효율 면에서는 후퇴라고 느낌
최근 벤치마크는 인상적이지만, 비교 대상이 구세대 모델(Opus 4.5, GPT-5.2)임
요즘 공개 모델들은 벤치마크 점수는 높지만 실제 사용감은 기대 이하임
benchmaxxing이 분명 존재함
- 오픈웨이트 모델에 대한 비판이 너무 공격적으로 느껴짐
  20개 벤치마크를 돌리는 것도 쉬운 일이 아니고, 새 세대 모델이 나온 지 5일밖에 안 됐음
  많은 개발자들이 폐쇄형 모델 숭배에 빠져 있고, 다른 모델군에선 같은 프롬프트가 통하지 않는다는 걸 모름
  GLM-4.7을 자주 쓰는데 Sonnet 4.5 수준이며, GLM-5는 아마 Opus 4.5급일 것 같음
- GLM-4.7이 4.5나 5.2 수준이라면 그 자체로 엄청난 도약임
- 요즘 모델들은 결국 토큰 생성기일 뿐이라 느낌
  블라인드 테스트하면 구분 못 할 정도로 비슷함
  Claude와 ChatGPT의 답변을 비교해도 거의 동일함
  결국 대부분의 용도에선 Toyota급 모델이면 충분함
- RLHF(인간 피드백 강화학습)의 한계가 문제임
  알고리즘 혁신은 가능하지만, 인간 데이터 생성 비용이 너무 커서 확장되지 않음
  오픈소스 모델은 여전히 구문 오류가 많고, 프론티어 모델은 그런 문제를 거의 해결했음
- Anthropic, OpenAI, Google은 실제 사용자 데이터로 모델을 개선하지만
  중국 연구소들은 벤치마크 중심이라 차이가 생김
  자가 호스팅과 지속적 개선은 양립하기 어려움
중국 오픈소스 덕분에 자체 호스팅 지능을 가질 수 있게 될 것 같음
비용 면에서는 비효율적이지만, 인터넷 연결 없이도 독립적으로 운영할 수 있다는 점이 마음에 듦
결국 macOS가 대형 모델을 로컬에서 돌릴 수 있는 유일한 소비자 선택지임
- 나는 Claude Max 구독 한도를 자주 초과해서, 2x RTX3090과 Qwen3 양자화 모델로 버티고 있음
  프라이버시와 가용성 면에서도 자가 호스팅은 가치 있음
  특히 미국의 디지털 규제가 심해질 걸 대비해 대안이 필요함
- 오픈웨이트 모델이라 해도 학습 데이터와 검열 기준은 여전히 비공개임
  그래도 파인튜닝으로 편향을 수정할 수 있다는 점이 장점임
- 128GB VRAM의 Strix Halo 머신이 약 3천 달러 수준인데, 꽤 괜찮은 모델을 로컬에서 돌릴 수 있음
  GPT-OSS 120GB, Qwen Coder Next 80B, Step 3.5 Flash 등을 추천함
  1~2년 내에는 소비자 하드웨어로도 512GB급 모델을 돌릴 수 있을 것으로 기대함
- macOS 대신 리눅스 헤드리스 인퍼런스 박스를 집에 두는 것도 좋은 아이디어임
  홈 네트워크의 귀환임
- 나는 직접 호스팅보다는 호스팅의 상품화가 더 중요하다고 생각함
  언제든 공급자를 바꿀 수 있는 자유가 핵심임
GLM-4.7을 몇 주 써봤는데 Sonnet과 비슷한 수준임
다만 더 명확한 지시가 필요함
큰 작업은 여전히 Anthropic 계열을 쓰지만, 작고 명확한 작업엔 GLM이 가성비 최고임
- 나도 비슷한 경험임
  GLM-4.7은 혼자 두면 불필요하게 세계를 만들려는 경향이 있음
  하지만 작은 작업엔 Sonnet과 비슷하고, 가격이 매우 저렴해서 보조 모델로 유용함
- 나는 최근 6~8개월간 Sonnet만 써왔는데, Opus는 토큰 폭식 버그가 자주 생김
  오픈 모델이 6개월 정도만 더 발전하면 전환할 의향이 있음
MiniMax M2.5도 오늘부터 Chat UI에서 사용 가능함
GLM이 코딩엔 더 낫지만, MiniMax는 속도와 툴 호출 능력 덕분에 일상 작업용으로 자주 씀
OpenRouter에서 새 모델이 공개됨
개인 벤치마크에선 지시 따르기 능력이 매우 약했음
chat.md + mcps 포맷을 따르는 테스트인데, 제대로 수행하지 못함
- 커스텀 툴 호출 포맷은 모델마다 다르게 학습돼 있어서 일관성 확보가 어렵다고 느낌
  다른 프론티어 모델에서는 어떤 결과를 얻었는지 궁금함
- chat.md 아이디어가 마음에 듦
  나도 vim 키바인딩 기반 텍스트 에디터를 만들고 있었는데, 이 접근이 UI 영감이 될 수 있을 듯함
  불필요한 텍스트를 접는 기능을 추가해볼 생각임
- 문제는 OpenRouter 제공자 품질일 수도 있음
  종종 성능이 나쁜 경우가 있음
- OpenRouter는 종종 양자화된 모델을 호스팅해서 품질이 떨어짐
  가능하면 원 제공자를 직접 쓰는 게 좋음
GLM-4.7-Flash는 처음으로 로컬 코딩에 쓸 만한 지능형 모델이라 느낌
Claude 4.5 Haiku와 비슷한 수준이며, 추론 과정이 투명해서 왜 그런 결정을 내렸는지 파악 가능함
Devstral 2 Small이나 Qwen-Coder-Next보다 훨씬 나음
- minimax-m.2도 꽤 근접한 수준임
GLM 4.7을 opencode에서 쓰고 있음
최고는 아니지만 관대한 사용 한도 덕분에 하루 종일 쓸 수 있음
아직 새 모델은 접근이 제한돼 있지만 기대 중임
opencode에서 새 모델을 잠깐 써봤는데 꽤 인상적임
대폭적인 혁신은 아니지만 4.7보다 확실히 개선됨
기억력과 장기 작업 안정성이 눈에 띄게 좋아졌음

구독 가격이 올랐네요.

Max 기준 초해 할인가 연 $360 였는데 $672가 됐네요...

답변달기