# GLM-5 공개 : 복잡한 시스템 엔지니어링과 장기 에이전트 작업을 목표로 하는 모델

> Clean Markdown view of GeekNews topic #26611. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=26611](https://news.hada.io/topic?id=26611)
- GeekNews Markdown: [https://news.hada.io/topic/26611.md](https://news.hada.io/topic/26611.md)
- Type: GN+
- Author: [xguru](https://news.hada.io/@xguru)
- Published: 2026-02-12T09:46:11+09:00
- Updated: 2026-02-12T09:46:11+09:00
- Original source: [z.ai](https://z.ai/blog/glm-5)
- Points: 6
- Comments: 4

## Summary

**GLM-5**는 복잡한 시스템 엔지니어링과 장기 에이전트 작업 수행을 목표로 설계된 대규모 언어모델로, **DeepSeek Sparse Attention**을 통해 긴 문맥 처리 능력을 유지하면서도 배포 비용을 크게 줄였습니다. 새로운 비동기 강화학습 인프라 **‘slime’**을 도입해 훈련 효율을 높였으며, 여러 벤치마크에서 오픈소스 모델 중 최고 수준의 성능을 기록합니다. MIT 라이선스로 공개되어 Hugging Face, ModelScope, Z.ai 등에서 접근할 수 있고, 다양한 하드웨어와 추론 프레임워크를 지원합니다.

## Topic Body

- 인공지능 **효율성과 장기적 작업 수행 능력**을 강화한 대규모 언어모델  
- 전작 대비 **매개변수 7440억 개(활성 400억)** 로 확장되고, **사전학습 데이터 28.5조 토큰**으로 증가  
- **DeepSeek Sparse Attention(DSA)** 통합으로 긴 문맥 처리 능력을 유지하면서 **배포 비용을 절감**  
- 새로운 **비동기 강화학습 인프라 ‘slime’** 을 통해 훈련 효율을 높이고, 다양한 벤치마크에서 최고 수준의 성능을 기록  
- 오픈소스로 공개되어 **Hugging Face, ModelScope, Z.ai 플랫폼** 등에서 접근 가능하며, **Claude Code 및 OpenClaw**와 호환  
  
---  
  
### GLM-5 개요  
- GLM-5는 **복잡한 시스템 엔지니어링과 장기 에이전트 작업** 수행을 목표로 설계된 모델  
  - GLM-4.5 대비 매개변수가 3550억(활성 320억)에서 7440억(활성 400억)으로 증가  
  - 사전학습 데이터는 23조에서 28.5조 토큰으로 확대  
- **DeepSeek Sparse Attention(DSA)** 을 통합해 긴 문맥 처리 능력을 유지하면서 **배포 비용을 크게 절감**  
- **slime**이라는 비동기 강화학습 인프라를 도입해 **훈련 처리량과 효율을 향상**, 세밀한 후훈련 반복 가능  
  
### 성능 향상 및 벤치마크 결과  
- GLM-5는 **GLM-4.7 대비 전반적인 성능 향상**을 보이며, **Claude Opus 4.5** 수준에 근접  
- 내부 평가 세트 **CC-Bench-V2**에서 프런트엔드, 백엔드, 장기 작업 모두에서 우수한 결과  
- **Vending Bench 2**에서 오픈소스 모델 중 1위를 기록, 1년간 자판기 비즈니스 시뮬레이션에서 **최종 잔액 4,432달러** 달성  
- **추론, 코딩, 에이전트 작업** 전반에서 세계 최고 수준의 오픈소스 성능을 보유  
  - 예: SWE-bench Verified 77.8점, BrowseComp 62.0점, τ²-Bench 89.7점 등  
- GPT-5.2, Gemini 3.0 Pro 등 상위 모델과의 격차를 좁힘  
  
### 오픈소스 공개 및 접근 경로  
- GLM-5는 **MIT 라이선스**로 공개되어 **Hugging Face**와 **ModelScope**에서 모델 가중치 다운로드 가능  
- **Z.ai**, **BigModel.cn**, **api.z.ai** 등에서 API 형태로 사용 가능  
- **Claude Code** 및 **OpenClaw**와 호환되어, 다양한 개발 환경에서 통합 사용 가능  
- **Z.ai 플랫폼**에서는 무료 체험 제공  
  
### 오피스 및 문서 생성 기능  
- GLM-5는 “채팅에서 일(work)로”의 전환을 지향하며, **지식 노동자와 엔지니어를 위한 오피스 도구 역할** 수행  
- 텍스트나 소스 자료를 직접 **.docx, .pdf, .xlsx** 형식으로 변환해 **PRD, 시험지, 재무 보고서, 메뉴 등 완성 문서 생성**  
- **Z.ai 애플리케이션**은 PDF/Word/Excel 생성을 지원하는 **Agent 모드**를 제공, 다중 회차 협업 가능  
  
### 개발자 및 배포 지원  
- **GLM Coding Plan** 구독자는 단계적으로 GLM-5 접근 가능  
  - Max 요금제 사용자는 즉시 `"GLM-5"` 모델명으로 활성화 가능  
  - GLM-5 요청은 GLM-4.7보다 **더 많은 쿼터를 소모**  
- GUI 환경을 선호하는 사용자를 위해 **Z Code** 에이전트 개발 환경 제공  
- **OpenClaw** 프레임워크를 통해 GLM-5를 **앱과 디바이스 전반에서 작동하는 개인 비서형 에이전트**로 활용 가능  
  
### 로컬 배포 및 하드웨어 호환성  
- GLM-5는 **vLLM, SGLang** 등 추론 프레임워크를 지원하며, 공식 GitHub에서 배포 지침 제공  
- **NVIDIA 외 칩셋**(Huawei Ascend, Moore Threads, Cambricon, Kunlun, MetaX, Enflame, Hygon 등)에서도 실행 가능  
  - 커널 최적화와 모델 양자화를 통해 합리적 처리량 확보

## Comments


### Comment 51035

- Author: neo
- Created: 2026-02-12T09:46:11+09:00
- Points: 1

###### [Hacker News 의견들](https://news.ycombinator.com/item?id=46974853) 
- Pelican이 OpenRouter를 통해 생성된 결과를 봤음  
  새 자체는 **단단한 조류**처럼 보이지만, 자전거 프레임으로는 별로임  
  [관련 링크](https://gist.github.com/simonw/cc4ca7815ae82562e89a9fdd99f0725d?permalink_comment_id=5982981#gistcomment-5982981)
  - Simon이 유지하고 있는 **유일하게 의미 있는 벤치마크 시스템**에 감사함  
    Pelican 자전거 테스트의 맥락은 [여기](https://simonwillison.net/tags/pelican-riding-a-bicycle/)에서 볼 수 있음
  - 이게 진짜 중요한 테스트라고 생각함, Simon에게 건배임
  - 이제 Pelican 벤치마크는 시대에 뒤처졌다고 느낌  
    **SVG**는 이미 어디에나 있으니, 더 현실적인 새로운 시나리오가 필요함
  - 이 테스트가 생기기 전에는 Pelican 자전거 SVG가 몇 개나 있었을까 궁금함  
    혹시 이런 결과들이 학습 데이터를 **오염시키고** 있는 건 아닐까 걱정됨
  - 날개도 없는 새를 ‘단단한 새’라 부르는 게 **AI 기대 격차**의 상징적 사례라고 생각함  
    AI가 스스로 ‘물갈퀴가 필요하다’고 말하면서도 실제 이미지엔 없다는 점이 흥미로움  
    MMLU나 AIME처럼 90% 정확도를 ‘해결된 문제’로 보는 태도가 우려됨  
    진짜 AGI라면 **100% 정확도**를 달성해야 하는데, 우리는 너무 쉽게 만족하고 있음  

- 앞으로 **회색 시장의 distillation 기반 빠른 복제**가 필연적이라고 봄  
  예전엔 N-1, N-2 모델이 매력 없을 거라 생각했지만, 이제는 사용자 선호도조차 포화 상태라 그조차 충분히 만족시킬 듯함  
  Opus 4.5는 확실히 도약이었지만 4.6은 내 워크플로우를 바꾸진 않았음  
  결국 ‘인류 최대의 절도’ 다음엔 ‘최대의 인과응보’가 올 것 같음  
  사용자들은 중국산 AI가 미국 빅테크에서 **훔쳤다**는 사실에 전혀 개의치 않을 것임
  - LLM 기업이 학습 데이터 사용을 정당화한다면, **distiller**가 LLM 출력을 학습하는 것도 같은 논리로 합법이어야 함  
    “인간처럼 배운 것뿐인데 왜 불법이냐”는 주장이 가능함
  - distillation을 막는 게 오히려 불법이어야 함  
    수천 개의 AI 생성 콘텐츠 사이트를 만들고, 각 포스트에 **프롬프트와 모델 정보**를 공개하면 됨  
    다른 이들이 그걸 ‘우연히’ 크롤링해 학습에 쓰는 구조임
  - Opus 4.6은 **긴 작업 지속성**이 두드러짐  
    예전보다 두 배는 더 멀리 가는 느낌이라 다시 돌아가고 싶지 않음
  - 하지만 토큰 소비량이 너무 많아 **효율 면에서는 후퇴**라고 느낌  

- 최근 벤치마크는 인상적이지만, 비교 대상이 구세대 모델(Opus 4.5, GPT-5.2)임  
  요즘 공개 모델들은 벤치마크 점수는 높지만 실제 사용감은 기대 이하임  
  **benchmaxxing**이 분명 존재함
  - 오픈웨이트 모델에 대한 비판이 너무 공격적으로 느껴짐  
    20개 벤치마크를 돌리는 것도 쉬운 일이 아니고, 새 세대 모델이 나온 지 5일밖에 안 됐음  
    많은 개발자들이 **폐쇄형 모델 숭배**에 빠져 있고, 다른 모델군에선 같은 프롬프트가 통하지 않는다는 걸 모름  
    GLM-4.7을 자주 쓰는데 Sonnet 4.5 수준이며, GLM-5는 아마 Opus 4.5급일 것 같음
  - GLM-4.7이 4.5나 5.2 수준이라면 그 자체로 **엄청난 도약**임
  - 요즘 모델들은 결국 **토큰 생성기**일 뿐이라 느낌  
    블라인드 테스트하면 구분 못 할 정도로 비슷함  
    Claude와 ChatGPT의 답변을 비교해도 거의 동일함  
    결국 대부분의 용도에선 **Toyota급 모델**이면 충분함
  - RLHF(인간 피드백 강화학습)의 한계가 문제임  
    알고리즘 혁신은 가능하지만, **인간 데이터 생성 비용**이 너무 커서 확장되지 않음  
    오픈소스 모델은 여전히 구문 오류가 많고, 프론티어 모델은 그런 문제를 거의 해결했음
  - Anthropic, OpenAI, Google은 **실제 사용자 데이터**로 모델을 개선하지만  
    중국 연구소들은 벤치마크 중심이라 차이가 생김  
    **자가 호스팅**과 **지속적 개선**은 양립하기 어려움  

- 중국 오픈소스 덕분에 **자체 호스팅 지능**을 가질 수 있게 될 것 같음  
  비용 면에서는 비효율적이지만, 인터넷 연결 없이도 독립적으로 운영할 수 있다는 점이 마음에 듦  
  결국 macOS가 대형 모델을 로컬에서 돌릴 수 있는 유일한 소비자 선택지임
  - 나는 **Claude Max** 구독 한도를 자주 초과해서, 2x RTX3090과 Qwen3 양자화 모델로 버티고 있음  
    **프라이버시와 가용성** 면에서도 자가 호스팅은 가치 있음  
    특히 미국의 디지털 규제가 심해질 걸 대비해 대안이 필요함
  - 오픈웨이트 모델이라 해도 학습 데이터와 **검열 기준**은 여전히 비공개임  
    그래도 파인튜닝으로 편향을 수정할 수 있다는 점이 장점임
  - 128GB VRAM의 **Strix Halo 머신**이 약 3천 달러 수준인데, 꽤 괜찮은 모델을 로컬에서 돌릴 수 있음  
    GPT-OSS 120GB, Qwen Coder Next 80B, Step 3.5 Flash 등을 추천함  
    1~2년 내에는 소비자 하드웨어로도 **512GB급 모델**을 돌릴 수 있을 것으로 기대함
  - macOS 대신 **리눅스 헤드리스 인퍼런스 박스**를 집에 두는 것도 좋은 아이디어임  
    홈 네트워크의 귀환임
  - 나는 직접 호스팅보다는 **호스팅의 상품화**가 더 중요하다고 생각함  
    언제든 공급자를 바꿀 수 있는 자유가 핵심임  

- GLM-4.7을 몇 주 써봤는데 Sonnet과 비슷한 수준임  
  다만 더 명확한 지시가 필요함  
  큰 작업은 여전히 Anthropic 계열을 쓰지만, **작고 명확한 작업**엔 GLM이 가성비 최고임
  - 나도 비슷한 경험임  
    GLM-4.7은 혼자 두면 **불필요하게 세계를 만들려는 경향**이 있음  
    하지만 작은 작업엔 Sonnet과 비슷하고, 가격이 매우 저렴해서 보조 모델로 유용함
  - 나는 최근 6~8개월간 Sonnet만 써왔는데, Opus는 **토큰 폭식 버그**가 자주 생김  
    오픈 모델이 6개월 정도만 더 발전하면 전환할 의향이 있음  

- MiniMax M2.5도 오늘부터 [Chat UI](https://agent.minimax.io)에서 사용 가능함  
  GLM이 코딩엔 더 낫지만, MiniMax는 **속도와 툴 호출 능력** 덕분에 일상 작업용으로 자주 씀  

- OpenRouter에서 새 모델이 공개됨  
  개인 벤치마크에선 **지시 따르기 능력**이 매우 약했음  
  [chat.md](https://github.com/rusiaaman/chat.md) + mcps 포맷을 따르는 테스트인데, 제대로 수행하지 못함
  - 커스텀 툴 호출 포맷은 모델마다 다르게 학습돼 있어서 **일관성 확보가 어렵다**고 느낌  
    다른 프론티어 모델에서는 어떤 결과를 얻었는지 궁금함
  - chat.md 아이디어가 마음에 듦  
    나도 vim 키바인딩 기반 텍스트 에디터를 만들고 있었는데, 이 접근이 **UI 영감**이 될 수 있을 듯함  
    불필요한 텍스트를 접는 기능을 추가해볼 생각임
  - 문제는 **OpenRouter 제공자 품질**일 수도 있음  
    종종 성능이 나쁜 경우가 있음
  - OpenRouter는 종종 **양자화된 모델**을 호스팅해서 품질이 떨어짐  
    가능하면 원 제공자를 직접 쓰는 게 좋음  

- GLM-4.7-Flash는 처음으로 **로컬 코딩에 쓸 만한 지능형 모델**이라 느낌  
  Claude 4.5 Haiku와 비슷한 수준이며, **추론 과정이 투명**해서 왜 그런 결정을 내렸는지 파악 가능함  
  Devstral 2 Small이나 Qwen-Coder-Next보다 훨씬 나음
  - minimax-m.2도 꽤 근접한 수준임  

- GLM 4.7을 opencode에서 쓰고 있음  
  최고는 아니지만 **관대한 사용 한도** 덕분에 하루 종일 쓸 수 있음  
  아직 새 모델은 접근이 제한돼 있지만 기대 중임  

- opencode에서 새 모델을 잠깐 써봤는데 꽤 인상적임  
  **대폭적인 혁신**은 아니지만 4.7보다 확실히 개선됨  
  기억력과 **장기 작업 안정성**이 눈에 띄게 좋아졌음

### Comment 51042

- Author: jinifor
- Created: 2026-02-12T10:54:19+09:00
- Points: 1
- Parent comment: 51035
- Depth: 1

구독 가격이 올랐네요.

### Comment 51117

- Author: princox
- Created: 2026-02-13T15:33:36+09:00
- Points: 1
- Parent comment: 51042
- Depth: 2

최초 가입시 주던 50% 할인이 없어졌습니다..

### Comment 51045

- Author: fanotify
- Created: 2026-02-12T11:32:56+09:00
- Points: 1
- Parent comment: 51042
- Depth: 2

Max 기준 초해 할인가 연 $360 였는데 $672가 됐네요...