# GLM-5.1: 장기적 과제 수행을 향한 진화

> Clean Markdown view of GeekNews topic #28296. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=28296](https://news.hada.io/topic?id=28296)
- GeekNews Markdown: [https://news.hada.io/topic/28296.md](https://news.hada.io/topic/28296.md)
- Type: GN+
- Author: [xguru](https://news.hada.io/@xguru)
- Published: 2026-04-08T09:37:25+09:00
- Updated: 2026-04-08T09:37:25+09:00
- Original source: [z.ai](https://z.ai/blog/glm-5.1)
- Points: 8
- Comments: 1

## Summary

중국 Z AI의 **GLM-5.1**이 **장기 실행 에이전틱 작업**에 특화된 모델로 공개되었습니다. SWE-Bench Pro, Terminal-Bench 2.0 등에서 최고 수준 성능을 기록했는데, 흥미로운 점은 수백~수천 회 반복 실행하면서 **자체 로그를 분석하고 전략을 수정해 성능이 계속 올라간다**는 것입니다. 1회성 벤치마크가 아니라 **오래 돌릴수록 결과가 좋아지는** 구조를 핵심으로 내세우고 있어서, 하네스 엔지니어링 맥락에서도 주목할 만합니다.

## Topic Body

- 차세대 **에이전틱 엔지니어링 모델 GLM-5.1**은 코딩과 문제 해결 능력을 대폭 강화한 플래그십 버전으로, **장기적 최적화와 지속적 개선**을 핵심으로 설계됨
- **SWE-Bench Pro**, **NL2Repo**, **Terminal-Bench 2.0** 등 주요 벤치마크에서 최고 수준의 성능을 기록하며, 장시간 반복 실행에서도 **생산적 지속성**을 유지함
- **VectorDBBench**, **KernelBench**, **웹앱 구축 시나리오** 등에서 수백~수천 회 반복을 통해 성능을 계속 향상시키며, 자체 로그 분석과 전략 수정으로 병목을 제거함
- 모델은 **자기 평가와 구조적 전환**을 통해 복잡한 소프트웨어 엔지니어링 과제에서도 효율적으로 작동하고, 장기 실행 시 결과 품질이 꾸준히 개선됨
- **MIT 라이선스 오픈소스**로 공개되어 다양한 플랫폼과 프레임워크에서 사용 가능하며, **장기 최적화형 AI 모델의 새로운 기준**으로 제시됨

---

### GLM-5.1 개요
- **GLM-5.1**은 차세대 **에이전틱 엔지니어링(agentic engineering)** 모델로, 이전 버전보다 **코딩 성능이 크게 향상된 플래그십 모델**임
- **SWE-Bench Pro**에서 최고 성능을 기록하고, **NL2Repo(저장소 생성)** 및 **Terminal-Bench 2.0(실제 터미널 작업)** 에서도 GLM-5 대비 큰 격차로 우위 확보
- 단순 1회 실행 성능을 넘어, **장기적 최적화 능력**과 **지속적 문제 해결력**을 중점으로 설계됨
- 모호한 문제를 더 잘 판단하고, 긴 세션에서도 생산성을 유지하며, 반복적 실험과 전략 수정으로 **수백 회 반복에도 성능을 계속 향상**시킴
- 긴 시간 동안 실행할수록 결과가 개선되는 구조로, **장기적 작업 지속성(long-horizon capability)** 을 핵심 특징으로 함

### 복잡한 소프트웨어 엔지니어링 과제
- GLM-5.1은 **복잡한 소프트웨어 엔지니어링 작업**에서 최고 수준의 성능을 달성
- 이전 모델들은 초기 성능 향상 후 빠르게 정체되지만, GLM-5.1은 **장기적 에이전틱 작업에서도 효율 유지**
- 모델은 문제를 세분화하고, 실험을 수행하며, 결과를 분석해 병목을 식별하고, 반복적 추론을 통해 전략을 수정
- 세 가지 점진적으로 구조화가 약한 과제에서 이를 입증함
  - **벡터 검색 최적화 문제** (단일 수치 지표 기반)
  - **GPU 커널 벤치마크** (문제별 속도 향상 측정)
  - **웹 애플리케이션 구축** (명시적 지표 없이 자체 판단 기반 개선)

### 시나리오 1: 600회 반복을 통한 벡터 데이터베이스 최적화
- **VectorDBBench**는 근사 최근접 탐색용 고성능 데이터베이스를 구축하는 모델의 코딩 능력을 평가하는 오픈소스 챌린지
- 모델은 Rust 기반 스켈레톤 코드와 HTTP API 엔드포인트를 제공받고, **50회 도구 호출(tool-call)** 내에서 파일 읽기/쓰기, 컴파일, 테스트, 프로파일링을 수행
- 기존 최고 성능은 **Claude Opus 4.6의 3,547 QPS(Recall ≥ 95%)** 였음
- GLM-5.1은 외부 최적화 루프를 추가해 **600회 이상 반복(6,000회 이상 도구 호출)** 수행, 최종적으로 **21.5k QPS** 달성
  - 이는 단일 50회 세션 대비 약 **6배 향상**
- 성능 향상 과정은 **계단형(staircase) 패턴**을 보이며, 점진적 튜닝과 구조적 전환이 교차
  - 약 90회차: **IVF 클러스터 프로빙 + f16 벡터 압축** 도입 → 6.4k QPS
  - 약 240회차: **u8 프리스코어링 + f16 리랭킹** 2단계 파이프라인 도입 → 13.4k QPS
- 총 6회의 구조적 전환이 발생했으며, 각 전환은 모델이 자체 로그를 분석해 병목을 식별한 결과
- Recall이 95% 미만으로 떨어진 지점은 주로 새로운 전략 탐색 시점에 집중됨

### 시나리오 2: 1,000회 이상 반복을 통한 머신러닝 워크로드 최적화
- **KernelBench**는 PyTorch 기준 구현을 동일 출력의 더 빠른 GPU 커널로 변환하는 모델의 능력을 평가
- 세 단계(Level 1~3)로 구성되며, Level 3은 **MobileNet, VGG, MiniGPT, Mamba** 등 전체 모델 단위 최적화를 포함
- torch.compile 기본 설정은 **1.15×**, max-autotune은 **1.49×** 속도 향상 달성
- GLM-5.1은 Level 3에서 **3.6× 속도 향상**을 기록하며, GLM-5보다 훨씬 긴 시간 동안 유효한 최적화를 지속
- GLM-5는 초기 급상승 후 정체, **Claude Opus 4.5**는 더 오래 지속되나 후반에 둔화
- **Claude Opus 4.6**은 최종적으로 **4.2×** 로 가장 높은 성능을 유지하며, 여전히 추가 개선 여지 존재

### 시나리오 3: 8시간 동안의 Linux 데스크톱 웹앱 구축
- 웹사이트 생성은 명시적 수치 지표가 없는 **주관적 과제**로, 완성도·시각적 품질·상호작용 품질이 평가 기준
- 테스트 프롬프트: “**Linux 스타일 데스크톱 환경을 웹 애플리케이션으로 구축하라**”
  - 초기 코드, 디자인, 중간 피드백 없이 시작
- 대부분의 모델은 기본 UI만 생성 후 종료하지만, GLM-5.1은 **자체 결과 검토 및 개선 루프**를 통해 지속적 발전 수행
- 8시간 동안 반복 실행하며, 초기 단순 레이아웃에서 점차 완전한 데스크톱 환경으로 확장
  - 파일 브라우저, 터미널, 텍스트 에디터, 시스템 모니터, 계산기, 게임 등 추가
  - 각 기능이 **일관된 UI로 통합**, 스타일과 상호작용 품질이 점진적으로 개선
- 최종 결과는 브라우저 내에서 실행되는 **완전하고 시각적으로 일관된 데스크톱 환경**

### 장기 최적화의 의미와 과제
- 세 시나리오 모두에서 핵심 변수는 **실행 시간 자체가 아니라, 추가 시간이 실제로 유효한가**임
- GLM-5.1은 GLM-5 대비 **생산적 지속 시간(productive horizon)** 을 크게 확장
- 그러나 **KernelBench** 등 일부 과제에서는 여전히 개선 여지 존재
- 남은 과제
  - 점진적 튜닝이 한계에 도달했을 때 **지역 최적점 탈출**
  - 수천 회 도구 호출에 걸친 **일관성 유지**
  - 명시적 수치 지표가 없는 과제에서의 **신뢰할 수 있는 자기 평가(self-evaluation)**
- GLM-5.1은 이러한 장기 최적화 방향으로의 **첫 단계**로 제시됨

### 벤치마크 비교 요약
- GLM-5.1은 **SWE-Bench Pro 58.4**, **NL2Repo 42.7**, **Terminal-Bench 2.0 63.5** 등 주요 코딩 벤치마크에서 GLM-5를 능가
- **Reasoning, Coding, Agentic** 전반에서 경쟁 모델 대비 상위권 성능
- **Claude Opus 4.6**, **Gemini 3.1 Pro**, **GPT-5.4** 등 최신 모델과 비교 시에도 다수 항목에서 근접 또는 우위

### 공개 및 사용 방법
- **MIT 라이선스**로 오픈소스 공개
- **api.z.ai**, **BigModel.cn**에서 사용 가능하며, **Claude Code** 및 **OpenClaw**와 호환
- **GLM Coding Plan** 구독자는 모델명을 `"GLM-5.1"`로 변경해 즉시 사용 가능
  - 피크 시간(UTC+8 14:00–18:00)에는 3×, 비피크 시간에는 2× 쿼터 소모
  - 4월 말까지 비피크 시간은 1×로 프로모션 적용
- GUI 환경으로는 **Z Code** 제공, SSH를 통한 원격 개발 및 모바일 작업 지원
- 모델 가중치는 **HuggingFace**와 **ModelScope**에서 공개
- **vLLM**, **SGLang** 등 주요 추론 프레임워크 지원, GitHub에서 배포 가이드 제공
- 곧 **Z.ai 채팅 플랫폼**에서도 사용 가능 예정

### 평가 설정 및 주석
- **HLE 및 기타 추론 과제**: 최대 163,840 토큰 생성, GPT-5.2를 판정 모델로 사용
- **SWE-Bench Pro**: 200K 컨텍스트 윈도우, OpenHands 기반 실행
- **NL2Repo**: 악성 명령 탐지 및 차단 포함
- **Terminal-Bench 2.0**: 16 CPU, 32GB RAM 제한, 3시간 타임아웃
- **KernelBench Level 3**: H100 GPU 환경, 1,200회 도구 호출 제한, 독립 감사 수행
- **CyberGym**, **MCP-Atlas**, **τ³-bench**, **Vending Bench 2** 등 다양한 외부 벤치마크에서 독립 평가 수행

## Comments


### Comment 54884

- Author: neo
- Created: 2026-04-08T09:37:25+09:00
- Points: 1

###### [Hacker News 의견들](https://news.ycombinator.com/item?id=47677853) 
- 매일 세 가지가 점점 더 분명해지고 있음  
  (1) **OpenAI와 Anthropic**은 이제 경쟁력이 거의 없다고 봄  
  (2) **로컬/프라이빗 추론**이 AI의 미래라고 확신함  
  (3) 아직 ‘킬러 제품’은 등장하지 않았으니, 이제 진짜로 만들어야 할 때임  
  - ‘킬러 제품이 없다’는 말에는 동의하지 않음. **코딩 어시스턴트와 LLM**은 내 인생에서 가장 경이로운 기술적 성취임. 산업혁명 이전과 이후처럼, 곧 인류 역사는 **AI 이전과 이후**로 나뉘게 될 것이라 생각함  
  - AI 코딩 어시스턴트는 지금까지 만들어진 기술 중 가장 유용한 것 중 하나임. 모델의 **품질**이 가장 중요하므로, 하드웨어가 근본적으로 바뀌지 않는 한 로컬 추론이 주류가 되긴 어렵다고 봄  
  - 개인이 GPU에 5만 달러를 쓰며 직접 돌리는 게 멋진 취미 프로젝트 외에 어떤 실질적 이점이 있는지 의문임  

- 방금 **Claude Mythos** 관련 글을 봤는데, 이번엔 단순한 개선이 아니라 진짜 **도약**처럼 느껴짐. 아직 공개 시점은 모르지만, 스펙이 미친 듯이 강력해 보이는 다음 **GLM 릴리스**도 기대 중임  

- **Unsloth quantization** 버전도 함께 공개되었음. [GLM-5.1-GGUF](https://huggingface.co/unsloth/GLM-5.1-GGUF) 모델의 IQ4_XS는 754B 파라미터에 361GB 크기라, 일반적인 로컬 LLM 팬이 돌리기엔 무리임  
  - 좋은 소프트웨어 지원이 있다면 **SSD 오프로딩**도 가능함. 물론 그땐 ‘실행’이라기보다 ‘기어가는’ 수준이겠지만, 어쨌든 로컬에서 응답을 받을 수 있음. 최근에는 아예 SSD 오프로딩을 고려해 **엔그램, 내부 임베딩 파라미터** 구조를 설계하는 시도도 등장함  

- 이 모델이 나에게 훌륭한 **펠리컨 그림**을 그려줬을 뿐 아니라, 그걸 **애니메이션**으로 만들어줬음  
  [관련 링크](https://simonwillison.net/2026/Apr/7/glm-51/)  
  - 훨씬 현실적으로 표현했음. 펠리컨은 자전거를 타기보단 하늘을 나는 게 자연스러움  
  - Simon, 이제는 더 나은 **벤치마크**를 만들어야 할 때임  

- 솔직히 조금 아쉬움. **GLM 5.1**이 **Opus나 Codex**보다 훨씬 좋은 TypeScript를 생성하지만, 긴 컨텍스트에서는 가끔 **이상 모드**로 빠짐. 그래도 200k 토큰 넘게 안정적으로 작동한 세션도 있었음  
  - 잘 작동하고 속도만 괜찮으면 정말 인상적임. 어제는 **Kimi K2.5**가 못 푼 문제를 해결했음. 다만 여전히 느릴 때가 있음. **Opus 4.5 수준**에 근접한 느낌임  
  - 나는 컨텍스트 윈도우를 100k로 설정하고 주기적으로 **compact**하거나 상태를 문서화해 새 세션을 시작함. **Opus 4.6**이 요즘 불안정해서 **GLM 5.1**을 대체로 씀. 오픈 모델의 품질이 이렇게 좋아진 게 놀라움  
  - 오픈소스 모델이 클로즈드 모델보다 잘하는 건 사용자 입장에서 **순이익**임  
  - 100k 토큰쯤 되면 새 세션을 열거나 `/compact` 명령을 써야 함  
  - 예전 **Claude와 Codex** 시절 습관이 남아서 여전히 자주 컨텍스트를 정리함. 아무리 최신 모델이라도 거대한 컨텍스트는 아직 신뢰하지 않음  

- **GLM-5.0**은 오픈소스 모델 중 진짜 실력자임. 내부 벤치마크에서 항상 상위권이고, **GPT-5.2**와 비슷한 수준임. 코딩보다는 **비정형 작업**에 주로 사용 중임  
  - 5.1은 아직 안 써봤지만, PHP 코딩에서는 **Sonnet/Opus/GPT-5**와 99% 비슷한 결과를 냄. 게다가 로컬에서도 돌릴 수 있음  
  - 나는 **Python ↔ Cython 변환용 데이터셋**을 만들고 있는데, **Gemini Pro 3.1** 다음으로 높은 수락률(16%)을 보임. 중간급 모델들은 6~7% 수준이라 비교가 안 됨  
  - 내 사용 사례는 코드 작성보다는 **코드베이스 이해 및 문서 분석** 쪽인데, 이 모델이 미국계 모델보다 절반 가격에 더 잘 작동함  

- 내 테스트에서는 **GLM 5.1이 GLM 5보다 성능이 떨어짐**  
  [비교 링크](https://aibenchy.com/compare/z-ai-glm-5-medium/z-ai-glm-5-1-...)  
  모델이 이제 **에이전트형/코딩 중심**으로 튜닝된 듯함  
  - 특히 **(none)** 버전에서 성능 저하가 뚜렷함  

- 모델의 품질을 **에이전트가 생성한 코드의 실행 속도**로 평가하는 접근이 흥미로움. 나는 **벤치마크를 만들고, 기준을 세운 뒤, 1.4배 이상 개선**하는 식으로 테스트함. **Opus 4.6**은 Rust 코드에서 저수준 최적화를 찾아 기존보다 6배 빠르게 만들면서도 테스트를 모두 통과함. 이런 방식이 실제 성능을 더 실용적으로 비교할 수 있게 해줌  

- 댓글들을 보면 마치 다들 이 모델을 오래 써본 것처럼 말하는데, 정말 그런지 궁금함  
  - 블로그 글은 새로 올라왔지만, 모델은 **2주 전부터 공개**되어 있었음  
  - 내 지역 테니스 코트 예약 사이트가 고장 나서 **GLM-5.1**에게 API를 분석해달라 했더니, 5분 만에 **/cancel.php** 엔드포인트를 찾아 **블라인드 SQL 인젝션**으로 예약 ID를 추출해냄. 너무 적극적이었지만 정말 놀라웠음  
  - 꽤 오래전부터 공개되어 있었음  

- **GLM 4.7 Flash** 버전을 로컬에서 에이전트 코딩용으로 주로 쓰고 있는데, 정말 훌륭함. 이번에도 **Flash 버전**이 나오길 기대했지만, 릴리스 노트에는 언급이 없어 아쉬움. 그래도 곧 나올 거라 믿음