GLM-5.1: 장기적 과제 수행을 향한 진화

(z.ai)

8P by GN⁺ 2달전 | ★ favorite | 댓글 1개

차세대 에이전틱 엔지니어링 모델 GLM-5.1은 코딩과 문제 해결 능력을 대폭 강화한 플래그십 버전으로, 장기적 최적화와 지속적 개선을 핵심으로 설계됨
SWE-Bench Pro, NL2Repo, Terminal-Bench 2.0 등 주요 벤치마크에서 최고 수준의 성능을 기록하며, 장시간 반복 실행에서도 생산적 지속성을 유지함
VectorDBBench, KernelBench, 웹앱 구축 시나리오 등에서 수백~수천 회 반복을 통해 성능을 계속 향상시키며, 자체 로그 분석과 전략 수정으로 병목을 제거함
모델은 자기 평가와 구조적 전환을 통해 복잡한 소프트웨어 엔지니어링 과제에서도 효율적으로 작동하고, 장기 실행 시 결과 품질이 꾸준히 개선됨
MIT 라이선스 오픈소스로 공개되어 다양한 플랫폼과 프레임워크에서 사용 가능하며, 장기 최적화형 AI 모델의 새로운 기준으로 제시됨

GLM-5.1 개요

GLM-5.1은 차세대 에이전틱 엔지니어링(agentic engineering) 모델로, 이전 버전보다 코딩 성능이 크게 향상된 플래그십 모델임
SWE-Bench Pro에서 최고 성능을 기록하고, NL2Repo(저장소 생성) 및 Terminal-Bench 2.0(실제 터미널 작업) 에서도 GLM-5 대비 큰 격차로 우위 확보
단순 1회 실행 성능을 넘어, 장기적 최적화 능력과 지속적 문제 해결력을 중점으로 설계됨
모호한 문제를 더 잘 판단하고, 긴 세션에서도 생산성을 유지하며, 반복적 실험과 전략 수정으로 수백 회 반복에도 성능을 계속 향상시킴
긴 시간 동안 실행할수록 결과가 개선되는 구조로, 장기적 작업 지속성(long-horizon capability) 을 핵심 특징으로 함

복잡한 소프트웨어 엔지니어링 과제

GLM-5.1은 복잡한 소프트웨어 엔지니어링 작업에서 최고 수준의 성능을 달성
이전 모델들은 초기 성능 향상 후 빠르게 정체되지만, GLM-5.1은 장기적 에이전틱 작업에서도 효율 유지
모델은 문제를 세분화하고, 실험을 수행하며, 결과를 분석해 병목을 식별하고, 반복적 추론을 통해 전략을 수정
세 가지 점진적으로 구조화가 약한 과제에서 이를 입증함
- 벡터 검색 최적화 문제 (단일 수치 지표 기반)
- GPU 커널 벤치마크 (문제별 속도 향상 측정)
- 웹 애플리케이션 구축 (명시적 지표 없이 자체 판단 기반 개선)

시나리오 1: 600회 반복을 통한 벡터 데이터베이스 최적화

VectorDBBench는 근사 최근접 탐색용 고성능 데이터베이스를 구축하는 모델의 코딩 능력을 평가하는 오픈소스 챌린지
모델은 Rust 기반 스켈레톤 코드와 HTTP API 엔드포인트를 제공받고, 50회 도구 호출(tool-call) 내에서 파일 읽기/쓰기, 컴파일, 테스트, 프로파일링을 수행
기존 최고 성능은 Claude Opus 4.6의 3,547 QPS(Recall ≥ 95%) 였음
GLM-5.1은 외부 최적화 루프를 추가해 600회 이상 반복(6,000회 이상 도구 호출) 수행, 최종적으로 21.5k QPS 달성
- 이는 단일 50회 세션 대비 약 6배 향상
성능 향상 과정은 계단형(staircase) 패턴을 보이며, 점진적 튜닝과 구조적 전환이 교차
- 약 90회차: IVF 클러스터 프로빙 + f16 벡터 압축 도입 → 6.4k QPS
- 약 240회차: u8 프리스코어링 + f16 리랭킹 2단계 파이프라인 도입 → 13.4k QPS
총 6회의 구조적 전환이 발생했으며, 각 전환은 모델이 자체 로그를 분석해 병목을 식별한 결과
Recall이 95% 미만으로 떨어진 지점은 주로 새로운 전략 탐색 시점에 집중됨

시나리오 2: 1,000회 이상 반복을 통한 머신러닝 워크로드 최적화

KernelBench는 PyTorch 기준 구현을 동일 출력의 더 빠른 GPU 커널로 변환하는 모델의 능력을 평가
세 단계(Level 1~3)로 구성되며, Level 3은 MobileNet, VGG, MiniGPT, Mamba 등 전체 모델 단위 최적화를 포함
torch.compile 기본 설정은 1.15×, max-autotune은 1.49× 속도 향상 달성
GLM-5.1은 Level 3에서 3.6× 속도 향상을 기록하며, GLM-5보다 훨씬 긴 시간 동안 유효한 최적화를 지속
GLM-5는 초기 급상승 후 정체, Claude Opus 4.5는 더 오래 지속되나 후반에 둔화
Claude Opus 4.6은 최종적으로 4.2× 로 가장 높은 성능을 유지하며, 여전히 추가 개선 여지 존재

시나리오 3: 8시간 동안의 Linux 데스크톱 웹앱 구축

웹사이트 생성은 명시적 수치 지표가 없는 주관적 과제로, 완성도·시각적 품질·상호작용 품질이 평가 기준
테스트 프롬프트: “Linux 스타일 데스크톱 환경을 웹 애플리케이션으로 구축하라”
- 초기 코드, 디자인, 중간 피드백 없이 시작
대부분의 모델은 기본 UI만 생성 후 종료하지만, GLM-5.1은 자체 결과 검토 및 개선 루프를 통해 지속적 발전 수행
8시간 동안 반복 실행하며, 초기 단순 레이아웃에서 점차 완전한 데스크톱 환경으로 확장
- 파일 브라우저, 터미널, 텍스트 에디터, 시스템 모니터, 계산기, 게임 등 추가
- 각 기능이 일관된 UI로 통합, 스타일과 상호작용 품질이 점진적으로 개선
최종 결과는 브라우저 내에서 실행되는 완전하고 시각적으로 일관된 데스크톱 환경

장기 최적화의 의미와 과제

세 시나리오 모두에서 핵심 변수는 실행 시간 자체가 아니라, 추가 시간이 실제로 유효한가임
GLM-5.1은 GLM-5 대비 생산적 지속 시간(productive horizon) 을 크게 확장
그러나 KernelBench 등 일부 과제에서는 여전히 개선 여지 존재
남은 과제
- 점진적 튜닝이 한계에 도달했을 때 지역 최적점 탈출
- 수천 회 도구 호출에 걸친 일관성 유지
- 명시적 수치 지표가 없는 과제에서의 신뢰할 수 있는 자기 평가(self-evaluation)
GLM-5.1은 이러한 장기 최적화 방향으로의 첫 단계로 제시됨

벤치마크 비교 요약

GLM-5.1은 SWE-Bench Pro 58.4, NL2Repo 42.7, Terminal-Bench 2.0 63.5 등 주요 코딩 벤치마크에서 GLM-5를 능가
Reasoning, Coding, Agentic 전반에서 경쟁 모델 대비 상위권 성능
Claude Opus 4.6, Gemini 3.1 Pro, GPT-5.4 등 최신 모델과 비교 시에도 다수 항목에서 근접 또는 우위

공개 및 사용 방법

MIT 라이선스로 오픈소스 공개
api.z.ai, BigModel.cn에서 사용 가능하며, Claude Code 및 OpenClaw와 호환
GLM Coding Plan 구독자는 모델명을 "GLM-5.1"로 변경해 즉시 사용 가능
- 피크 시간(UTC+8 14:00–18:00)에는 3×, 비피크 시간에는 2× 쿼터 소모
- 4월 말까지 비피크 시간은 1×로 프로모션 적용
GUI 환경으로는 Z Code 제공, SSH를 통한 원격 개발 및 모바일 작업 지원
모델 가중치는 HuggingFace와 ModelScope에서 공개
vLLM, SGLang 등 주요 추론 프레임워크 지원, GitHub에서 배포 가이드 제공
곧 Z.ai 채팅 플랫폼에서도 사용 가능 예정

평가 설정 및 주석

HLE 및 기타 추론 과제: 최대 163,840 토큰 생성, GPT-5.2를 판정 모델로 사용
SWE-Bench Pro: 200K 컨텍스트 윈도우, OpenHands 기반 실행
NL2Repo: 악성 명령 탐지 및 차단 포함
Terminal-Bench 2.0: 16 CPU, 32GB RAM 제한, 3시간 타임아웃
KernelBench Level 3: H100 GPU 환경, 1,200회 도구 호출 제한, 독립 감사 수행
CyberGym, MCP-Atlas, τ³-bench, Vending Bench 2 등 다양한 외부 벤치마크에서 독립 평가 수행

GeekNews Weekly에 포함된 글입니다. 에디터 코멘트 보기

▲

GN⁺ 2달전 [-]

Hacker News 의견들

매일 세 가지가 점점 더 분명해지고 있음
(1) OpenAI와 Anthropic은 이제 경쟁력이 거의 없다고 봄
(2) 로컬/프라이빗 추론이 AI의 미래라고 확신함
(3) 아직 ‘킬러 제품’은 등장하지 않았으니, 이제 진짜로 만들어야 할 때임
- ‘킬러 제품이 없다’는 말에는 동의하지 않음. 코딩 어시스턴트와 LLM은 내 인생에서 가장 경이로운 기술적 성취임. 산업혁명 이전과 이후처럼, 곧 인류 역사는 AI 이전과 이후로 나뉘게 될 것이라 생각함
- AI 코딩 어시스턴트는 지금까지 만들어진 기술 중 가장 유용한 것 중 하나임. 모델의 품질이 가장 중요하므로, 하드웨어가 근본적으로 바뀌지 않는 한 로컬 추론이 주류가 되긴 어렵다고 봄
- 개인이 GPU에 5만 달러를 쓰며 직접 돌리는 게 멋진 취미 프로젝트 외에 어떤 실질적 이점이 있는지 의문임
방금 Claude Mythos 관련 글을 봤는데, 이번엔 단순한 개선이 아니라 진짜 도약처럼 느껴짐. 아직 공개 시점은 모르지만, 스펙이 미친 듯이 강력해 보이는 다음 GLM 릴리스도 기대 중임
Unsloth quantization 버전도 함께 공개되었음. GLM-5.1-GGUF 모델의 IQ4_XS는 754B 파라미터에 361GB 크기라, 일반적인 로컬 LLM 팬이 돌리기엔 무리임
- 좋은 소프트웨어 지원이 있다면 SSD 오프로딩도 가능함. 물론 그땐 ‘실행’이라기보다 ‘기어가는’ 수준이겠지만, 어쨌든 로컬에서 응답을 받을 수 있음. 최근에는 아예 SSD 오프로딩을 고려해 엔그램, 내부 임베딩 파라미터 구조를 설계하는 시도도 등장함
이 모델이 나에게 훌륭한 펠리컨 그림을 그려줬을 뿐 아니라, 그걸 애니메이션으로 만들어줬음
관련 링크
- 훨씬 현실적으로 표현했음. 펠리컨은 자전거를 타기보단 하늘을 나는 게 자연스러움
- Simon, 이제는 더 나은 벤치마크를 만들어야 할 때임
솔직히 조금 아쉬움. GLM 5.1이 Opus나 Codex보다 훨씬 좋은 TypeScript를 생성하지만, 긴 컨텍스트에서는 가끔 이상 모드로 빠짐. 그래도 200k 토큰 넘게 안정적으로 작동한 세션도 있었음
- 잘 작동하고 속도만 괜찮으면 정말 인상적임. 어제는 Kimi K2.5가 못 푼 문제를 해결했음. 다만 여전히 느릴 때가 있음. Opus 4.5 수준에 근접한 느낌임
- 나는 컨텍스트 윈도우를 100k로 설정하고 주기적으로 compact하거나 상태를 문서화해 새 세션을 시작함. Opus 4.6이 요즘 불안정해서 GLM 5.1을 대체로 씀. 오픈 모델의 품질이 이렇게 좋아진 게 놀라움
- 오픈소스 모델이 클로즈드 모델보다 잘하는 건 사용자 입장에서 순이익임
- 100k 토큰쯤 되면 새 세션을 열거나 /compact 명령을 써야 함
- 예전 Claude와 Codex 시절 습관이 남아서 여전히 자주 컨텍스트를 정리함. 아무리 최신 모델이라도 거대한 컨텍스트는 아직 신뢰하지 않음
GLM-5.0은 오픈소스 모델 중 진짜 실력자임. 내부 벤치마크에서 항상 상위권이고, GPT-5.2와 비슷한 수준임. 코딩보다는 비정형 작업에 주로 사용 중임
- 5.1은 아직 안 써봤지만, PHP 코딩에서는 Sonnet/Opus/GPT-5와 99% 비슷한 결과를 냄. 게다가 로컬에서도 돌릴 수 있음
- 나는 Python ↔ Cython 변환용 데이터셋을 만들고 있는데, Gemini Pro 3.1 다음으로 높은 수락률(16%)을 보임. 중간급 모델들은 6~7% 수준이라 비교가 안 됨
- 내 사용 사례는 코드 작성보다는 코드베이스 이해 및 문서 분석 쪽인데, 이 모델이 미국계 모델보다 절반 가격에 더 잘 작동함
내 테스트에서는 GLM 5.1이 GLM 5보다 성능이 떨어짐
비교 링크
모델이 이제 에이전트형/코딩 중심으로 튜닝된 듯함
- 특히 (none) 버전에서 성능 저하가 뚜렷함
모델의 품질을 에이전트가 생성한 코드의 실행 속도로 평가하는 접근이 흥미로움. 나는 벤치마크를 만들고, 기준을 세운 뒤, 1.4배 이상 개선하는 식으로 테스트함. Opus 4.6은 Rust 코드에서 저수준 최적화를 찾아 기존보다 6배 빠르게 만들면서도 테스트를 모두 통과함. 이런 방식이 실제 성능을 더 실용적으로 비교할 수 있게 해줌
댓글들을 보면 마치 다들 이 모델을 오래 써본 것처럼 말하는데, 정말 그런지 궁금함
- 블로그 글은 새로 올라왔지만, 모델은 2주 전부터 공개되어 있었음
- 내 지역 테니스 코트 예약 사이트가 고장 나서 GLM-5.1에게 API를 분석해달라 했더니, 5분 만에 /cancel.php 엔드포인트를 찾아 블라인드 SQL 인젝션으로 예약 ID를 추출해냄. 너무 적극적이었지만 정말 놀라웠음
- 꽤 오래전부터 공개되어 있었음
GLM 4.7 Flash 버전을 로컬에서 에이전트 코딩용으로 주로 쓰고 있는데, 정말 훌륭함. 이번에도 Flash 버전이 나오길 기대했지만, 릴리스 노트에는 언급이 없어 아쉬움. 그래도 곧 나올 거라 믿음

답변달기

GLM-5.1: 장기적 과제 수행을 향한 진화

GLM-5.1 개요

복잡한 소프트웨어 엔지니어링 과제

시나리오 1: 600회 반복을 통한 벡터 데이터베이스 최적화

시나리오 2: 1,000회 이상 반복을 통한 머신러닝 워크로드 최적화

시나리오 3: 8시간 동안의 Linux 데스크톱 웹앱 구축

장기 최적화의 의미와 과제

벤치마크 비교 요약

공개 및 사용 방법

평가 설정 및 주석

함께 보면 좋은 글 β

댓글과 토론

Hacker News 의견들