GLM-4.7: 코딩 역량을 한 단계 끌어올리다

(z.ai)

7P by GN⁺ 2달전 | ★ favorite | 댓글 1개

GLM-4.7은 다국어 코딩, 터미널 기반 작업, 복합 추론 등에서 전작 대비 성능을 크게 향상시킨 대규모 언어 모델임
SWE-bench, Terminal Bench 2.0, HLE 등 주요 벤치마크에서 각각 +5.8%, +16.5%, +12.4%의 향상치를 기록함
UI 생성 품질이 개선되어 더 깔끔하고 현대적인 웹페이지와 정확한 슬라이드 레이아웃을 생성함
Interleaved Thinking, Preserved Thinking, Turn-level Thinking 기능을 통해 복잡한 에이전트 작업에서 안정성과 일관성을 강화함
Z.ai API, OpenRouter, HuggingFace 등을 통해 전 세계적으로 접근 가능하며, 코딩 에이전트 및 로컬 배포도 지원함

주요 성능 및 특징

GLM-4.7은 GLM-4.6 대비 전반적인 코딩 및 추론 능력 향상을 달성
- SWE-bench Verified 73.8%(+5.8%), SWE-bench Multilingual 66.7%(+12.9%), Terminal Bench 2.0 41%(+16.5%)
- HLE(Humanity’s Last Exam) 벤치마크에서 42.8%(+12.4%)로 수학 및 논리 추론 능력 강화
UI 생성 품질(Vibe Coding) 이 개선되어 더 세련된 웹페이지와 슬라이드 제작 가능
도구 활용 능력이 향상되어 τ²-Bench 및 BrowseComp 등에서 높은 점수 기록
다양한 시나리오(채팅, 창작, 롤플레이 등)에서도 성능 개선 확인

벤치마크 비교

GLM-4.7은 GPT-5, Claude Sonnet 4.5, Gemini 3.0 Pro 등과 함께 17개 벤치마크에서 비교 평가됨
- Reasoning 부문: MMLU-Pro 84.3, GPQA-Diamond 85.7, HLE(w/Tools) 42.8
- Coding 부문: SWE-bench Verified 73.8, Terminal Bench 2.0 41.0
- Agent 부문: BrowseComp 52.0, τ²-Bench 87.4
일부 항목에서는 상위 모델 대비 근접하거나 우수한 결과를 보임

사고(Thinking) 모드 강화

Interleaved Thinking: 응답 및 도구 호출 전 사고 단계를 거쳐 지시 이행과 생성 품질 향상
Preserved Thinking: 다중 턴 대화에서 사고 블록을 유지해 정보 손실과 불일치 감소
Turn-level Thinking: 요청 복잡도에 따라 사고 기능을 켜거나 꺼서 정확도와 비용 균형 조정
이 기능들은 장기적·복잡한 코딩 에이전트 작업에 적합

활용 및 배포

Z.ai API 플랫폼과 OpenRouter를 통해 GLM-4.7 모델 사용 가능
Claude Code, Kilo Code, Roo Code, Cline 등 주요 코딩 에이전트에서 통합 지원
GLM Coding Plan 구독자는 자동으로 GLM-4.7로 업그레이드되며, 기존 설정 파일에서 모델명만 변경하면 됨
HuggingFace와 ModelScope에서 모델 가중치 공개, vLLM 및 SGLang 프레임워크로 로컬 추론 지원

시각적 및 창작 사례

프론트엔드 웹사이트, Voxel Pagoda와 같은 3D 아트워크, 포스터, 슬라이드 등 다양한 생성 예시 제공
고대비 다크 모드, 애니메이션 효과, 정교한 레이아웃 등 디자인 품질 향상을 시각적으로 입증

기본 설정 및 테스트 조건

일반 작업: temperature 1.0, top-p 0.95, max new tokens 131072
SWE-bench 및 Terminal Bench: temperature 0.7, top-p 1.0, max new tokens 16384
τ²-Bench: temperature 0, max new tokens 16384, 일부 도메인별 프롬프트 수정 적용

종합 평가

GLM-4.7은 코딩 중심의 AGI 발전 단계로, 단순한 벤치마크 점수 이상의 실제 사용 경험 품질을 중시
테스트 성능뿐 아니라 사용자 체감 지능과 통합성을 목표로 설계된 모델임

▲

GN⁺ 2달전 [-]

Hacker News 의견들

나는 MoE 모델이 코딩 에이전트, 복잡한 추론, 도구 사용에 최적화되어 있다는 점이 흥미로웠음
358B/32B 활성 파라미터, 200k 컨텍스트 윈도우, OpenAI 스타일의 tool calling 지원, 영어/중국어 중심의 다국어 모델임
FP16 기준 716GB, Q4_K_M 기준 약 220GB 정도로 추정됨
이론적으로는 비교적 저렴한 Mac Studio에서도 로컬로 실행 가능하다는 점이 매력적임
Kimik2 같은 보조 도구를 함께 쓰면 대형 LLM 제공자에 의존하지 않고도 쓸만한 코딩 지원을 받을 수 있을 것 같음
- 중고 Mac Studio Ultra M1 (RAM 128GB) 로 LLM을 돌려봤는데 너무 느렸음
  GLM 4.6의 4bit 양자화 버전도 토큰 처리 속도뿐 아니라 입력 처리, 토크나이징, 프롬프트 로딩이 너무 오래 걸려 인내심이 시험받았음
  TPS 수치만 이야기하지만 실제로는 입력 로딩 시간이 병목임
- OpenAI 스타일의 tool calling이라면 Harmony 기반일 가능성이 높다고 생각함
  하지만 현실적으로는 Mac Studio에서 돌리면 속도가 너무 느려서 후회할 확률이 높음
  하드웨어가 더 싸지거나 모델이 더 작아질 때까지는 유료 API를 쓰는 게 낫다고 봄
- 과거의 누군가가 이 댓글을 본다면 믿기 어려워할 것 같음
- Sonnet 버전은 4.5로 수정해야 함
  출력 품질이 GLM‑4.6보다 훨씬 아름답게 느껴짐
  폐쇄형 모델에서 증류된 데이터 덕분일 가능성이 높지만, 그래도 오픈소스 모델을 선호함
- 나는 두 대의 Strix Halo 시스템(총 256GB RAM) 을 USB4/TB3로 연결해 이 모델을 돌려볼 예정임
Cerebras가 현재 GLM 4.6을 초당 1000토큰 속도로 서비스 중임
곧 새 모델로 업그레이드할 가능성이 높음
GLM 4.7 이후 세대 모델들이 시뮬레이션된 소프트웨어 개발 조직 환경에서 얼마나 잘 작동할지 궁금함
예를 들어, 스스로 오류를 수정하며 유용한 코드를 축적할 수 있을지, 아니면 기술 부채만 쌓을지
상위 모델(Opus 4.5, Gemini 3 등)이 ‘관리자’ 역할을 하는 구조를 상상함
관련 참고: Anthropic의 장기 실행 에이전트 설계 글
오픈소스 모델이 충분히 좋아진다면, Cerebras에서 1k TPS로 돌릴 수 있는 점이 큰 장점이 될 것임
- 나는 Opus로 세부 계획과 테스트를 작성하게 하고, Cerebras GLM 4.6으로 구현하게 함
  불확실할 때는 다시 Opus에 리뷰를 맡김
- 나도 같은 방향으로 발전할 것이라 생각함
  상위 모델이 가드레일 역할을 하고, 빠르고 유능한 에이전트들이 실제 작업을 수행하는 구조임
  충분히 넓은 컨텍스트와 ‘감각(taste)’을 갖추면 이 조합만으로도 충분한 생산성과 지능을 구현할 수 있을 것임
- Cerebras의 API 가격이 궁금함
  토큰 속도를 낮추고 전력 소모를 줄여 비용을 절감할 수 있지 않을까 생각함
- Cerebras의 유료 고객이 되기 쉬운지 궁금함
  예전에 봤을 때는 클로즈드 베타처럼 보였음
Z.ai가 저렴하고 성능도 괜찮아 보이지만 이용 약관이 상당히 까다로움
경쟁 모델 개발 금지, 결함 공개 금지, 사용자 콘텐츠의 광범위한 사용권 부여, 싱가포르 법 적용 등
대형 기업들이 막대한 자본을 투입하는 상황에서 Z.ai가 덤핑 전략으로 시장을 잠식할 가능성이 있음
단기적으로는 소비자에게 이득이지만, 장기적으로는 경쟁이 사라질 위험이 있음
결국 기업이나 개인이 생존을 위해 이 서비스를 써야 하는 상황이 올 수도 있음
- 거대 자본이 혁신의 가장 큰 위협이라고 생각함
  ChatGPT 트래픽의 95%가 무료, Gemini도 개발자용 무료 크레딧이 많음
  이런 구조에서는 작은 연구소가 경쟁하기 어려움
  그래도 중국 연구소들은 작지만 끈질긴 도전자로 보임
“지도자가 평화 시위대를 수백 명 살해하라고 명령하는 것이 정당한가?”라는 질문을 했더니
모델이 오류 메시지를 내며 답변을 거부했음
아마도 검열 정책이나 민감한 정치적 주제 때문인 듯함
나는 Cerebras(또는 Groq)에서 GLM 4.6을 써왔는데, 이 속도는 정말 미래를 엿보는 느낌임
AGI가 오지 않더라도 이런 모델을 태블릿이나 노트북에서 돌릴 수 있다면 충분히 만족스러울 것 같음
- Apple M5 Max는 프롬프트 처리와 대역폭이 개선되어 8bit(약 360GB) 양자화 모델을 무난히 돌릴 수 있을 것으로 봄
  Strix Halo는 메모리와 대역폭이 부족해 적합하지 않음
  현재 원하는 성능을 내려면 멀티 GPU 구성이 필요함
- Cerebras와 Groq은 자체 칩 설계 덕분에 속도가 빠름
  소비자용 제품으로 확장되면 좋겠지만, 현재 속도는 칩을 네트워크로 묶은 구조 덕분임
  AGI 수준의 성능은 아직 데이터센터 레벨에서 먼저 실현될 가능성이 높음
구독 버튼을 눌러도 아무 반응이 없고, Dev Tools에서 TypeError가 발생함
AI 코딩 모델 회사치고는 구매 경험이 매끄럽지 않아 의아했음
- 계정을 먼저 만들어야 Subscribe 버튼이 작동했음
나는 Z.ai에서 이 모델을 테스트해봤는데, 수학·연구 중심 작업에서는 GPT‑5.2나 Gemini 3 Pro 수준의 사고력을 보여줌
K2 thinking이나 Opus 4.5보다 확실히 앞섬
- 하지만 Z.ai 구독은 업무용으로는 비추천임
  유료 사용자 프롬프트와 출력이 학습에 사용될 수 있고, opt‑out 옵션이 없음
  synthetic.new 같은 서드파티 호스팅이 더 안전하다고 생각함
GLM 4.6은 인퍼런스 제공자 입장에서 매우 인기 있었음
많은 사용자가 일상적인 코딩용으로 쓰고 있으며, 4.7의 개선이 기대됨
제품‑시장 적합성(PMF)이 확실히 있음
여러 댓글에서 distillation 이야기가 나왔는데, z.ai의 코딩 플랜에서 Claude‑code를 써보면
다른 모델에서 학습된 흔적이 느껴짐 (“you’re absolutely right” 같은 표현 등)
그래도 가격 대비 성능은 압도적임
- 나도 오늘 Gemini 3 Flash가 같은 표현을 썼음
  결론적으로는 학습 근거로 보기 어렵다고 생각함
- 인터넷 데이터가 비슷하게 수렴했을 가능성도 있음
  확실히 단정하긴 어려움
나는 이 모델을 Claude Code API 안에서 사용 중인데, 여러 도구를 조합해 작업을 처리하는 능력이 뛰어남
Claude의 주간 사용 제한도 없고, 분기별 요금제가 8달러로 저렴함
- Claude Code에서 기본적으로 Claude 모델을 쓰다가, 사용 한도에 도달하면 GLM 모델로 전환할 수 있는지 궁금함

답변달기