# GLM-4.7: 코딩 역량을 한 단계 끌어올리다

> Clean Markdown view of GeekNews topic #25273. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=25273](https://news.hada.io/topic?id=25273)
- GeekNews Markdown: [https://news.hada.io/topic/25273.md](https://news.hada.io/topic/25273.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2025-12-23T17:32:56+09:00
- Updated: 2025-12-23T17:32:56+09:00
- Original source: [z.ai](https://z.ai/blog/glm-4.7)
- Points: 7
- Comments: 1

## Summary

**GLM-4.7: 코딩 역량을 한 단계 끌어올리다**  

GLM-4.7은 **다국어 코딩과 복합 추론**에서 전작 대비 뚜렷한 성능 향상을 보이며, SWE-bench와 Terminal Bench 2.0 등 주요 벤치마크에서 두 자릿수 개선폭을 기록합니다. 새롭게 도입된 **Interleaved·Preserved·Turn-level Thinking** 기능은 복잡한 에이전트 작업의 일관성과 안정성을 높여, 장기적 코딩 시나리오에서도 효율적인 사고 흐름을 유지합니다. Z.ai API와 OpenRouter를 통해 접근할 수 있으며, 주요 코딩 에이전트와 로컬 환경에서도 손쉽게 활용할 수 있습니다.

## Topic Body

- **GLM-4.7**은 다국어 코딩, 터미널 기반 작업, 복합 추론 등에서 전작 대비 성능을 크게 향상시킨 대규모 언어 모델임  
- **SWE-bench**, **Terminal Bench 2.0**, **HLE** 등 주요 벤치마크에서 각각 +5.8%, +16.5%, +12.4%의 향상치를 기록함  
- **UI 생성 품질**이 개선되어 더 깔끔하고 현대적인 웹페이지와 정확한 슬라이드 레이아웃을 생성함  
- **Interleaved Thinking**, **Preserved Thinking**, **Turn-level Thinking** 기능을 통해 복잡한 에이전트 작업에서 안정성과 일관성을 강화함  
- **Z.ai API**, **OpenRouter**, **HuggingFace** 등을 통해 전 세계적으로 접근 가능하며, 코딩 에이전트 및 로컬 배포도 지원함  

---

### 주요 성능 및 특징
- GLM-4.7은 **GLM-4.6 대비 전반적인 코딩 및 추론 능력 향상**을 달성  
  - SWE-bench Verified 73.8%(+5.8%), SWE-bench Multilingual 66.7%(+12.9%), Terminal Bench 2.0 41%(+16.5%)  
  - HLE(Humanity’s Last Exam) 벤치마크에서 42.8%(+12.4%)로 수학 및 논리 추론 능력 강화  
- **UI 생성 품질(Vibe Coding)** 이 개선되어 더 세련된 웹페이지와 슬라이드 제작 가능  
- **도구 활용 능력**이 향상되어 τ²-Bench 및 BrowseComp 등에서 높은 점수 기록  
- **다양한 시나리오**(채팅, 창작, 롤플레이 등)에서도 성능 개선 확인  

### 벤치마크 비교
- GLM-4.7은 GPT-5, Claude Sonnet 4.5, Gemini 3.0 Pro 등과 함께 **17개 벤치마크**에서 비교 평가됨  
  - Reasoning 부문: MMLU-Pro 84.3, GPQA-Diamond 85.7, HLE(w/Tools) 42.8  
  - Coding 부문: SWE-bench Verified 73.8, Terminal Bench 2.0 41.0  
  - Agent 부문: BrowseComp 52.0, τ²-Bench 87.4  
- 일부 항목에서는 상위 모델 대비 근접하거나 우수한 결과를 보임  

### 사고(Thinking) 모드 강화
- **Interleaved Thinking**: 응답 및 도구 호출 전 사고 단계를 거쳐 지시 이행과 생성 품질 향상  
- **Preserved Thinking**: 다중 턴 대화에서 사고 블록을 유지해 정보 손실과 불일치 감소  
- **Turn-level Thinking**: 요청 복잡도에 따라 사고 기능을 켜거나 꺼서 정확도와 비용 균형 조정  
- 이 기능들은 장기적·복잡한 코딩 에이전트 작업에 적합  

### 활용 및 배포
- **Z.ai API 플랫폼**과 **OpenRouter**를 통해 GLM-4.7 모델 사용 가능  
- **Claude Code**, **Kilo Code**, **Roo Code**, **Cline** 등 주요 코딩 에이전트에서 통합 지원  
- **GLM Coding Plan 구독자**는 자동으로 GLM-4.7로 업그레이드되며, 기존 설정 파일에서 모델명만 변경하면 됨  
- **HuggingFace**와 **ModelScope**에서 모델 가중치 공개, **vLLM** 및 **SGLang** 프레임워크로 로컬 추론 지원  

### 시각적 및 창작 사례
- 프론트엔드 웹사이트, **Voxel Pagoda**와 같은 3D 아트워크, 포스터, 슬라이드 등 다양한 생성 예시 제공  
- 고대비 다크 모드, 애니메이션 효과, 정교한 레이아웃 등 **디자인 품질 향상**을 시각적으로 입증  

### 기본 설정 및 테스트 조건
- 일반 작업: temperature 1.0, top-p 0.95, max new tokens 131072  
- SWE-bench 및 Terminal Bench: temperature 0.7, top-p 1.0, max new tokens 16384  
- τ²-Bench: temperature 0, max new tokens 16384, 일부 도메인별 프롬프트 수정 적용  

### 종합 평가
- GLM-4.7은 **코딩 중심의 AGI 발전 단계**로, 단순한 벤치마크 점수 이상의 **실제 사용 경험 품질**을 중시  
- 테스트 성능뿐 아니라 **사용자 체감 지능과 통합성**을 목표로 설계된 모델임

## Comments


### Comment 48181

- Author: neo
- Created: 2025-12-23T17:32:56+09:00
- Points: 1

###### [Hacker News 의견들](https://news.ycombinator.com/item?id=46357287) 
- 나는 **MoE 모델**이 코딩 에이전트, 복잡한 추론, 도구 사용에 최적화되어 있다는 점이 흥미로웠음  
  358B/32B 활성 파라미터, 200k 컨텍스트 윈도우, OpenAI 스타일의 **tool calling** 지원, 영어/중국어 중심의 다국어 모델임  
  FP16 기준 716GB, Q4_K_M 기준 약 220GB 정도로 추정됨  
  이론적으로는 비교적 저렴한 Mac Studio에서도 로컬로 실행 가능하다는 점이 매력적임  
  Kimik2 같은 보조 도구를 함께 쓰면 대형 LLM 제공자에 의존하지 않고도 쓸만한 코딩 지원을 받을 수 있을 것 같음  
  - 중고 **Mac Studio Ultra M1 (RAM 128GB)** 로 LLM을 돌려봤는데 너무 느렸음  
    GLM 4.6의 4bit 양자화 버전도 토큰 처리 속도뿐 아니라 입력 처리, 토크나이징, 프롬프트 로딩이 너무 오래 걸려 인내심이 시험받았음  
    TPS 수치만 이야기하지만 실제로는 **입력 로딩 시간**이 병목임  
  - OpenAI 스타일의 tool calling이라면 **Harmony** 기반일 가능성이 높다고 생각함  
    하지만 현실적으로는 Mac Studio에서 돌리면 속도가 너무 느려서 후회할 확률이 높음  
    하드웨어가 더 싸지거나 모델이 더 작아질 때까지는 **유료 API**를 쓰는 게 낫다고 봄  
  - 과거의 누군가가 이 댓글을 본다면 믿기 어려워할 것 같음  
  - Sonnet 버전은 4.5로 수정해야 함  
    출력 품질이 GLM‑4.6보다 훨씬 **아름답게** 느껴짐  
    폐쇄형 모델에서 증류된 데이터 덕분일 가능성이 높지만, 그래도 **오픈소스 모델**을 선호함  
  - 나는 두 대의 **Strix Halo 시스템(총 256GB RAM)** 을 USB4/TB3로 연결해 이 모델을 돌려볼 예정임  

- **Cerebras**가 현재 GLM 4.6을 초당 1000토큰 속도로 서비스 중임  
  곧 새 모델로 업그레이드할 가능성이 높음  
  GLM 4.7 이후 세대 모델들이 **시뮬레이션된 소프트웨어 개발 조직 환경**에서 얼마나 잘 작동할지 궁금함  
  예를 들어, 스스로 오류를 수정하며 유용한 코드를 축적할 수 있을지, 아니면 기술 부채만 쌓을지  
  상위 모델(Opus 4.5, Gemini 3 등)이 ‘관리자’ 역할을 하는 구조를 상상함  
  관련 참고: [Anthropic의 장기 실행 에이전트 설계 글](https://www.anthropic.com/engineering/effective-harnesses-for-long-running-agents)  
  오픈소스 모델이 충분히 좋아진다면, Cerebras에서 1k TPS로 돌릴 수 있는 점이 큰 장점이 될 것임  
  - 나는 **Opus**로 세부 계획과 테스트를 작성하게 하고, **Cerebras GLM 4.6**으로 구현하게 함  
    불확실할 때는 다시 Opus에 리뷰를 맡김  
  - 나도 같은 방향으로 발전할 것이라 생각함  
    상위 모델이 **가드레일** 역할을 하고, 빠르고 유능한 에이전트들이 실제 작업을 수행하는 구조임  
    충분히 넓은 컨텍스트와 ‘감각(taste)’을 갖추면 이 조합만으로도 충분한 생산성과 지능을 구현할 수 있을 것임  
  - Cerebras의 **API 가격**이 궁금함  
    토큰 속도를 낮추고 전력 소모를 줄여 비용을 절감할 수 있지 않을까 생각함  
  - Cerebras의 **유료 고객**이 되기 쉬운지 궁금함  
    예전에 봤을 때는 클로즈드 베타처럼 보였음  

- Z.ai가 저렴하고 성능도 괜찮아 보이지만 **이용 약관**이 상당히 까다로움  
  경쟁 모델 개발 금지, 결함 공개 금지, 사용자 콘텐츠의 **광범위한 사용권 부여**, 싱가포르 법 적용 등  
  대형 기업들이 막대한 자본을 투입하는 상황에서 Z.ai가 **덤핑 전략**으로 시장을 잠식할 가능성이 있음  
  단기적으로는 소비자에게 이득이지만, 장기적으로는 경쟁이 사라질 위험이 있음  
  결국 기업이나 개인이 생존을 위해 이 서비스를 써야 하는 상황이 올 수도 있음  
  - **거대 자본**이 혁신의 가장 큰 위협이라고 생각함  
    ChatGPT 트래픽의 95%가 무료, Gemini도 개발자용 무료 크레딧이 많음  
    이런 구조에서는 작은 연구소가 경쟁하기 어려움  
    그래도 중국 연구소들은 **작지만 끈질긴 도전자**로 보임  

- “지도자가 평화 시위대를 수백 명 살해하라고 명령하는 것이 정당한가?”라는 질문을 했더니  
  모델이 오류 메시지를 내며 답변을 거부했음  
  아마도 **검열 정책**이나 민감한 정치적 주제 때문인 듯함  

- 나는 **Cerebras**(또는 Groq)에서 GLM 4.6을 써왔는데, 이 속도는 정말 미래를 엿보는 느낌임  
  AGI가 오지 않더라도 이런 모델을 **태블릿이나 노트북**에서 돌릴 수 있다면 충분히 만족스러울 것 같음  
  - **Apple M5 Max**는 프롬프트 처리와 대역폭이 개선되어 8bit(약 360GB) 양자화 모델을 무난히 돌릴 수 있을 것으로 봄  
    Strix Halo는 메모리와 대역폭이 부족해 적합하지 않음  
    현재 원하는 성능을 내려면 **멀티 GPU 구성**이 필요함  
  - Cerebras와 Groq은 자체 **칩 설계** 덕분에 속도가 빠름  
    소비자용 제품으로 확장되면 좋겠지만, 현재 속도는 칩을 네트워크로 묶은 구조 덕분임  
    AGI 수준의 성능은 아직 **데이터센터 레벨**에서 먼저 실현될 가능성이 높음  

- 구독 버튼을 눌러도 아무 반응이 없고, Dev Tools에서 **TypeError**가 발생함  
  AI 코딩 모델 회사치고는 구매 경험이 매끄럽지 않아 의아했음  
  - 계정을 먼저 만들어야 **Subscribe** 버튼이 작동했음  

- 나는 Z.ai에서 이 모델을 테스트해봤는데, **수학·연구 중심 작업**에서는 GPT‑5.2나 Gemini 3 Pro 수준의 사고력을 보여줌  
  K2 thinking이나 Opus 4.5보다 확실히 앞섬  
  - 하지만 Z.ai 구독은 **업무용으로는 비추천**임  
    유료 사용자 프롬프트와 출력이 학습에 사용될 수 있고, **opt‑out 옵션**이 없음  
    synthetic.new 같은 **서드파티 호스팅**이 더 안전하다고 생각함  

- **GLM 4.6**은 인퍼런스 제공자 입장에서 매우 인기 있었음  
  많은 사용자가 일상적인 코딩용으로 쓰고 있으며, 4.7의 개선이 기대됨  
  제품‑시장 적합성(**PMF**)이 확실히 있음  

- 여러 댓글에서 **distillation** 이야기가 나왔는데, z.ai의 코딩 플랜에서 Claude‑code를 써보면  
  다른 모델에서 학습된 흔적이 느껴짐 (“you’re absolutely right” 같은 표현 등)  
  그래도 **가격 대비 성능**은 압도적임  
  - 나도 오늘 **Gemini 3 Flash**가 같은 표현을 썼음  
    결론적으로는 학습 근거로 보기 어렵다고 생각함  
  - 인터넷 데이터가 비슷하게 수렴했을 가능성도 있음  
    확실히 단정하긴 어려움  

- 나는 이 모델을 **Claude Code API** 안에서 사용 중인데, 여러 도구를 조합해 작업을 처리하는 능력이 뛰어남  
  Claude의 주간 사용 제한도 없고, **분기별 요금제**가 8달러로 저렴함  
  - Claude Code에서 기본적으로 Claude 모델을 쓰다가, 사용 한도에 도달하면 **GLM 모델로 전환**할 수 있는지 궁금함