# GLM-4.7-Flash 모델 공개

> Clean Markdown view of GeekNews topic #25975. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=25975](https://news.hada.io/topic?id=25975)
- GeekNews Markdown: [https://news.hada.io/topic/25975.md](https://news.hada.io/topic/25975.md)
- Type: GN+
- Author: [xguru](https://news.hada.io/@xguru)
- Published: 2026-01-20T12:04:21+09:00
- Updated: 2026-01-20T12:04:21+09:00
- Original source: [huggingface.co](https://huggingface.co/zai-org/GLM-4.7-Flash)
- Points: 11
- Comments: 4

## Summary

**GLM-4.7-Flash**는 30B-A3B Mixture-of-Experts 구조를 채택해 대형 언어 모델의 성능과 효율성을 동시에 확보한 **경량 배포용 모델**입니다. AIME 25, GPQA, SWE-bench 등 주요 벤치마크에서 동급 모델을 상회하는 결과를 보여, 오픈소스 기반 AI 연구와 로컬 추론 환경의 실용적 확장을 뒷받침합니다. vLLM과 SGLang을 통한 배포 지원으로, 대규모 모델의 활용 장벽을 한층 낮춥니다.

## Topic Body

- **GLM-4.7-Flash**는 30B-A3B MoE 구조를 가진 대형 언어 모델로, 성능과 효율성을 균형 있게 제공하는 **경량 배포용 모델**  
- AIME 25, GPQA, SWE-bench 등 다양한 **벤치마크 테스트에서 높은 점수**를 기록하며 동급 모델(Qwen3-30B/GPT-OSS-20B) 대비 경쟁력 있는 결과  
- 30B급 모델 중 최고 수준의 성능을 지향하며, **오픈소스 기반 AI 연구와 배포 효율화**를 위한 중요한 진전  
  
---  
  
### 소개 (Introduction)  
- **GLM-4.7-Flash**는 30B-A3B Mixture-of-Experts(MoE) 모델로, 30B급 모델 중 가장 강력한 성능을 목표로 함  
  - 성능과 효율성의 균형을 중시한 **경량 배포 옵션** 제공  
  - 대규모 모델을 보다 효율적으로 활용할 수 있는 설계  
  
### 벤치마크 성능 (Performances on Benchmarks)  
- 다양한 **표준 벤치마크 테스트**에서 GLM-4.7-Flash의 성능 수치 제시  
  - **AIME 25**: 91.6 (Qwen3-30B-A3B-Thinking-2507은 85.0, GPT-OSS-20B는 91.7)  
  - **GPQA**: 75.2 (비교 모델보다 높음)  
  - **LCB v6**: 64.0  
  - **HLE**: 14.4  
  - **SWE-bench Verified**: 59.2 (다른 모델 대비 큰 차이)  
  - **τ²-Bench**: 79.5  
  - **BrowseComp**: 42.8  
- 여러 항목에서 **Qwen3-30B-A3B-Thinking-2507** 및 **GPT-OSS-20B**보다 우수한 결과를 보임  
  
### 로컬 배포 (Serve GLM-4.7-Flash Locally)  
- GLM-4.7-Flash는 **vLLM**과 **SGLang** 추론 프레임워크를 지원  
  - 두 프레임워크 모두 **메인 브랜치에서만 지원**  
  - 공식 **[GitHub 저장소(zai-org/GLM-4.5)](https://github.com/zai-org/GLM-4.5)** 에서 배포 지침 확인

## Comments


### Comment 49529

- Author: kimjoin2
- Created: 2026-01-20T13:01:48+09:00
- Points: 1

30B 면... vram 얼마나 필요한거죠? ㅜ

### Comment 49569

- Author: crawler
- Created: 2026-01-21T08:49:50+09:00
- Points: 1
- Parent comment: 49529
- Depth: 1

30B A3B라서 그렇게 무겁진 않습니다.  
30B라는 공간은 확보되어야 하지만, 일단 공간만 확보되면 액티브 파라미터는 3B라서 속도가 빠릅니다.  
  
그래서 많이 쓰이는 레이어만 VRAM에 탑재하는 식으로 최적화 하는 방법도 봤던 거 같습니다.

### Comment 49533

- Author: geekygeek
- Created: 2026-01-20T13:43:14+09:00
- Points: 1
- Parent comment: 49529
- Depth: 1

VRAM 24GB..? 혹은 맥이면 RAM 32GB면 최소는 될 것 같아요.

### Comment 49526

- Author: neo
- Created: 2026-01-20T12:04:21+09:00
- Points: 1

###### [Hacker News 의견들](https://news.ycombinator.com/item?id=46679872) 
- 나는 최근 **OpenCode**로 실험 중이며, 32GB GPU에서 llama.cpp(4bit)로 30B-A3B 모델을 돌리고 있음  
  VRAM이 충분해서 128k 컨텍스트도 여유 있게 사용 가능함  
  지금까지는 **Qwen3-coder**가 가장 좋은 결과를 줬음. Nemotron 3 Nano가 벤치마크상 더 좋다고 하지만, 내가 주로 하는 “테스트 코드 작성” 작업에서는 큰 차이를 못 느꼈음  
  누군가가 4bit GGUF로 양자화해주면 시도해볼 예정임. Codex는 품질이 높지만 너무 느림. 작은 모델들이 단순 벤치마크뿐 아니라 실제 품질도 점점 좋아지길 바람
  - [GLM-4.7-GGUF](https://huggingface.co/unsloth/GLM-4.7-GGUF) 모델을 추천함. 또 다른 좋은 양자화 작업들은 [0xSero](https://huggingface.co/0xSero)에서도 확인 가능함
  - Codex가 보통 더 높은 품질을 내지만, 가끔은 **AI 슬롭** 수준의 결과를 내서 오히려 Opus로 몇 분 만에 끝낼 일을 오래 기다리게 됨
- 나는 **z.ai**의 코딩 플랜으로 GLM-4.7을 사용 중이며, 가격 대비 성능이 놀라울 정도임  
  claude-code와 opencode를 함께 쓰지만, 최근엔 opencode 쪽을 더 많이 씀. claude-code는 Anthropic 모델에 최적화되어 있어서임  
  이번 릴리스는 “-Flash” 버전으로, 이전 4.5-Flash에서 4.6-Flash를 건너뛰고 바로 올라왔음. 문서에 따르면 **Haiku**와 동등한 모델이며, `ANTHROPIC_DEFAULT_HAIKU_MODEL`로 지정되어 있음
  - 최근 성능이 어떤지 궁금함. 일부 사용자는 제한이 바뀌어 거의 쓸 수 없다고 들었음
  - 나도 같은 플랜을 쓰고 있음. 프로모션으로 12개월 $28에 구입했고, Claude Pro보다 **5배 사용량**을 제공함. 지금은 claude code만 사용 중임
- GLM-4.7은 점진적 개선이지만 꽤 탄탄해 보임. **UI oneshot 데모**가 4.6보다 훨씬 좋아졌음  
  오픈모델은 여전히 벤치마크에서 약 1년 정도 뒤처지지만, 장기적으로는 흥미로움  
  GLM은 355B 파라미터 중 31B만 활성이라 **self-host**는 어렵지만, **Cerebras 엔드포인트**로 쓰기엔 괜찮은 후보라고 생각함
  - 나는 어제 Cerebras에서 GLM-4.7(Flash 아님)을 $10 크레딧으로 테스트했음. 초당 1000토큰이라 빠르지만, **rate limit** 때문에 실사용은 불편함. 캐시된 토큰도 제한에 포함되어 매 분 초반에 막히고 기다려야 함  
    캐시된 토큰에도 요금이 부과되어 단순 작업 하나에 $4를 썼음. GPT-5.2-Codex로 하면 $0.5도 안 들었을 것임
  - 벤치마크 얘기는 많지만 실제 작업 부하와는 다름. 나는 **claude**를 중단하고 **minimax m2.1**로 옮겼음. open code와 함께 써보니 오히려 더 마음에 듦. $10 플랜으로 충분함
  - 오픈모델은 결국 **distillation**로 따라가는 구조라, 혁신이 없는 한 항상 뒤처질 것임. “따라잡는다”기보다 트럭에 매달린 트레일러 같음
  - UI 데모로 모델 품질을 판단하는 건 부적절함. UI가 분포 밖이면 대부분 실패함. Codex조차 완벽하지 않음
- 나는 **LMStudio**에서 M4 MacBook Pro로 실행해봤는데, **gpt-oss-20b**보다 훨씬 나쁨  
  두 번의 코드 프롬프트 모두 잘못된 코드와 무한 루프를 생성함. LMStudio의 양자화 방식 문제일 수도 있지만 첫인상은 좋지 않음
  - 혹시 **BF16 전체 모델**을 쓰는지, 아니면 **mlx4 양자화** 버전인지 궁금함
- 로컬에서 이미 돌리고 있는 사람들에게 묻고 싶음 — 지금 가장 간단한 세팅(툴링 + 양자화 포맷)은 무엇인지? 작동하는 명령어 예시가 있으면 공유 부탁함
  - 나는 **llama.cpp**의 CUDA 백엔드로 컴파일한 **llama-server**를 사용 중임. Lubuntu + RTX 3090 환경에서 **Q4_K_M quant** 버전을 돌림  
    관련 링크: [llama.cpp releases](https://github.com/ggml-org/llama.cpp/releases), [GLM-4.7-Flash-GGUF](https://huggingface.co/ngxson/GLM-4.7-Flash-GGUF/blob/main/GLM-4.7-Flash-Q4_K_M.gguf), [supported backends](https://github.com/ggml-org/llama.cpp?tab=readme-ov-file#supported-backends)  
    ```
    llama-server -ngl 999 --ctx-size 32768 -m GLM-4.7-Flash-Q4_K_M.gguf
    ```  
    이후 [http://127.0.0.1:8080](http://127.0.0.1:8080)에서 채팅하거나 OpenAI 호환 API로 접근 가능함  
    다만 새 모델 출시 직후엔 **버그**가 있을 수 있으니 며칠 후 업데이트 권장함
  - `ollama run hf.co/ngxson/GLM-4.7-Flash-GGUF:Q4_K_M` 명령으로도 실행 가능함. 속도는 빠르지만 템플릿이 아직 완성되지 않아 출력이 엉망임. **ollama.com**에 정식 템플릿이 올라오길 기다리는 중임
  - **LM Studio**에서 “4.7-flash”를 검색해 mlx 커뮤니티 버전을 설치하면 됨
  - 개인적으로는 **llama.cpp 4bit quant**나 그 래퍼를 추천함
- 이번 릴리스 설명에 따르면,  
  “GLM-4.7-Flash는 **경량·고효율 모델**로, GLM-4.7의 무료 버전이며 코딩·추론·생성 작업에서 낮은 지연과 높은 처리량을 제공함.  
  번역, 롤플레이, 미적 생성 등에서도 강력한 성능을 보임.”  
  자세한 내용은 [공식 릴리스 노트](https://docs.z.ai/release-notes/new-released) 참고  
  - 올해 게시된 두 개의 노트가 실수로 **2025년**으로 표시되어 있음. 수동으로 작성된 페이지일 가능성이 있음
- 이 릴리스가 왜 중요한지 궁금한 사람에게 설명하자면,  
  이제 **MacBook 32GB RAM**에서도 GPT-5-mini 수준의 AI를 로컬로 돌릴 수 있음  
  또한 LLM-as-a-service 비용이 훨씬 저렴해짐 — Haiku 4.5 대비 **1/10 가격** 수준임
- SWE-bench Verified 점수가 **59.2**로, 30B 모델치고 꽤 인상적임. Qwen3-Coder 480B의 55.4보다 높음
  - **Devstral 2 Small**(24B)이 68.0%로 더 높음. [공식 링크](https://mistral.ai/news/devstral-2-vibe-cli)
  - 하지만 SWE-Bench Verified는 이제 신뢰하기 어려움. 리포지토리와 언어가 제한적이고, **데이터 암기 문제**도 있음. SWE-Bench Pro가 더 유망하지만 완벽하진 않음
- 나는 빠른 작업이 필요할 땐 **Gemini**나 **Cerebras**를 사용함. [Cerebras 블로그](https://www.cerebras.ai/blog/glm-4-7) 참고  
  GLM 4.7은 일상용으로 충분하지만 **지시문 이해력**이 부족할 때가 있어 답답함
  - 나에게 **Opus 4.5**가 좋은 이유도 바로 그 **지시문 처리 능력** 때문임. 다음 버전에서 개선되길 바람
- GLM 4.7이 GPT-OSS-20B와 비교된다는 건 신뢰가 덜 감. Sonnet 4/4.5 수준이라면 Flash 버전이 GPT-OSS-120B를 압도해야 한다고 생각함. **Aider 결과**도 함께 제공했으면 좋겠음  
  - 30-A3B가 117-A5.1B를 능가하길 기대하는 건 과한 바람임. 다만 **에이전트 호출** 쪽에서는 GPT-20B보다 뛰어난 듯함  
  - 실제 써보니 벤치마크는 과장임. 단순 작업엔 괜찮지만 Sonnet에는 한참 못 미침. 그래도 **가성비**는 좋음  
  - 코드 품질 기준으로 보면 Sonnet 3.5 수준임. Sonnet 4/4.5와는 거리가 있음