GLM-4.7-Flash 모델 공개

(huggingface.co)

11P by GN⁺ 1달전 | ★ favorite | 댓글 4개

GLM-4.7-Flash는 30B-A3B MoE 구조를 가진 대형 언어 모델로, 성능과 효율성을 균형 있게 제공하는 경량 배포용 모델
AIME 25, GPQA, SWE-bench 등 다양한 벤치마크 테스트에서 높은 점수를 기록하며 동급 모델(Qwen3-30B/GPT-OSS-20B) 대비 경쟁력 있는 결과
30B급 모델 중 최고 수준의 성능을 지향하며, 오픈소스 기반 AI 연구와 배포 효율화를 위한 중요한 진전

소개 (Introduction)

GLM-4.7-Flash는 30B-A3B Mixture-of-Experts(MoE) 모델로, 30B급 모델 중 가장 강력한 성능을 목표로 함
- 성능과 효율성의 균형을 중시한 경량 배포 옵션 제공
- 대규모 모델을 보다 효율적으로 활용할 수 있는 설계

벤치마크 성능 (Performances on Benchmarks)

다양한 표준 벤치마크 테스트에서 GLM-4.7-Flash의 성능 수치 제시
- AIME 25: 91.6 (Qwen3-30B-A3B-Thinking-2507은 85.0, GPT-OSS-20B는 91.7)
- GPQA: 75.2 (비교 모델보다 높음)
- LCB v6: 64.0
- HLE: 14.4
- SWE-bench Verified: 59.2 (다른 모델 대비 큰 차이)
- τ²-Bench: 79.5
- BrowseComp: 42.8
여러 항목에서 Qwen3-30B-A3B-Thinking-2507 및 GPT-OSS-20B보다 우수한 결과를 보임

로컬 배포 (Serve GLM-4.7-Flash Locally)

GLM-4.7-Flash는 vLLM과 SGLang 추론 프레임워크를 지원
- 두 프레임워크 모두 메인 브랜치에서만 지원
- 공식 GitHub 저장소(zai-org/GLM-4.5) 에서 배포 지침 확인

▲

kimjoin2 1달전 [-]

30B 면... vram 얼마나 필요한거죠? ㅜ

답변달기

▲

crawler 1달전 [-]

30B A3B라서 그렇게 무겁진 않습니다.
30B라는 공간은 확보되어야 하지만, 일단 공간만 확보되면 액티브 파라미터는 3B라서 속도가 빠릅니다.

그래서 많이 쓰이는 레이어만 VRAM에 탑재하는 식으로 최적화 하는 방법도 봤던 거 같습니다.

답변달기

▲

geekygeek 1달전 [-]

VRAM 24GB..? 혹은 맥이면 RAM 32GB면 최소는 될 것 같아요.

답변달기

▲

GN⁺ 1달전 [-]

Hacker News 의견들

나는 최근 OpenCode로 실험 중이며, 32GB GPU에서 llama.cpp(4bit)로 30B-A3B 모델을 돌리고 있음
VRAM이 충분해서 128k 컨텍스트도 여유 있게 사용 가능함
지금까지는 Qwen3-coder가 가장 좋은 결과를 줬음. Nemotron 3 Nano가 벤치마크상 더 좋다고 하지만, 내가 주로 하는 “테스트 코드 작성” 작업에서는 큰 차이를 못 느꼈음
누군가가 4bit GGUF로 양자화해주면 시도해볼 예정임. Codex는 품질이 높지만 너무 느림. 작은 모델들이 단순 벤치마크뿐 아니라 실제 품질도 점점 좋아지길 바람
- GLM-4.7-GGUF 모델을 추천함. 또 다른 좋은 양자화 작업들은 0xSero에서도 확인 가능함
- Codex가 보통 더 높은 품질을 내지만, 가끔은 AI 슬롭 수준의 결과를 내서 오히려 Opus로 몇 분 만에 끝낼 일을 오래 기다리게 됨
나는 z.ai의 코딩 플랜으로 GLM-4.7을 사용 중이며, 가격 대비 성능이 놀라울 정도임
claude-code와 opencode를 함께 쓰지만, 최근엔 opencode 쪽을 더 많이 씀. claude-code는 Anthropic 모델에 최적화되어 있어서임
이번 릴리스는 “-Flash” 버전으로, 이전 4.5-Flash에서 4.6-Flash를 건너뛰고 바로 올라왔음. 문서에 따르면 Haiku와 동등한 모델이며, ANTHROPIC_DEFAULT_HAIKU_MODEL로 지정되어 있음
- 최근 성능이 어떤지 궁금함. 일부 사용자는 제한이 바뀌어 거의 쓸 수 없다고 들었음
- 나도 같은 플랜을 쓰고 있음. 프로모션으로 12개월 $28에 구입했고, Claude Pro보다 5배 사용량을 제공함. 지금은 claude code만 사용 중임
GLM-4.7은 점진적 개선이지만 꽤 탄탄해 보임. UI oneshot 데모가 4.6보다 훨씬 좋아졌음
오픈모델은 여전히 벤치마크에서 약 1년 정도 뒤처지지만, 장기적으로는 흥미로움
GLM은 355B 파라미터 중 31B만 활성이라 self-host는 어렵지만, Cerebras 엔드포인트로 쓰기엔 괜찮은 후보라고 생각함
- 나는 어제 Cerebras에서 GLM-4.7(Flash 아님)을 $10 크레딧으로 테스트했음. 초당 1000토큰이라 빠르지만, rate limit 때문에 실사용은 불편함. 캐시된 토큰도 제한에 포함되어 매 분 초반에 막히고 기다려야 함
  캐시된 토큰에도 요금이 부과되어 단순 작업 하나에 $4를 썼음. GPT-5.2-Codex로 하면 $0.5도 안 들었을 것임
- 벤치마크 얘기는 많지만 실제 작업 부하와는 다름. 나는 claude를 중단하고 minimax m2.1로 옮겼음. open code와 함께 써보니 오히려 더 마음에 듦. $10 플랜으로 충분함
- 오픈모델은 결국 distillation로 따라가는 구조라, 혁신이 없는 한 항상 뒤처질 것임. “따라잡는다”기보다 트럭에 매달린 트레일러 같음
- UI 데모로 모델 품질을 판단하는 건 부적절함. UI가 분포 밖이면 대부분 실패함. Codex조차 완벽하지 않음
나는 LMStudio에서 M4 MacBook Pro로 실행해봤는데, gpt-oss-20b보다 훨씬 나쁨
두 번의 코드 프롬프트 모두 잘못된 코드와 무한 루프를 생성함. LMStudio의 양자화 방식 문제일 수도 있지만 첫인상은 좋지 않음
- 혹시 BF16 전체 모델을 쓰는지, 아니면 mlx4 양자화 버전인지 궁금함
로컬에서 이미 돌리고 있는 사람들에게 묻고 싶음 — 지금 가장 간단한 세팅(툴링 + 양자화 포맷)은 무엇인지? 작동하는 명령어 예시가 있으면 공유 부탁함
- 나는 llama.cpp의 CUDA 백엔드로 컴파일한 llama-server를 사용 중임. Lubuntu + RTX 3090 환경에서 Q4_K_M quant 버전을 돌림
  관련 링크: llama.cpp releases, GLM-4.7-Flash-GGUF, supported backends
```
llama-server -ngl 999 --ctx-size 32768 -m GLM-4.7-Flash-Q4_K_M.gguf
```
  이후 http://127.0.0.1:8080에서 채팅하거나 OpenAI 호환 API로 접근 가능함
  다만 새 모델 출시 직후엔 버그가 있을 수 있으니 며칠 후 업데이트 권장함
- ollama run hf.co/ngxson/GLM-4.7-Flash-GGUF:Q4_K_M 명령으로도 실행 가능함. 속도는 빠르지만 템플릿이 아직 완성되지 않아 출력이 엉망임. ollama.com에 정식 템플릿이 올라오길 기다리는 중임
- LM Studio에서 “4.7-flash”를 검색해 mlx 커뮤니티 버전을 설치하면 됨
- 개인적으로는 llama.cpp 4bit quant나 그 래퍼를 추천함
이번 릴리스 설명에 따르면,
“GLM-4.7-Flash는 경량·고효율 모델로, GLM-4.7의 무료 버전이며 코딩·추론·생성 작업에서 낮은 지연과 높은 처리량을 제공함.
번역, 롤플레이, 미적 생성 등에서도 강력한 성능을 보임.”
자세한 내용은 공식 릴리스 노트 참고
- 올해 게시된 두 개의 노트가 실수로 2025년으로 표시되어 있음. 수동으로 작성된 페이지일 가능성이 있음
이 릴리스가 왜 중요한지 궁금한 사람에게 설명하자면,
이제 MacBook 32GB RAM에서도 GPT-5-mini 수준의 AI를 로컬로 돌릴 수 있음
또한 LLM-as-a-service 비용이 훨씬 저렴해짐 — Haiku 4.5 대비 1/10 가격 수준임
SWE-bench Verified 점수가 59.2로, 30B 모델치고 꽤 인상적임. Qwen3-Coder 480B의 55.4보다 높음
- Devstral 2 Small(24B)이 68.0%로 더 높음. 공식 링크
- 하지만 SWE-Bench Verified는 이제 신뢰하기 어려움. 리포지토리와 언어가 제한적이고, 데이터 암기 문제도 있음. SWE-Bench Pro가 더 유망하지만 완벽하진 않음
나는 빠른 작업이 필요할 땐 Gemini나 Cerebras를 사용함. Cerebras 블로그 참고
GLM 4.7은 일상용으로 충분하지만 지시문 이해력이 부족할 때가 있어 답답함
- 나에게 Opus 4.5가 좋은 이유도 바로 그 지시문 처리 능력 때문임. 다음 버전에서 개선되길 바람
GLM 4.7이 GPT-OSS-20B와 비교된다는 건 신뢰가 덜 감. Sonnet 4/4.5 수준이라면 Flash 버전이 GPT-OSS-120B를 압도해야 한다고 생각함. Aider 결과도 함께 제공했으면 좋겠음
- 30-A3B가 117-A5.1B를 능가하길 기대하는 건 과한 바람임. 다만 에이전트 호출 쪽에서는 GPT-20B보다 뛰어난 듯함
- 실제 써보니 벤치마크는 과장임. 단순 작업엔 괜찮지만 Sonnet에는 한참 못 미침. 그래도 가성비는 좋음
- 코드 품질 기준으로 보면 Sonnet 3.5 수준임. Sonnet 4/4.5와는 거리가 있음

답변달기