8P by GN⁺ 17시간전 | ★ favorite | 댓글 3개
  • GLM-4.7-Flash는 30B-A3B MoE 구조를 가진 대형 언어 모델로, 성능과 효율성을 균형 있게 제공하는 경량 배포용 모델
  • AIME 25, GPQA, SWE-bench 등 다양한 벤치마크 테스트에서 높은 점수를 기록하며 동급 모델(Qwen3-30B/GPT-OSS-20B) 대비 경쟁력 있는 결과
  • 30B급 모델 중 최고 수준의 성능을 지향하며, 오픈소스 기반 AI 연구와 배포 효율화를 위한 중요한 진전

소개 (Introduction)

  • GLM-4.7-Flash는 30B-A3B Mixture-of-Experts(MoE) 모델로, 30B급 모델 중 가장 강력한 성능을 목표로 함
    • 성능과 효율성의 균형을 중시한 경량 배포 옵션 제공
    • 대규모 모델을 보다 효율적으로 활용할 수 있는 설계

벤치마크 성능 (Performances on Benchmarks)

  • 다양한 표준 벤치마크 테스트에서 GLM-4.7-Flash의 성능 수치 제시
    • AIME 25: 91.6 (Qwen3-30B-A3B-Thinking-2507은 85.0, GPT-OSS-20B는 91.7)
    • GPQA: 75.2 (비교 모델보다 높음)
    • LCB v6: 64.0
    • HLE: 14.4
    • SWE-bench Verified: 59.2 (다른 모델 대비 큰 차이)
    • τ²-Bench: 79.5
    • BrowseComp: 42.8
  • 여러 항목에서 Qwen3-30B-A3B-Thinking-2507GPT-OSS-20B보다 우수한 결과를 보임

로컬 배포 (Serve GLM-4.7-Flash Locally)

  • GLM-4.7-Flash는 vLLMSGLang 추론 프레임워크를 지원

30B 면... vram 얼마나 필요한거죠? ㅜ

VRAM 24GB..? 혹은 맥이면 RAM 32GB면 최소는 될 것 같아요.

Hacker News 의견들
  • 나는 최근 OpenCode로 실험 중이며, 32GB GPU에서 llama.cpp(4bit)로 30B-A3B 모델을 돌리고 있음
    VRAM이 충분해서 128k 컨텍스트도 여유 있게 사용 가능함
    지금까지는 Qwen3-coder가 가장 좋은 결과를 줬음. Nemotron 3 Nano가 벤치마크상 더 좋다고 하지만, 내가 주로 하는 “테스트 코드 작성” 작업에서는 큰 차이를 못 느꼈음
    누군가가 4bit GGUF로 양자화해주면 시도해볼 예정임. Codex는 품질이 높지만 너무 느림. 작은 모델들이 단순 벤치마크뿐 아니라 실제 품질도 점점 좋아지길 바람
    • GLM-4.7-GGUF 모델을 추천함. 또 다른 좋은 양자화 작업들은 0xSero에서도 확인 가능함
    • Codex가 보통 더 높은 품질을 내지만, 가끔은 AI 슬롭 수준의 결과를 내서 오히려 Opus로 몇 분 만에 끝낼 일을 오래 기다리게 됨
  • 나는 z.ai의 코딩 플랜으로 GLM-4.7을 사용 중이며, 가격 대비 성능이 놀라울 정도임
    claude-code와 opencode를 함께 쓰지만, 최근엔 opencode 쪽을 더 많이 씀. claude-code는 Anthropic 모델에 최적화되어 있어서임
    이번 릴리스는 “-Flash” 버전으로, 이전 4.5-Flash에서 4.6-Flash를 건너뛰고 바로 올라왔음. 문서에 따르면 Haiku와 동등한 모델이며, ANTHROPIC_DEFAULT_HAIKU_MODEL로 지정되어 있음
    • 최근 성능이 어떤지 궁금함. 일부 사용자는 제한이 바뀌어 거의 쓸 수 없다고 들었음
    • 나도 같은 플랜을 쓰고 있음. 프로모션으로 12개월 $28에 구입했고, Claude Pro보다 5배 사용량을 제공함. 지금은 claude code만 사용 중임
  • GLM-4.7은 점진적 개선이지만 꽤 탄탄해 보임. UI oneshot 데모가 4.6보다 훨씬 좋아졌음
    오픈모델은 여전히 벤치마크에서 약 1년 정도 뒤처지지만, 장기적으로는 흥미로움
    GLM은 355B 파라미터 중 31B만 활성이라 self-host는 어렵지만, Cerebras 엔드포인트로 쓰기엔 괜찮은 후보라고 생각함
    • 나는 어제 Cerebras에서 GLM-4.7(Flash 아님)을 $10 크레딧으로 테스트했음. 초당 1000토큰이라 빠르지만, rate limit 때문에 실사용은 불편함. 캐시된 토큰도 제한에 포함되어 매 분 초반에 막히고 기다려야 함
      캐시된 토큰에도 요금이 부과되어 단순 작업 하나에 $4를 썼음. GPT-5.2-Codex로 하면 $0.5도 안 들었을 것임
    • 벤치마크 얘기는 많지만 실제 작업 부하와는 다름. 나는 claude를 중단하고 minimax m2.1로 옮겼음. open code와 함께 써보니 오히려 더 마음에 듦. $10 플랜으로 충분함
    • 오픈모델은 결국 distillation로 따라가는 구조라, 혁신이 없는 한 항상 뒤처질 것임. “따라잡는다”기보다 트럭에 매달린 트레일러 같음
    • UI 데모로 모델 품질을 판단하는 건 부적절함. UI가 분포 밖이면 대부분 실패함. Codex조차 완벽하지 않음
  • 나는 LMStudio에서 M4 MacBook Pro로 실행해봤는데, gpt-oss-20b보다 훨씬 나쁨
    두 번의 코드 프롬프트 모두 잘못된 코드와 무한 루프를 생성함. LMStudio의 양자화 방식 문제일 수도 있지만 첫인상은 좋지 않음
    • 혹시 BF16 전체 모델을 쓰는지, 아니면 mlx4 양자화 버전인지 궁금함
  • 로컬에서 이미 돌리고 있는 사람들에게 묻고 싶음 — 지금 가장 간단한 세팅(툴링 + 양자화 포맷)은 무엇인지? 작동하는 명령어 예시가 있으면 공유 부탁함
    • 나는 llama.cpp의 CUDA 백엔드로 컴파일한 llama-server를 사용 중임. Lubuntu + RTX 3090 환경에서 Q4_K_M quant 버전을 돌림
      관련 링크: llama.cpp releases, GLM-4.7-Flash-GGUF, supported backends
      llama-server -ngl 999 --ctx-size 32768 -m GLM-4.7-Flash-Q4_K_M.gguf
      
      이후 http://127.0.0.1:8080에서 채팅하거나 OpenAI 호환 API로 접근 가능함
      다만 새 모델 출시 직후엔 버그가 있을 수 있으니 며칠 후 업데이트 권장함
    • ollama run hf.co/ngxson/GLM-4.7-Flash-GGUF:Q4_K_M 명령으로도 실행 가능함. 속도는 빠르지만 템플릿이 아직 완성되지 않아 출력이 엉망임. ollama.com에 정식 템플릿이 올라오길 기다리는 중임
    • LM Studio에서 “4.7-flash”를 검색해 mlx 커뮤니티 버전을 설치하면 됨
    • 개인적으로는 llama.cpp 4bit quant나 그 래퍼를 추천함
  • 이번 릴리스 설명에 따르면,
    “GLM-4.7-Flash는 경량·고효율 모델로, GLM-4.7의 무료 버전이며 코딩·추론·생성 작업에서 낮은 지연과 높은 처리량을 제공함.
    번역, 롤플레이, 미적 생성 등에서도 강력한 성능을 보임.”
    자세한 내용은 공식 릴리스 노트 참고
    • 올해 게시된 두 개의 노트가 실수로 2025년으로 표시되어 있음. 수동으로 작성된 페이지일 가능성이 있음
  • 이 릴리스가 왜 중요한지 궁금한 사람에게 설명하자면,
    이제 MacBook 32GB RAM에서도 GPT-5-mini 수준의 AI를 로컬로 돌릴 수 있음
    또한 LLM-as-a-service 비용이 훨씬 저렴해짐 — Haiku 4.5 대비 1/10 가격 수준임
  • SWE-bench Verified 점수가 59.2로, 30B 모델치고 꽤 인상적임. Qwen3-Coder 480B의 55.4보다 높음
    • Devstral 2 Small(24B)이 68.0%로 더 높음. 공식 링크
    • 하지만 SWE-Bench Verified는 이제 신뢰하기 어려움. 리포지토리와 언어가 제한적이고, 데이터 암기 문제도 있음. SWE-Bench Pro가 더 유망하지만 완벽하진 않음
  • 나는 빠른 작업이 필요할 땐 GeminiCerebras를 사용함. Cerebras 블로그 참고
    GLM 4.7은 일상용으로 충분하지만 지시문 이해력이 부족할 때가 있어 답답함
    • 나에게 Opus 4.5가 좋은 이유도 바로 그 지시문 처리 능력 때문임. 다음 버전에서 개선되길 바람
  • GLM 4.7이 GPT-OSS-20B와 비교된다는 건 신뢰가 덜 감. Sonnet 4/4.5 수준이라면 Flash 버전이 GPT-OSS-120B를 압도해야 한다고 생각함. Aider 결과도 함께 제공했으면 좋겠음
    • 30-A3B가 117-A5.1B를 능가하길 기대하는 건 과한 바람임. 다만 에이전트 호출 쪽에서는 GPT-20B보다 뛰어난 듯함
    • 실제 써보니 벤치마크는 과장임. 단순 작업엔 괜찮지만 Sonnet에는 한참 못 미침. 그래도 가성비는 좋음
    • 코드 품질 기준으로 보면 Sonnet 3.5 수준임. Sonnet 4/4.5와는 거리가 있음