나는 최근 OpenCode로 실험 중이며, 32GB GPU에서 llama.cpp(4bit)로 30B-A3B 모델을 돌리고 있음
VRAM이 충분해서 128k 컨텍스트도 여유 있게 사용 가능함
지금까지는 Qwen3-coder가 가장 좋은 결과를 줬음. Nemotron 3 Nano가 벤치마크상 더 좋다고 하지만, 내가 주로 하는 “테스트 코드 작성” 작업에서는 큰 차이를 못 느꼈음
누군가가 4bit GGUF로 양자화해주면 시도해볼 예정임. Codex는 품질이 높지만 너무 느림. 작은 모델들이 단순 벤치마크뿐 아니라 실제 품질도 점점 좋아지길 바람
Codex가 보통 더 높은 품질을 내지만, 가끔은 AI 슬롭 수준의 결과를 내서 오히려 Opus로 몇 분 만에 끝낼 일을 오래 기다리게 됨
나는 z.ai의 코딩 플랜으로 GLM-4.7을 사용 중이며, 가격 대비 성능이 놀라울 정도임
claude-code와 opencode를 함께 쓰지만, 최근엔 opencode 쪽을 더 많이 씀. claude-code는 Anthropic 모델에 최적화되어 있어서임
이번 릴리스는 “-Flash” 버전으로, 이전 4.5-Flash에서 4.6-Flash를 건너뛰고 바로 올라왔음. 문서에 따르면 Haiku와 동등한 모델이며, ANTHROPIC_DEFAULT_HAIKU_MODEL로 지정되어 있음
최근 성능이 어떤지 궁금함. 일부 사용자는 제한이 바뀌어 거의 쓸 수 없다고 들었음
나도 같은 플랜을 쓰고 있음. 프로모션으로 12개월 $28에 구입했고, Claude Pro보다 5배 사용량을 제공함. 지금은 claude code만 사용 중임
GLM-4.7은 점진적 개선이지만 꽤 탄탄해 보임. UI oneshot 데모가 4.6보다 훨씬 좋아졌음
오픈모델은 여전히 벤치마크에서 약 1년 정도 뒤처지지만, 장기적으로는 흥미로움
GLM은 355B 파라미터 중 31B만 활성이라 self-host는 어렵지만, Cerebras 엔드포인트로 쓰기엔 괜찮은 후보라고 생각함
나는 어제 Cerebras에서 GLM-4.7(Flash 아님)을 $10 크레딧으로 테스트했음. 초당 1000토큰이라 빠르지만, rate limit 때문에 실사용은 불편함. 캐시된 토큰도 제한에 포함되어 매 분 초반에 막히고 기다려야 함
캐시된 토큰에도 요금이 부과되어 단순 작업 하나에 $4를 썼음. GPT-5.2-Codex로 하면 $0.5도 안 들었을 것임
벤치마크 얘기는 많지만 실제 작업 부하와는 다름. 나는 claude를 중단하고 minimax m2.1로 옮겼음. open code와 함께 써보니 오히려 더 마음에 듦. $10 플랜으로 충분함
오픈모델은 결국 distillation로 따라가는 구조라, 혁신이 없는 한 항상 뒤처질 것임. “따라잡는다”기보다 트럭에 매달린 트레일러 같음
UI 데모로 모델 품질을 판단하는 건 부적절함. UI가 분포 밖이면 대부분 실패함. Codex조차 완벽하지 않음
나는 LMStudio에서 M4 MacBook Pro로 실행해봤는데, gpt-oss-20b보다 훨씬 나쁨
두 번의 코드 프롬프트 모두 잘못된 코드와 무한 루프를 생성함. LMStudio의 양자화 방식 문제일 수도 있지만 첫인상은 좋지 않음
혹시 BF16 전체 모델을 쓰는지, 아니면 mlx4 양자화 버전인지 궁금함
로컬에서 이미 돌리고 있는 사람들에게 묻고 싶음 — 지금 가장 간단한 세팅(툴링 + 양자화 포맷)은 무엇인지? 작동하는 명령어 예시가 있으면 공유 부탁함
Hacker News 의견들
VRAM이 충분해서 128k 컨텍스트도 여유 있게 사용 가능함
지금까지는 Qwen3-coder가 가장 좋은 결과를 줬음. Nemotron 3 Nano가 벤치마크상 더 좋다고 하지만, 내가 주로 하는 “테스트 코드 작성” 작업에서는 큰 차이를 못 느꼈음
누군가가 4bit GGUF로 양자화해주면 시도해볼 예정임. Codex는 품질이 높지만 너무 느림. 작은 모델들이 단순 벤치마크뿐 아니라 실제 품질도 점점 좋아지길 바람
claude-code와 opencode를 함께 쓰지만, 최근엔 opencode 쪽을 더 많이 씀. claude-code는 Anthropic 모델에 최적화되어 있어서임
이번 릴리스는 “-Flash” 버전으로, 이전 4.5-Flash에서 4.6-Flash를 건너뛰고 바로 올라왔음. 문서에 따르면 Haiku와 동등한 모델이며,
ANTHROPIC_DEFAULT_HAIKU_MODEL로 지정되어 있음오픈모델은 여전히 벤치마크에서 약 1년 정도 뒤처지지만, 장기적으로는 흥미로움
GLM은 355B 파라미터 중 31B만 활성이라 self-host는 어렵지만, Cerebras 엔드포인트로 쓰기엔 괜찮은 후보라고 생각함
캐시된 토큰에도 요금이 부과되어 단순 작업 하나에 $4를 썼음. GPT-5.2-Codex로 하면 $0.5도 안 들었을 것임
두 번의 코드 프롬프트 모두 잘못된 코드와 무한 루프를 생성함. LMStudio의 양자화 방식 문제일 수도 있지만 첫인상은 좋지 않음
관련 링크: llama.cpp releases, GLM-4.7-Flash-GGUF, supported backends 이후 http://127.0.0.1:8080에서 채팅하거나 OpenAI 호환 API로 접근 가능함
다만 새 모델 출시 직후엔 버그가 있을 수 있으니 며칠 후 업데이트 권장함
ollama run hf.co/ngxson/GLM-4.7-Flash-GGUF:Q4_K_M명령으로도 실행 가능함. 속도는 빠르지만 템플릿이 아직 완성되지 않아 출력이 엉망임. ollama.com에 정식 템플릿이 올라오길 기다리는 중임“GLM-4.7-Flash는 경량·고효율 모델로, GLM-4.7의 무료 버전이며 코딩·추론·생성 작업에서 낮은 지연과 높은 처리량을 제공함.
번역, 롤플레이, 미적 생성 등에서도 강력한 성능을 보임.”
자세한 내용은 공식 릴리스 노트 참고
이제 MacBook 32GB RAM에서도 GPT-5-mini 수준의 AI를 로컬로 돌릴 수 있음
또한 LLM-as-a-service 비용이 훨씬 저렴해짐 — Haiku 4.5 대비 1/10 가격 수준임
GLM 4.7은 일상용으로 충분하지만 지시문 이해력이 부족할 때가 있어 답답함