Qwen3-Coder-Next 모델 공개

▲

GN⁺ 3달전 | parent | ★ favorite | on: Qwen3-Coder-Next 모델 공개(qwen.ai)

Hacker News 의견들

이 GGUF 모델은 48.4GB 크기로, 고사양 노트북에서도 실행 가능함
아직까지는 내 64GB MacBook Pro에서 Codex CLI나 Claude Code 수준의 코딩 에이전트를 제대로 돌릴 수 있는 로컬 모델을 못 봤음
혹시 이번엔 다를까 싶음. Unsloth 가이드를 보면 가능성이 있어 보임
- “로컬 모델”이라는 표현 대신 “내 컴퓨터 모델” 같은 새로운 용어가 필요하다고 생각함
  단순히 같은 머신에서 llama.cpp로 연결된 걸 로컬이라 부르기엔 부족함. 내가 말하는 로컬은 LAN 모델, 즉 내가 직접 제어하는 하드웨어에서 inference를 ‘공짜로’ 돌릴 수 있는 수준을 의미함
  예를 들어 5090 + Threadripper + 256GB RAM 구성은 약 1만 달러 정도, MLX 경로는 6천 달러 정도임
  모델의 내부 구조와 양자화 방식이 실제 메모리 사용량에 큰 영향을 주므로, 단순히 파라미터 수로 비교하는 건 점점 의미가 줄어듦
  따라서 표준화된 하드웨어 기준으로 toolcalling, 코드 생성, 문서 처리 같은 실제 작업을 벤치마크하는 시스템이 필요하다고 봄
- 나는 Qwen3-Coder-30B-A3B-Instruct gguf를 13GB RAM VM과 6GB RTX 2060 GPU에서 돌리고 있음
  오래된 Razer Blade 노트북인데도 64k 컨텍스트까지는 꽤 안정적으로 작동함
  작은 프로젝트나 버그 수정, UI 개선 같은 작업에는 충분히 쓸 만함
  다만 “usable”의 기준은 사람마다 다르다고 생각함. 어떤 작업을 시도했는지에 따라 평가가 달라질 것임
- 나는 GPT-OSS-120b (MXFP4) 를 Codex와 함께 써봤는데, 약 66GB VRAM을 사용함
  120b 모델의 좋은 실행 로그를 모아 20b 버전을 후속 학습(fine-tuning) 하면 꽤 유용할 것 같음
  reasoning_effort를 높이면 꽤 괜찮은 결과를 내지만, 64GB 메모리 한계 때문에 20b 개선이 현실적임
- Claude Code를 로컬 모델(ollama run glm-4.7-flash)로 설정해 32GB M2Pro Mac mini에서 돌려봤음
  오래된 git 프로젝트 코드 정리, 문서화, 테스트 추가 등에는 충분히 쓸 만했음
  내 기준이 낮을 수도 있지만, 로컬 코딩 보조로는 꽤 만족스러움
- 앞으로 5년쯤 뒤면 대부분의 모델이 로컬 실행 가능해질 것 같음
  고성능 GPU와 메모리 생산이 늘고, 모델 최적화가 진행되면 중급 하드웨어에서도 충분히 좋은 성능을 낼 수 있을 것임
로컬 배포용 Dynamic Unsloth GGUF를 Hugging Face에 올렸고,
Claude Code / Codex를 로컬에서 사용하는 가이드도 작성했음
- 내 시스템에서 약 39 tok/s, GPU 사용률 60% 수준으로 동작함
  Radeon RX 7900 XTX 기반 환경에서 llama.cpp 서버를 실행했고, ctx-size 32768 설정으로 안정적으로 작동함
- Framework Desktop에서 내 모델을 사용 중이라는 피드백을 받음
  왜 Qwen3의 기본 GGUF 대신 Unsloth 버전을 써야 하는지 궁금하다는 질문이 있었음
- IQuest-Coder도 같은 방식으로 배포되길 바란다는 요청이 있었음
- UD 버전과 일반 버전의 차이를 묻는 질문이 있었음
- “이걸 이렇게 빨리 만들 수 있었던 이유가 뭐냐”는 놀라움 섞인 반응도 있었음
Homebrew로 llama.cpp를 설치해 Unsloth 양자화 모델을 로컬에서 실행했음
CLI 인터페이스와 OpenAI 호환 API 서버를 동시에 띄울 수 있었고, 약 28GB RAM을 사용함
- 누군가는 토큰 속도(token/s)가 얼마나 되는지 물었음
- 또 다른 사람은 전반적인 인상(impression)이 어떤지 궁금해했음
이 모델이 정말로 주장대로라면 3B 활성 파라미터로 Sonnet 4.5 수준의 코딩 성능을 낸다는 건 엄청난 일임
- Q2, Q4 양자화 버전을 테스트해봤는데, 로컬에서 돌아가는 건 놀랍지만 Sonnet 4.5 수준은 아님
  간단한 문제에서도 오류가 있었고, thinking loop에 빠지는 경우도 있었음
  초기 구현 버그일 수도 있지만, 현재로선 과장된 성능 주장으로 보임
- 내 체감상 Haiku 수준에 더 가까움
- “너무 좋아 보이면 진짜가 아닐 가능성이 높다”는 말이 떠오름
Qwen3 Coder 30B를 Mac M4 Max(36GB)에서 로컬로 돌려봤음
느리긴 했지만 작동했고, 꽤 괜찮은 결과를 냈음
시연 영상과 설정 방법 블로그를 공유함
6GB VRAM 노트북에서 17 tok/s, 최대 100k 컨텍스트까지 가능했음
놀랍긴 하지만 속도가 느려서 결국 클라우드 inference를 계속 쓸 예정임
[docker-compose 설정 예시]를 공유함
DGX Spark + vLLM 0.15.1 환경에서 FP8 모델을 벤치마크함
단일 요청 기준 약 43 tok/s, 병렬 요청에서는 최대 62 tok/s까지 도달함
- FP8 모델을 vLLM에서 돌려봤는데, 실행 중 BF16으로 디퀀타이즈되어 메모리 스왑이 발생함
  llama.cpp의 4-bit 양자화 버전은 약 30~35 tok/s, 200k 컨텍스트에서도 50GB RAM만 사용함
3B 활성 파라미터로 GLM 4.7보다 약간 낮은 성능을 보이지만, 효율은 놀라움
빠르지만 단순한 코딩 에이전트를 오케스트레이터와 함께 쓰면 전체 속도는 더 빨라질 수도 있다고 생각함
- 나는 Claude의 sub-agent 기능을 활용해 Mastra 기반 TypeScript 에이전트들을 CLI로 돌리고 있음
  코드 스캔, 라이브러리 검색, SourceGraph 탐색 같은 반복 작업을 자동화함
  Mastra의 Workspace 기능 덕분에 더 강력한 에이전트형 개발이 가능해졌음
- 결국 이 모든 게 더 널리 쓰이려면 대형 AI 기업들이 가격을 올릴 때가 될 것 같음
lmstudio-community/Qwen3-Coder-Next-GGUF:Q8_0을 Strix Halo에서 돌려봤는데,
32 tok/s, 128k 컨텍스트까지 가능했음. MiniMax M2.1 Q6보다 약간 약하지만 인상적임
- Strix Halo가 어떤지 궁금하다는 질문이 있었음. 양자화 없이 로컬 추론이 가능한 머신을 원한다는 의견도 있었음
- NVIDIA Spark에서 비슷한 수치를 얻었고, Q4_K_XL 버전으로 테스트 중임
  FP8은 110GB를 사용해 16k 컨텍스트밖에 안 됐음
  Rust 코드 생성에 써봤는데 꽤 유능했음. 속도만 개선되면 실제로 쓸 수 있을 듯함
  조만간 API 제공자들이 저렴하게 이 모델을 서비스할 것 같음
로컬 모델 랭킹을 신뢰할 수 있는 곳이 어디인지 궁금함
벤치마크가 너무 조작된 느낌이라, 개인 리뷰가 더 의미 있다고 생각함
코드, 음성, 이미지, 요약, 음악 등 도메인별 우수 모델을 정리한 곳이 있는지 알고 싶음