# Qwen3-Coder-Next 모델 공개

> Clean Markdown view of GeekNews topic #26382. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=26382](https://news.hada.io/topic?id=26382)
- GeekNews Markdown: [https://news.hada.io/topic/26382.md](https://news.hada.io/topic/26382.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2026-02-04T09:43:18+09:00
- Updated: 2026-02-04T09:43:18+09:00
- Original source: [qwen.ai](https://qwen.ai/blog?id=qwen3-coder-next)
- Points: 6
- Comments: 1

## Summary

**Qwen3-Coder-Next**는 코드 작성과 로컬 개발 환경을 위한 **오픈 가중치 코딩 에이전트 모델**로, 하이브리드 어텐션과 MoE 구조를 결합해 효율성과 성능의 균형을 추구합니다. 단순한 파라미터 확장 대신 **에이전트 훈련 신호의 확장**에 집중해, 실행 가능한 환경에서 직접 피드백을 학습하며 장기 추론과 도구 사용 능력을 강화했습니다. 그 결과, **SWE-Bench Verified 70% 이상**의 성능을 기록하며 훨씬 큰 모델과도 경쟁 가능한 수준을 보여, 비용 효율적 에이전트 배포의 새로운 기준을 제시합니다.

## Topic Body

- **Qwen3-Coder-Next**는 코드 작성 에이전트와 로컬 개발 환경을 위해 설계된 **오픈 가중치 언어 모델**로, 하이브리드 어텐션과 MoE 구조를 기반으로 함  
- 대규모 **실행 가능한 작업 합성**과 **환경 상호작용**, **강화학습**을 통해 훈련되어, 낮은 추론 비용으로도 강력한 **코딩 및 에이전트 능력**을 보유  
- 단순한 파라미터 확장 대신 **에이전트 훈련 신호의 확장**에 초점을 맞추며, 검증 가능한 코딩 과제와 실행 환경을 활용해 직접 피드백을 학습  
- **SWE-Bench Verified**에서 70% 이상을 달성하고, **SWE-Bench Pro** 및 다국어 환경에서도 대형 모델과 경쟁 가능한 성능을 보임  
- 소형 모델임에도 효율성과 성능의 **파레토 균형**을 달성해, 비용 효율적인 **에이전트 배포**에 중요한 의미를 가짐  

---

### Qwen3-Coder-Next 개요
- **Qwen3-Coder-Next**는 **Qwen3-Next-80B-A3B-Base**를 기반으로 한 오픈 가중치 언어 모델  
  - 하이브리드 어텐션과 **Mixture of Experts(MoE)** 구조를 채택  
  - 대규모 **실행 가능한 작업 합성**, **환경 상호작용**, **강화학습**을 통해 훈련  
- 목표는 **코딩 에이전트**와 **로컬 개발 환경**에서의 효율적 활용  
  - 낮은 추론 비용으로도 강력한 **추론 능력**과 **코딩 성능**을 제공  

### 에이전트 훈련 확장 방식
- 모델은 **파라미터 수 확장**보다 **에이전트 훈련 신호 확장**에 집중  
  - 검증 가능한 코딩 과제와 실행 가능한 환경을 결합해, 환경 피드백으로부터 직접 학습  
- 주요 훈련 단계  
  - 코드 및 에이전트 중심 데이터로 **지속적 사전학습**  
  - 고품질 에이전트 경로 데이터를 활용한 **지도 미세조정**  
  - **소프트웨어 엔지니어링**, **QA**, **웹/UX** 등 도메인별 전문 훈련  
  - 여러 전문가 모델을 **단일 배포형 모델로 증류**  
- 이러한 접근은 **장기 추론**, **도구 사용**, **실행 실패 복구** 능력을 강화  

### 코딩 에이전트 벤치마크 성능
- **SWE-Bench (Verified, Multilingual, Pro)** , **TerminalBench 2.0**, **Aider** 등 다양한 벤치마크에서 평가  
  - **SWE-Bench Verified**에서 70% 이상 달성  
  - **SWE-Bench Pro** 및 다국어 환경에서도 경쟁력 유지  
  - 작은 활성 파라미터 수에도 불구하고, 더 큰 오픈소스 모델과 동등하거나 우수한 성능  
- **멀티턴 에이전트 작업**에서 에이전트 턴 수를 늘릴수록 **장기 추론 능력**이 강화됨을 확인  

### 효율성과 성능의 균형
- **Qwen3-Coder-Next (3B active)** 는 **10~20배 더 큰 모델**과 유사한 SWE-Bench-Pro 성능을 달성  
- **전체 어텐션 기반 독점 모델**이 절대 성능에서는 앞서지만, Qwen3-Coder-Next는 **비용 대비 효율성**에서 우수한 파레토 프런티어에 위치  
- 이는 **비용 효율적 에이전트 배포**에 적합한 모델임을 보여줌  

### 데모 및 적용 예시
- 소형·고속 코더 모델로 다양한 응용 환경에 통합 가능  
  - **OpenClaw**, **Qwen Code**, **Claude Code**, **Web Dev**, **Browser Use**, **Cline** 등에서 시연  
  - **coder.qwen.ai**를 통해 웹 기반 사용 가능  

### 요약 및 향후 계획
- Qwen3-Coder-Next는 **코딩 에이전트 벤치마크에서 우수한 속도와 추론 능력**을 입증  
- 대형 오픈소스 모델과 비교해도 **경쟁력 있는 성능**을 보이지만, 여전히 개선 여지가 있음  
- 향후에는 **도구 활용 능력**, **복잡한 문제 해결**, **의사결정 능력**을 강화하고  
  - 더 많은 작업 지원 및 사용자 피드백 기반의 **빠른 업데이트**를 계획

## Comments



### Comment 50574

- Author: neo
- Created: 2026-02-04T09:43:19+09:00
- Points: 2

###### [Hacker News 의견들](https://news.ycombinator.com/item?id=46872706) 
- 이 **GGUF 모델**은 48.4GB 크기로, 고사양 노트북에서도 실행 가능함  
  아직까지는 내 64GB MacBook Pro에서 **Codex CLI**나 **Claude Code** 수준의 코딩 에이전트를 제대로 돌릴 수 있는 로컬 모델을 못 봤음  
  혹시 이번엔 다를까 싶음. [Unsloth 가이드](https://unsloth.ai/docs/models/qwen3-coder-next)를 보면 가능성이 있어 보임
  - “로컬 모델”이라는 표현 대신 **“내 컴퓨터 모델”** 같은 새로운 용어가 필요하다고 생각함  
    단순히 같은 머신에서 llama.cpp로 연결된 걸 로컬이라 부르기엔 부족함. 내가 말하는 로컬은 **LAN 모델**, 즉 내가 직접 제어하는 하드웨어에서 inference를 ‘공짜로’ 돌릴 수 있는 수준을 의미함  
    예를 들어 5090 + Threadripper + 256GB RAM 구성은 약 1만 달러 정도, MLX 경로는 6천 달러 정도임  
    모델의 **내부 구조와 양자화 방식**이 실제 메모리 사용량에 큰 영향을 주므로, 단순히 파라미터 수로 비교하는 건 점점 의미가 줄어듦  
    따라서 표준화된 하드웨어 기준으로 **toolcalling, 코드 생성, 문서 처리** 같은 실제 작업을 벤치마크하는 시스템이 필요하다고 봄
  - 나는 **Qwen3-Coder-30B-A3B-Instruct gguf**를 13GB RAM VM과 6GB RTX 2060 GPU에서 돌리고 있음  
    오래된 Razer Blade 노트북인데도 **64k 컨텍스트**까지는 꽤 안정적으로 작동함  
    작은 프로젝트나 버그 수정, UI 개선 같은 작업에는 충분히 쓸 만함  
    다만 “usable”의 기준은 사람마다 다르다고 생각함. 어떤 작업을 시도했는지에 따라 평가가 달라질 것임
  - 나는 **GPT-OSS-120b (MXFP4)** 를 Codex와 함께 써봤는데, 약 66GB VRAM을 사용함  
    120b 모델의 좋은 실행 로그를 모아 20b 버전을 **후속 학습(fine-tuning)** 하면 꽤 유용할 것 같음  
    reasoning_effort를 높이면 꽤 괜찮은 결과를 내지만, 64GB 메모리 한계 때문에 20b 개선이 현실적임
  - **Claude Code**를 로컬 모델(ollama run glm-4.7-flash)로 설정해 32GB M2Pro Mac mini에서 돌려봤음  
    오래된 git 프로젝트 코드 정리, 문서화, 테스트 추가 등에는 충분히 쓸 만했음  
    내 기준이 낮을 수도 있지만, **로컬 코딩 보조**로는 꽤 만족스러움
  - 앞으로 5년쯤 뒤면 대부분의 모델이 **로컬 실행** 가능해질 것 같음  
    고성능 GPU와 메모리 생산이 늘고, 모델 최적화가 진행되면 중급 하드웨어에서도 충분히 좋은 성능을 낼 수 있을 것임

- 로컬 배포용 **Dynamic Unsloth GGUF**를 [Hugging Face](https://huggingface.co/unsloth/Qwen3-Coder-Next-GGUF)에 올렸고,  
  **Claude Code / Codex**를 로컬에서 사용하는 [가이드](https://unsloth.ai/docs/models/qwen3-coder-next)도 작성했음
  - 내 시스템에서 약 **39 tok/s**, GPU 사용률 60% 수준으로 동작함  
    Radeon RX 7900 XTX 기반 환경에서 llama.cpp 서버를 실행했고, **ctx-size 32768** 설정으로 안정적으로 작동함
  - Framework Desktop에서 내 모델을 사용 중이라는 피드백을 받음  
    왜 Qwen3의 기본 GGUF 대신 Unsloth 버전을 써야 하는지 궁금하다는 질문이 있었음
  - **IQuest-Coder**도 같은 방식으로 배포되길 바란다는 요청이 있었음
  - UD 버전과 일반 버전의 차이를 묻는 질문이 있었음
  - “이걸 이렇게 빨리 만들 수 있었던 이유가 뭐냐”는 놀라움 섞인 반응도 있었음

- Homebrew로 **llama.cpp**를 설치해 Unsloth 양자화 모델을 로컬에서 실행했음  
  CLI 인터페이스와 **OpenAI 호환 API 서버**를 동시에 띄울 수 있었고, 약 28GB RAM을 사용함  
  - 누군가는 토큰 속도(token/s)가 얼마나 되는지 물었음  
  - 또 다른 사람은 전반적인 인상(impression)이 어떤지 궁금해했음

- 이 모델이 정말로 주장대로라면 **3B 활성 파라미터로 Sonnet 4.5 수준의 코딩 성능**을 낸다는 건 엄청난 일임
  - Q2, Q4 양자화 버전을 테스트해봤는데, 로컬에서 돌아가는 건 놀랍지만 **Sonnet 4.5 수준은 아님**  
    간단한 문제에서도 오류가 있었고, **thinking loop**에 빠지는 경우도 있었음  
    초기 구현 버그일 수도 있지만, 현재로선 과장된 성능 주장으로 보임
  - 내 체감상 **Haiku 수준**에 더 가까움
  - “너무 좋아 보이면 진짜가 아닐 가능성이 높다”는 말이 떠오름

- **Qwen3 Coder 30B**를 Mac M4 Max(36GB)에서 로컬로 돌려봤음  
  느리긴 했지만 작동했고, 꽤 괜찮은 결과를 냈음  
  [시연 영상](https://www.youtube.com/watch?v=7mAPaRbsjTU)과 [설정 방법 블로그](https://www.tommyjepsen.com/blog/run-llm-locally-for-coding)를 공유함

- 6GB VRAM 노트북에서 **17 tok/s**, 최대 100k 컨텍스트까지 가능했음  
  놀랍긴 하지만 속도가 느려서 결국 **클라우드 inference**를 계속 쓸 예정임  
  [docker-compose 설정 예시]를 공유함

- **DGX Spark + vLLM 0.15.1** 환경에서 FP8 모델을 벤치마크함  
  단일 요청 기준 약 **43 tok/s**, 병렬 요청에서는 최대 62 tok/s까지 도달함  
  - FP8 모델을 vLLM에서 돌려봤는데, 실행 중 **BF16으로 디퀀타이즈**되어 메모리 스왑이 발생함  
    llama.cpp의 4-bit 양자화 버전은 약 30~35 tok/s, **200k 컨텍스트**에서도 50GB RAM만 사용함

- **3B 활성 파라미터**로 GLM 4.7보다 약간 낮은 성능을 보이지만, 효율은 놀라움  
  빠르지만 단순한 코딩 에이전트를 **오케스트레이터**와 함께 쓰면 전체 속도는 더 빨라질 수도 있다고 생각함
  - 나는 **Claude의 sub-agent 기능**을 활용해 Mastra 기반 TypeScript 에이전트들을 CLI로 돌리고 있음  
    코드 스캔, 라이브러리 검색, SourceGraph 탐색 같은 반복 작업을 자동화함  
    Mastra의 **Workspace 기능** 덕분에 더 강력한 에이전트형 개발이 가능해졌음
  - 결국 이 모든 게 더 널리 쓰이려면 **대형 AI 기업들이 가격을 올릴 때**가 될 것 같음

- **lmstudio-community/Qwen3-Coder-Next-GGUF:Q8_0**을 Strix Halo에서 돌려봤는데,  
  **32 tok/s**, 128k 컨텍스트까지 가능했음. MiniMax M2.1 Q6보다 약간 약하지만 인상적임
  - Strix Halo가 어떤지 궁금하다는 질문이 있었음. 양자화 없이 로컬 추론이 가능한 머신을 원한다는 의견도 있었음
  - NVIDIA Spark에서 비슷한 수치를 얻었고, Q4_K_XL 버전으로 테스트 중임  
    FP8은 110GB를 사용해 16k 컨텍스트밖에 안 됐음  
    Rust 코드 생성에 써봤는데 꽤 유능했음. 속도만 개선되면 실제로 쓸 수 있을 듯함  
    조만간 **API 제공자들이 저렴하게 이 모델을 서비스**할 것 같음

- 로컬 모델 **랭킹을 신뢰할 수 있는 곳**이 어디인지 궁금함  
  벤치마크가 너무 조작된 느낌이라, **개인 리뷰가 더 의미 있다**고 생각함  
  코드, 음성, 이미지, 요약, 음악 등 **도메인별 우수 모델**을 정리한 곳이 있는지 알고 싶음
