5P by GN⁺ 12시간전 | ★ favorite | 댓글 1개
  • Qwen3-Coder-Next는 코드 작성 에이전트와 로컬 개발 환경을 위해 설계된 오픈 가중치 언어 모델로, 하이브리드 어텐션과 MoE 구조를 기반으로 함
  • 대규모 실행 가능한 작업 합성환경 상호작용, 강화학습을 통해 훈련되어, 낮은 추론 비용으로도 강력한 코딩 및 에이전트 능력을 보유
  • 단순한 파라미터 확장 대신 에이전트 훈련 신호의 확장에 초점을 맞추며, 검증 가능한 코딩 과제와 실행 환경을 활용해 직접 피드백을 학습
  • SWE-Bench Verified에서 70% 이상을 달성하고, SWE-Bench Pro 및 다국어 환경에서도 대형 모델과 경쟁 가능한 성능을 보임
  • 소형 모델임에도 효율성과 성능의 파레토 균형을 달성해, 비용 효율적인 에이전트 배포에 중요한 의미를 가짐

Qwen3-Coder-Next 개요

  • Qwen3-Coder-NextQwen3-Next-80B-A3B-Base를 기반으로 한 오픈 가중치 언어 모델
    • 하이브리드 어텐션과 Mixture of Experts(MoE) 구조를 채택
    • 대규모 실행 가능한 작업 합성, 환경 상호작용, 강화학습을 통해 훈련
  • 목표는 코딩 에이전트로컬 개발 환경에서의 효율적 활용
    • 낮은 추론 비용으로도 강력한 추론 능력코딩 성능을 제공

에이전트 훈련 확장 방식

  • 모델은 파라미터 수 확장보다 에이전트 훈련 신호 확장에 집중
    • 검증 가능한 코딩 과제와 실행 가능한 환경을 결합해, 환경 피드백으로부터 직접 학습
  • 주요 훈련 단계
    • 코드 및 에이전트 중심 데이터로 지속적 사전학습
    • 고품질 에이전트 경로 데이터를 활용한 지도 미세조정
    • 소프트웨어 엔지니어링, QA, 웹/UX 등 도메인별 전문 훈련
    • 여러 전문가 모델을 단일 배포형 모델로 증류
  • 이러한 접근은 장기 추론, 도구 사용, 실행 실패 복구 능력을 강화

코딩 에이전트 벤치마크 성능

  • SWE-Bench (Verified, Multilingual, Pro) , TerminalBench 2.0, Aider 등 다양한 벤치마크에서 평가
    • SWE-Bench Verified에서 70% 이상 달성
    • SWE-Bench Pro 및 다국어 환경에서도 경쟁력 유지
    • 작은 활성 파라미터 수에도 불구하고, 더 큰 오픈소스 모델과 동등하거나 우수한 성능
  • 멀티턴 에이전트 작업에서 에이전트 턴 수를 늘릴수록 장기 추론 능력이 강화됨을 확인

효율성과 성능의 균형

  • Qwen3-Coder-Next (3B active)10~20배 더 큰 모델과 유사한 SWE-Bench-Pro 성능을 달성
  • 전체 어텐션 기반 독점 모델이 절대 성능에서는 앞서지만, Qwen3-Coder-Next는 비용 대비 효율성에서 우수한 파레토 프런티어에 위치
  • 이는 비용 효율적 에이전트 배포에 적합한 모델임을 보여줌

데모 및 적용 예시

  • 소형·고속 코더 모델로 다양한 응용 환경에 통합 가능
    • OpenClaw, Qwen Code, Claude Code, Web Dev, Browser Use, Cline 등에서 시연
    • coder.qwen.ai를 통해 웹 기반 사용 가능

요약 및 향후 계획

  • Qwen3-Coder-Next는 코딩 에이전트 벤치마크에서 우수한 속도와 추론 능력을 입증
  • 대형 오픈소스 모델과 비교해도 경쟁력 있는 성능을 보이지만, 여전히 개선 여지가 있음
  • 향후에는 도구 활용 능력, 복잡한 문제 해결, 의사결정 능력을 강화하고
    • 더 많은 작업 지원 및 사용자 피드백 기반의 빠른 업데이트를 계획
Hacker News 의견들
  • GGUF 모델은 48.4GB 크기로, 고사양 노트북에서도 실행 가능함
    아직까지는 내 64GB MacBook Pro에서 Codex CLIClaude Code 수준의 코딩 에이전트를 제대로 돌릴 수 있는 로컬 모델을 못 봤음
    혹시 이번엔 다를까 싶음. Unsloth 가이드를 보면 가능성이 있어 보임

    • “로컬 모델”이라는 표현 대신 “내 컴퓨터 모델” 같은 새로운 용어가 필요하다고 생각함
      단순히 같은 머신에서 llama.cpp로 연결된 걸 로컬이라 부르기엔 부족함. 내가 말하는 로컬은 LAN 모델, 즉 내가 직접 제어하는 하드웨어에서 inference를 ‘공짜로’ 돌릴 수 있는 수준을 의미함
      예를 들어 5090 + Threadripper + 256GB RAM 구성은 약 1만 달러 정도, MLX 경로는 6천 달러 정도임
      모델의 내부 구조와 양자화 방식이 실제 메모리 사용량에 큰 영향을 주므로, 단순히 파라미터 수로 비교하는 건 점점 의미가 줄어듦
      따라서 표준화된 하드웨어 기준으로 toolcalling, 코드 생성, 문서 처리 같은 실제 작업을 벤치마크하는 시스템이 필요하다고 봄
    • 나는 Qwen3-Coder-30B-A3B-Instruct gguf를 13GB RAM VM과 6GB RTX 2060 GPU에서 돌리고 있음
      오래된 Razer Blade 노트북인데도 64k 컨텍스트까지는 꽤 안정적으로 작동함
      작은 프로젝트나 버그 수정, UI 개선 같은 작업에는 충분히 쓸 만함
      다만 “usable”의 기준은 사람마다 다르다고 생각함. 어떤 작업을 시도했는지에 따라 평가가 달라질 것임
    • 나는 GPT-OSS-120b (MXFP4) 를 Codex와 함께 써봤는데, 약 66GB VRAM을 사용함
      120b 모델의 좋은 실행 로그를 모아 20b 버전을 후속 학습(fine-tuning) 하면 꽤 유용할 것 같음
      reasoning_effort를 높이면 꽤 괜찮은 결과를 내지만, 64GB 메모리 한계 때문에 20b 개선이 현실적임
    • Claude Code를 로컬 모델(ollama run glm-4.7-flash)로 설정해 32GB M2Pro Mac mini에서 돌려봤음
      오래된 git 프로젝트 코드 정리, 문서화, 테스트 추가 등에는 충분히 쓸 만했음
      내 기준이 낮을 수도 있지만, 로컬 코딩 보조로는 꽤 만족스러움
    • 앞으로 5년쯤 뒤면 대부분의 모델이 로컬 실행 가능해질 것 같음
      고성능 GPU와 메모리 생산이 늘고, 모델 최적화가 진행되면 중급 하드웨어에서도 충분히 좋은 성능을 낼 수 있을 것임
  • 로컬 배포용 Dynamic Unsloth GGUFHugging Face에 올렸고,
    Claude Code / Codex를 로컬에서 사용하는 가이드도 작성했음

    • 내 시스템에서 약 39 tok/s, GPU 사용률 60% 수준으로 동작함
      Radeon RX 7900 XTX 기반 환경에서 llama.cpp 서버를 실행했고, ctx-size 32768 설정으로 안정적으로 작동함
    • Framework Desktop에서 내 모델을 사용 중이라는 피드백을 받음
      왜 Qwen3의 기본 GGUF 대신 Unsloth 버전을 써야 하는지 궁금하다는 질문이 있었음
    • IQuest-Coder도 같은 방식으로 배포되길 바란다는 요청이 있었음
    • UD 버전과 일반 버전의 차이를 묻는 질문이 있었음
    • “이걸 이렇게 빨리 만들 수 있었던 이유가 뭐냐”는 놀라움 섞인 반응도 있었음
  • Homebrew로 llama.cpp를 설치해 Unsloth 양자화 모델을 로컬에서 실행했음
    CLI 인터페이스와 OpenAI 호환 API 서버를 동시에 띄울 수 있었고, 약 28GB RAM을 사용함

    • 누군가는 토큰 속도(token/s)가 얼마나 되는지 물었음
    • 또 다른 사람은 전반적인 인상(impression)이 어떤지 궁금해했음
  • 이 모델이 정말로 주장대로라면 3B 활성 파라미터로 Sonnet 4.5 수준의 코딩 성능을 낸다는 건 엄청난 일임

    • Q2, Q4 양자화 버전을 테스트해봤는데, 로컬에서 돌아가는 건 놀랍지만 Sonnet 4.5 수준은 아님
      간단한 문제에서도 오류가 있었고, thinking loop에 빠지는 경우도 있었음
      초기 구현 버그일 수도 있지만, 현재로선 과장된 성능 주장으로 보임
    • 내 체감상 Haiku 수준에 더 가까움
    • “너무 좋아 보이면 진짜가 아닐 가능성이 높다”는 말이 떠오름
  • Qwen3 Coder 30B를 Mac M4 Max(36GB)에서 로컬로 돌려봤음
    느리긴 했지만 작동했고, 꽤 괜찮은 결과를 냈음
    시연 영상설정 방법 블로그를 공유함

  • 6GB VRAM 노트북에서 17 tok/s, 최대 100k 컨텍스트까지 가능했음
    놀랍긴 하지만 속도가 느려서 결국 클라우드 inference를 계속 쓸 예정임
    [docker-compose 설정 예시]를 공유함

  • DGX Spark + vLLM 0.15.1 환경에서 FP8 모델을 벤치마크함
    단일 요청 기준 약 43 tok/s, 병렬 요청에서는 최대 62 tok/s까지 도달함

    • FP8 모델을 vLLM에서 돌려봤는데, 실행 중 BF16으로 디퀀타이즈되어 메모리 스왑이 발생함
      llama.cpp의 4-bit 양자화 버전은 약 30~35 tok/s, 200k 컨텍스트에서도 50GB RAM만 사용함
  • 3B 활성 파라미터로 GLM 4.7보다 약간 낮은 성능을 보이지만, 효율은 놀라움
    빠르지만 단순한 코딩 에이전트를 오케스트레이터와 함께 쓰면 전체 속도는 더 빨라질 수도 있다고 생각함

    • 나는 Claude의 sub-agent 기능을 활용해 Mastra 기반 TypeScript 에이전트들을 CLI로 돌리고 있음
      코드 스캔, 라이브러리 검색, SourceGraph 탐색 같은 반복 작업을 자동화함
      Mastra의 Workspace 기능 덕분에 더 강력한 에이전트형 개발이 가능해졌음
    • 결국 이 모든 게 더 널리 쓰이려면 대형 AI 기업들이 가격을 올릴 때가 될 것 같음
  • lmstudio-community/Qwen3-Coder-Next-GGUF:Q8_0을 Strix Halo에서 돌려봤는데,
    32 tok/s, 128k 컨텍스트까지 가능했음. MiniMax M2.1 Q6보다 약간 약하지만 인상적임

    • Strix Halo가 어떤지 궁금하다는 질문이 있었음. 양자화 없이 로컬 추론이 가능한 머신을 원한다는 의견도 있었음
    • NVIDIA Spark에서 비슷한 수치를 얻었고, Q4_K_XL 버전으로 테스트 중임
      FP8은 110GB를 사용해 16k 컨텍스트밖에 안 됐음
      Rust 코드 생성에 써봤는데 꽤 유능했음. 속도만 개선되면 실제로 쓸 수 있을 듯함
      조만간 API 제공자들이 저렴하게 이 모델을 서비스할 것 같음
  • 로컬 모델 랭킹을 신뢰할 수 있는 곳이 어디인지 궁금함
    벤치마크가 너무 조작된 느낌이라, 개인 리뷰가 더 의미 있다고 생각함
    코드, 음성, 이미지, 요약, 음악 등 도메인별 우수 모델을 정리한 곳이 있는지 알고 싶음