Qwen3-Coder 공개 - 혁신적인 에이전틱 코드 모델

(qwenlm.github.io)

3P by GN⁺ 3달전 | ★ favorite | 댓글 1개

Qwen3-Coder는 480B 파라미터 Mixture-of-Experts 구조와 35B 활성 파라미터, 256K~1M 토큰 컨텍스트 지원 등으로 공개 모델 중 에이전트 코딩 분야 최상위 성능을 달성함
Code RL, 장기 RL 등 실제 소프트웨어 엔지니어링 문제에 최적화된 대규모 강화학습 기법을 도입해 실행 성공률과 다양한 작업 성능을 크게 향상함
Qwen Code와 Claude Code 등 커맨드라인 툴 및 API와 연동, Node.js와 OpenAI 호환 API 등 다양한 개발 환경에서 바로 사용 가능함
대규모 병렬 환경 및 인프라로 실제 코딩 작업에서 요구되는 플래닝, 피드백, 도구 활용 등 복잡한 상호작용까지 처리 가능함
앞으로 더 다양한 모델 크기, 저비용 배포, 코딩 에이전트의 자가 개선 가능성 등 실험과 발전을 예고함

Qwen3-Coder

Qwen3-Coder는 기존 코드 생성 모델 중에서 가장 에이전트적(agentic) 기능이 강화된 오픈소스 AI 모델임
첫 번째 공개된 주력 버전인 Qwen3-Coder-480B-A35B-Instruct는 4800억 파라미터 중 350억이 활성화되는 Mixture-of-Experts 구조를 적용
- 256K 토큰 컨텍스트를 기본 지원하고, 1M 토큰까지 확장 가능
뛰어난 성능으로 Agentic Coding, Browser-Use, Tool-Use 등 주요 벤치마크에서 오픈모델 중 최고 수준의 결과를 보였고, Claude Sonnet 4에 비교될 만한 코드/에이전트 작업 품질을 보여줌

함께 공개된 Qwen Code CLI 도구는 Gemini Code를 기준으로 포크하여 특별한 프롬프트와 함수 호출 프로토콜을 적용, Qwen3-Coder의 에이전트 기능을 최대한 발휘하도록 지원
Qwen3-Coder는 OpenAI SDK, Claude Code 등 다양한 커뮤니티 개발 도구와도 매끄러운 연동이 가능함
범용 기반모델로 소프트웨어 세계 전반에서 에이전트 코딩을 실현하는 것을 목표로 함

사전학습(Pre-Training)

토큰 대규모화: 총 7.5조 토큰(코드 비중 70%) 사용으로 코드 능력과 함께 일반 및 수학적 능력까지 고르게 강화함
문맥 범위 확장: 기본 256K, YaRN 기반 1M 토큰 지원으로 대형 저장소 수준의 다이내믹 데이터(Pull Request 등)까지 처리 가능함
합성 데이터 품질화: 기존 Qwen2.5-Coder로부터 소음을 제거하고 재작성한 데이터 활용으로 전체 데이터 품질을 크게 향상함

사후학습(Post-Training)

코드 강화학습(Code RL) 확장: 풀기 어렵고 검증 쉬움
- 코드 생성 커뮤니티의 경쟁 중심 접근과 달리, 모든 코드 작업을 대규모 강화학습(RL) 기반으로 실행/검증하는 방식 채택
- 다양한 실제 코딩 작업에 대해 자동화된 테스트케이스 확장, 강화학습 학습 인스턴스 대량 생성 및 성공률 극대화
- 이 방식이 코드 실행 성공률뿐 아니라 타 작업 성능도 동반 향상시키는 결과를 보여줌
- 앞으로도 풀기 어렵지만 검증이 쉬운 새로운 영역 발굴에 주목할 예정
장기적 강화학습(Long-Horizon RL)
- SWE-Bench 등 실제 소프트웨어 엔지니어링 작업에서는 플래닝, 도구 사용, 피드백 처리, 결정 내리기 등 다중 턴 상호작용이 필수임
- Qwen3-Coder는 장기 RL(Agent RL) 도입, 실 환경에서 도구와 상호작용하며 멀티턴 작업을 해결하도록 훈련됨
- Alibaba Cloud 인프라로 20,000개 독립 병렬 환경 구축, 대규모 강화학습과 실시간 평가까지 지원
- SWE-Bench Verified 벤치마크에서 오픈소스 모델 중 최고 성능 달성

Qwen3-Coder 사용법

Qwen Code: 커맨드라인 에이전트 코딩
- Qwen Code는 연구 목적으로 제작된 CLI 툴로, Gemini CLI를 기반으로 Qwen-Coder 전용 파서와 툴을 추가로 지원함
- Node.js 20+ 환경을 요구하며, npm을 통해 쉽게 설치 및 실행 가능함
- OpenAI SDK 프로토콜을 지원하여 환경변수 혹은 .env 파일로 설정해 다양한 LLM 인프라에서 활용 가능함
- Qwen-Code 명령어로 간편하게 Qwen3-Coder의 파워를 실현 가능함
Claude Code 연동
- Qwen3-Coder는 Claude Code 환경에서도 활용 가능함
- Alibaba Cloud Model Studio에서 API키를 발급받아 Claude Code와 연동 설치 가능함
- 프록시 API 및 claude-code-config 패키지를 통한 다양한 백엔드 모델 선택 및 손쉬운 설정 지원함
Cline 연동
- Cline 개발 환경에서도 Qwen3-Coder-480B-A35B-Instruct 모델을 설정해 사용 가능함
- API Provider는 ‘OpenAI Compatible’을 선택하며, Dashscope에서 받은 API Key 및 Custom Base URL 제공함

활용사례(Use Cases)

물리 기반 굴뚝 철거 시뮬레이션
Qwen + Cline 통합 사용 예시
Qwen Chat 기반 웹 개발
유명 인용구를 활용한 타자 속도 측정
회전 하이퍼큐브 내 바운싱 볼 시뮬레이션
태양계 환경 모의 실험
DUET 게임 생성 등 다양한 코딩 및 시뮬레이션 사례 제공함

API 연동

Alibaba Cloud Model Studio를 통해 Qwen3-Coder의 API를 직접 활용할 수 있음
파이썬 OpenAI SDK를 이용해 Qwen API로 대화 기반 코드 생성을 시연함

향후 개발 방향

Coding Agent의 성능 개선 및 소프트웨어 엔지니어링의 복잡하고 반복적인 과업 대행을 위해 적극적으로 연구 진행 중임
더 다양한 모델 크기 출시를 준비 중이며, 배포 비용 절감을 동시에 추구함
Coding Agent의 자가 개선 가능성 등, 궁극적으로 복잡하고 반복적인 소프트웨어 엔지니어링 작업에서 사람의 생산성을 극대화하는 방향을 지향함

▲

GN⁺ 3달전 [-]

Hacker News 의견

저는 지금 로컬에서 사용할 수 있도록 2bit에서 8bit까지의 GGUF를 만들고 있음
한 시간 내로 HuggingFace Unsloth Qwen3-Coder-480B-A35B-Instruct-GGUF에서 제공할 예정임
24GB GPU와 128~256GB RAM 기준 실행 문서는 여기에 있음
- 문서에 오타가 있는 것 같음
  "Recommended context: 65,536 tokens (can be increased)" 대신, 공식 문서에는 출력 길이에 대해 "We recommend using an output length of 65,536 tokens for most queries, which is adequate for instruct models"라고 안내하고 있음
  그러니까 추천 출력 길이임
Qwen3-Coder가 여러 사이즈로 출시되고 있지만, 개인적으로는 작은 사이즈들을 가장 기대함
로컬에서 가볍게 돌릴 수 있는 모델이 점점 괜찮은 코드를 작성할 수 있게 되어가고 있다고 생각함
당분간은 더 큰 모델이 필요할 수도 있겠지만, 직접 호스팅이 현실적으로 힘들 때 오픈 가중치 고품질 모델을 골라 쓸 수 있어서 좋음
작은 모델을 자유롭게 써보고, 필요할 때마다 더 큰 모델을 유료로 써볼 수 있는 것도 좋은 경험임
Qwen 팀의 이번 릴리즈를 축하하며 바로 사용해볼 예정임
- 작은 모델이 큰 모델을 뛰어넘는 일은 실제로 거의 없다고 생각함
  큰 모델들이 훨씬 더 많은 지식과 스마트함을 가지게 됨
  작은 모델도 발전하긴 하지만, 큰 모델도 같이 발전함
  한때 HN이 LLM 분야의 기술 중심지였으나, 요즘은 Reddit에서 더 많은 유저들이 직접 초대형 모델을 돌리고 있음
  본인이 알아보고 시도하면 직접 호스팅도 충분히 현실적임
"qwen-code" 앱이 gemini-cli의 포크 버전처럼 보임
QwenLM/qwen-code
라이선스
OSS CC(오픈 소스 코드 컴패니언) 클론들이 언젠가 하나의 표준으로 모였으면 좋겠음
실제로 페이지에서 "we’re also open-sourcing a command-line tool for agentic coding: Qwen Code. Forked from Gemini Code"라고 명시되어 있음
- 저는 현재 claude-code를 중심으로 쓰고 있지만, 무거운 추론은 openai, gemini pro를 zen mcp 통해 맡기는 방식임
  gemini-cli도 zen에서 지원하니 대신 쓸 수도 있고, qwen-coder가 gemini-cli 기반이라면 지원 추가도 거의 어렵지 않을 듯함
- 저희는 이미 지난 '24년 말에 RA.Aid를 릴리즈했음
  이는 aider가 시작한 방향에서 한 걸음 더 나아간 CLI-우선, 진정한 오픈소스 커뮤니티 지향 프로젝트임
  서로 다른 법인 소속의 독립 메인테이너 5명이 풀 커밋 권한 가짐 (한 명은 제가 있는 Gobii로 합류해서 웹 브라우징 에이전트 개발 중임)
  저희가 Cursor, Windsurf, 기타 agentic coding 솔루션과 비교해서도 충분히 경쟁력 있다고 생각함
  특정 대기업이나 모델에 종속되지 않는 FOSS 기반 표준이 꼭 필요하다고 느낌
- Claude Code도 지원하는 것으로 알고 있지만, 이게 클로즈드 소스에 Anthropic API 엔드포인트 만 지원하는 구조인데, 구체적으로 어떻게 돌아가는지 궁금함
- 저의 프로젝트 Plandex도 한 번 소개하고 싶음
  Claude Code보다 먼저 시작했고, 여러 공급자(Anthropic, Google, OpenAI)의 모델 조합 지원 뿐 아니라 오픈 소스·로컬 모델도 활용 가능함
  특히 대용량 컨텍스트 및 단계가 많은 장기 작업에 집중함
  plandex-ai/plandex GitHub
저장소에 에이전트 설명서로 QWEN.md 추가 제안이 있음
그런데 요즘 팀 저장소엔 각 에이전트마다 중복으로 마크다운 파일이 늘어나고 있어 비효율적임
- 본인은 그냥 AGENTS.md에 심볼릭 링크를 추가함
  모든 설명이 동일하니, 모델별로 따로 둘 필요 없음
  그리고 gitignore로 모델별 버전 제외함
이런 변화의 속도에 어떻게 따라가야 할지 궁금함
2~3년쯤 뒤에는 단일 우승 툴이 정해져 있을까 기대하게 됨
그 정도면 다들 망설임 없이 하나만 쓸 것 같음
- 사람들은 관심 분야에 대해 자연스럽게 따라가게 마련임
  주말엔 Kimi K2 실행해보고, 최근 2일간은 Ernie4.5-300B 돌림
  오늘 아침엔 최신 Qwen3-235b 내려받았고, 오늘 저녁부터 사용 시작함
  오늘 밤엔 Qwen3-Coder-480B 받는 중—내 인터넷 속도로는 2~3일 걸릴 듯
  집착인가?
- 쓸모있어 보일 때까지 그냥 무시하면 됨
  솔직히 프롬프트 박스에 텍스트 입력하는 데 3년 경험이 필요한 것도 아니니까 별로 신경 쓸 필요 없음
- 신경 쓰지 않아도 무방함
  수익성과 같은 이슈만 터지지 않는다면, 어느 순간 명확히 대세가 될 도구가 나오게 되어있음
- 왜 그렇게 생각함?
  이 분야는 리더보드가 매우 불안정하고, 이렇게 불안정한 현상이 쉽게 사라질 기미도 없음
  2~3년 뒤에도 상황은 비슷하고 플레이어만 약간 다를 수 있다고 봄
Qwen3-Coder-480B-A35B-Instruct를 돌리려면 어느 정도 하드웨어가 필요할지 궁금함
성능이 Sonnet에 근접한다면, 많은 Claude Code 유저들이 로컬러닝에 관심 가질 수도 있다고 봄
로컬 인스턴스를 팀 단위로 함께 쓰면 실제로 경제성이 있을지 궁금함
Claude Code와 연동하는 사용법 문서도 있음
X(트위터)에서는 막대한 사용 요금 청구서를 공유하는 케이스도 흔함
- 지금 딥러닝 모델을 위해 다이나믹 GGUF 양자화 버전을 준비 중임
  대략 24GB VRAM + 128GB RAM으로 2bit 동적으로 실행 가능할 것 같고, 한 시간 내로 공개할 예정임
  참고 문서: docs.unsloth.ai/basics/qwen3-coder
- 4bit 버전은 512GB M3 Mac Studio에서 약 272GB 램을 사용함
  다운로드 링크
  실제 동작 영상: X 영상
  해당 머신 가격은 약 10,000달러임
- 비양자화·비증류 버전 기준 벤치마크에는 H200 8장 정도의 클러스터가 필요할 것 같음
  최신 B200은 더 빠르지만 훨씬 고가임
  30만 달러 이상 예상
  사람들이 종종 양자화/증류 버전을 낼 때는 벤치마크 결과는 잘 공개 안 함
- 램만 해도 500GB 이상 필요하고, 컨텍스트까지 고려하면 100~200GB 추가 여유 필요함
  24GB GPU와 조합하면 초당 10토큰 정도 속도 예상함
- 반드시 엄청난 장비일 필요는 없음
  RTX Pro 6000, 256GB 램 조합으로 충분함
Cloud 4와 경쟁하는 오픈 가중치 모델이라니 흥미로움
MoE 구조라 진짜 로컬 돌리기도 가능성 보인다고 생각함
- 480GB를 어디다 두고 써야 그런 성능 나오냐는 의문이 생김
  그 정도 램이 있음?
- Coder의 등장이 매우 기대됨
최근 주요 벤치마크에서 OpenHands(All-Hands-AI/OpenHands)를 모두 기본 스캐폴드로 쓰는 분위기라 반가움
공개 벤치마크에서 "private scaffold"만 나올 때만큼 답답한 일이 없음
- robert가 AllHands에 대해 자세히 얘기하는 YouTube 영상이 있음
- Cognition이 이렇게 무능력해 보일 수가 없음
  수백만 달러 투자받고 Cursor, Claude Code에 밀리더니, 이제는 본인 클론(예전 OpenDevin이라 불렸음)에도 시장 빼앗기고 있음
OpenRouter에서 바로 쓸 수 있게 올라온 것을 확인함 (openrouter.ai/qwen/qwen3-coder)
누군가 이걸 Rust/Ratatui로 CLI로 만들어줄 수 있으면 좋겠음

답변달기

Qwen3-Coder 공개 - 혁신적인 에이전틱 코드 모델

Qwen3-Coder

사전학습(Pre-Training)

사후학습(Post-Training)

코드 강화학습(Code RL) 확장: 풀기 어렵고 검증 쉬움

장기적 강화학습(Long-Horizon RL)

Qwen3-Coder 사용법

Qwen Code: 커맨드라인 에이전트 코딩

Claude Code 연동

Cline 연동

활용사례(Use Cases)

API 연동

향후 개발 방향

Hacker News 의견