Qwen3.6-35B-A3B: Agentic Coding Power, Now Open to All

(qwen.ai)

25P by ragingwind 3달전 | ★ favorite | 댓글 2개

알리바바 Qwen 팀이 2026년 4월에 오픈소스로 공개한 대규모 언어모델입니다. MoE(Mixture-of-Experts) 아키텍처를 사용합니다. MoE란 모델 내부에 여러 "전문가 네트워크"를 두고, 입력이 들어올 때마다 그중 일부만 골라 활성화하는 방식입니다. 총 파라미터는 350억 개이지만 실제 추론 시에는 30억 개만 사용하므로, 전체 용량의 약 8.6%만으로 동작합니다. 텍스트뿐 아니라 이미지·영상도 이해하는 멀티모달 모델이며, 사고 과정을 보여주는 Thinking 모드와 바로 답하는 Non-thinking 모드를 모두 지원합니다.

핵심 내용

전작 Qwen3.5-35B-A3B 대비 에이전틱 코딩(AI가 스스로 파일을 탐색하고 터미널을 실행하며 버그를 진단·수정하는 자율적 코딩 방식) 성능이 대폭 향상됨
SWE-bench Verified(실제 소프트웨어 버그 수정 평가) 73.4점, Terminal-Bench 2.0에서 51.5점으로, 파라미터가 훨씬 큰 Dense 모델(모든 파라미터를 전부 사용하는 전통 구조)인 Qwen3.5-27B를 다수 항목에서 능가
수학 경시대회(AIME 2026) 92.7점, 실시간 코딩(LiveCodeBench v6) 80.4점으로 27B Dense 모델과 대등
멀티모달 영역에서 MMMU 81.7점, RealWorldQA 85.3점으로 Claude Sonnet 4.5(유료 상용 모델)를 앞서며, 이미지 내 객체 위치 인식(RefCOCO 92.0) 등 공간 지능에서 특히 강함
OpenClaw, Claude Code, Qwen Code 등 서드파티 코딩 도구와 즉시 연동 가능하며, Anthropic API 프로토콜도 호환

장점

활성 파라미터 3B로 27~31B Dense 모델에 맞먹는 성능을 내므로 GPU 메모리와 전력 소비가 적고, 소규모 환경에서도 운영 가능
에이전틱 코딩 벤치마크 전반에서 동급 최강 수준
텍스트·이미지·영상·문서를 하나의 모델로 모두 처리
완전 오픈소스로 누구나 다운로드·추가 학습·커스터마이징 가능

단점

범용 에이전트 작업(VITA-Bench 35.6점)에서는 전작 27B Dense 모델(41.8점)보다 낮아 아직 개선 여지가 있음
최고 난이도 학술 추론(HLE 21.4점)에서도 Dense 대형 모델(24.3점)에 뒤처짐
지식 벤치마크(MMLU-Pro)에서 소폭 열세
API가 아직 "coming soon" 상태로 즉시 대규모 서비스 적용이 어려움

차별점

유사한 MoE 구조인 Google Gemma4-26B-A4B를 거의 모든 벤치마크에서 크게 앞섬
에이전트 작업 시 이전 대화 턴의 사고 내용을 보존하는 preserve_thinking 기능으로 장기적 맥락 유지에 유리
Anthropic API 프로토콜까지 호환해 Claude Code 생태계에도 바로 진입 가능

시사점

활성 파라미터 3B로 27B 모델에 필적하는 결과는 MoE 아키텍처가 AI 효율성의 새로운 표준이 되고 있음을 보여줌
오픈소스 모델이 Claude Sonnet 4.5 같은 유료 모델을 다수 항목에서 이기면서, 기업이 비싼 API 대신 자체 호스팅으로 전환할 동기가 강해지고 있음
벤치마크 구성에서 에이전틱 코딩 비중이 매우 높아, 업계가 AI의 자율적 소프트웨어 개발 능력을 가장 중요한 평가 기준으로 보고 있음을 시사

GeekNews Weekly에 포함된 글입니다. 에디터 코멘트 보기