알리바바 Qwen 팀이 2026년 4월에 오픈소스로 공개한 대규모 언어모델입니다. MoE(Mixture-of-Experts) 아키텍처를 사용합니다. MoE란 모델 내부에 여러 "전문가 네트워크"를 두고, 입력이 들어올 때마다 그중 일부만 골라 활성화하는 방식입니다. 총 파라미터는 350억 개이지만 실제 추론 시에는 30억 개만 사용하므로, 전체 용량의 약 8.6%만으로 동작합니다. 텍스트뿐 아니라 이미지·영상도 이해하는 멀티모달 모델이며, 사고 과정을 보여주는 Thinking 모드와 바로 답하는 Non-thinking 모드를 모두 지원합니다.
핵심 내용
- 전작 Qwen3.5-35B-A3B 대비 에이전틱 코딩(AI가 스스로 파일을 탐색하고 터미널을 실행하며 버그를 진단·수정하는 자율적 코딩 방식) 성능이 대폭 향상됨
- SWE-bench Verified(실제 소프트웨어 버그 수정 평가) 73.4점, Terminal-Bench 2.0에서 51.5점으로, 파라미터가 훨씬 큰 Dense 모델(모든 파라미터를 전부 사용하는 전통 구조)인 Qwen3.5-27B를 다수 항목에서 능가
- 수학 경시대회(AIME 2026) 92.7점, 실시간 코딩(LiveCodeBench v6) 80.4점으로 27B Dense 모델과 대등
- 멀티모달 영역에서 MMMU 81.7점, RealWorldQA 85.3점으로 Claude Sonnet 4.5(유료 상용 모델)를 앞서며, 이미지 내 객체 위치 인식(RefCOCO 92.0) 등 공간 지능에서 특히 강함
- OpenClaw, Claude Code, Qwen Code 등 서드파티 코딩 도구와 즉시 연동 가능하며, Anthropic API 프로토콜도 호환
장점
- 활성 파라미터 3B로 27~31B Dense 모델에 맞먹는 성능을 내므로 GPU 메모리와 전력 소비가 적고, 소규모 환경에서도 운영 가능
- 에이전틱 코딩 벤치마크 전반에서 동급 최강 수준
- 텍스트·이미지·영상·문서를 하나의 모델로 모두 처리
- 완전 오픈소스로 누구나 다운로드·추가 학습·커스터마이징 가능
단점
- 범용 에이전트 작업(VITA-Bench 35.6점)에서는 전작 27B Dense 모델(41.8점)보다 낮아 아직 개선 여지가 있음
- 최고 난이도 학술 추론(HLE 21.4점)에서도 Dense 대형 모델(24.3점)에 뒤처짐
- 지식 벤치마크(MMLU-Pro)에서 소폭 열세
- API가 아직 "coming soon" 상태로 즉시 대규모 서비스 적용이 어려움
차별점
- 유사한 MoE 구조인 Google Gemma4-26B-A4B를 거의 모든 벤치마크에서 크게 앞섬
- 에이전트 작업 시 이전 대화 턴의 사고 내용을 보존하는 preserve_thinking 기능으로 장기적 맥락 유지에 유리
- Anthropic API 프로토콜까지 호환해 Claude Code 생태계에도 바로 진입 가능
시사점
- 활성 파라미터 3B로 27B 모델에 필적하는 결과는 MoE 아키텍처가 AI 효율성의 새로운 표준이 되고 있음을 보여줌
- 오픈소스 모델이 Claude Sonnet 4.5 같은 유료 모델을 다수 항목에서 이기면서, 기업이 비싼 API 대신 자체 호스팅으로 전환할 동기가 강해지고 있음
- 벤치마크 구성에서 에이전틱 코딩 비중이 매우 높아, 업계가 AI의 자율적 소프트웨어 개발 능력을 가장 중요한 평가 기준으로 보고 있음을 시사