25P by ragingwind 31일전 | ★ favorite | 댓글 2개

알리바바 Qwen 팀이 2026년 4월에 오픈소스로 공개한 대규모 언어모델입니다. MoE(Mixture-of-Experts) 아키텍처를 사용합니다. MoE란 모델 내부에 여러 "전문가 네트워크"를 두고, 입력이 들어올 때마다 그중 일부만 골라 활성화하는 방식입니다. 총 파라미터는 350억 개이지만 실제 추론 시에는 30억 개만 사용하므로, 전체 용량의 약 8.6%만으로 동작합니다. 텍스트뿐 아니라 이미지·영상도 이해하는 멀티모달 모델이며, 사고 과정을 보여주는 Thinking 모드와 바로 답하는 Non-thinking 모드를 모두 지원합니다.

핵심 내용

  • 전작 Qwen3.5-35B-A3B 대비 에이전틱 코딩(AI가 스스로 파일을 탐색하고 터미널을 실행하며 버그를 진단·수정하는 자율적 코딩 방식) 성능이 대폭 향상됨
  • SWE-bench Verified(실제 소프트웨어 버그 수정 평가) 73.4점, Terminal-Bench 2.0에서 51.5점으로, 파라미터가 훨씬 큰 Dense 모델(모든 파라미터를 전부 사용하는 전통 구조)인 Qwen3.5-27B를 다수 항목에서 능가
  • 수학 경시대회(AIME 2026) 92.7점, 실시간 코딩(LiveCodeBench v6) 80.4점으로 27B Dense 모델과 대등
  • 멀티모달 영역에서 MMMU 81.7점, RealWorldQA 85.3점으로 Claude Sonnet 4.5(유료 상용 모델)를 앞서며, 이미지 내 객체 위치 인식(RefCOCO 92.0) 등 공간 지능에서 특히 강함
  • OpenClaw, Claude Code, Qwen Code 등 서드파티 코딩 도구와 즉시 연동 가능하며, Anthropic API 프로토콜도 호환

장점

  • 활성 파라미터 3B로 27~31B Dense 모델에 맞먹는 성능을 내므로 GPU 메모리와 전력 소비가 적고, 소규모 환경에서도 운영 가능
  • 에이전틱 코딩 벤치마크 전반에서 동급 최강 수준
  • 텍스트·이미지·영상·문서를 하나의 모델로 모두 처리
  • 완전 오픈소스로 누구나 다운로드·추가 학습·커스터마이징 가능

단점

  • 범용 에이전트 작업(VITA-Bench 35.6점)에서는 전작 27B Dense 모델(41.8점)보다 낮아 아직 개선 여지가 있음
  • 최고 난이도 학술 추론(HLE 21.4점)에서도 Dense 대형 모델(24.3점)에 뒤처짐
  • 지식 벤치마크(MMLU-Pro)에서 소폭 열세
  • API가 아직 "coming soon" 상태로 즉시 대규모 서비스 적용이 어려움

차별점

  • 유사한 MoE 구조인 Google Gemma4-26B-A4B를 거의 모든 벤치마크에서 크게 앞섬
  • 에이전트 작업 시 이전 대화 턴의 사고 내용을 보존하는 preserve_thinking 기능으로 장기적 맥락 유지에 유리
  • Anthropic API 프로토콜까지 호환해 Claude Code 생태계에도 바로 진입 가능

시사점

  • 활성 파라미터 3B로 27B 모델에 필적하는 결과는 MoE 아키텍처가 AI 효율성의 새로운 표준이 되고 있음을 보여줌
  • 오픈소스 모델이 Claude Sonnet 4.5 같은 유료 모델을 다수 항목에서 이기면서, 기업이 비싼 API 대신 자체 호스팅으로 전환할 동기가 강해지고 있음
  • 벤치마크 구성에서 에이전틱 코딩 비중이 매우 높아, 업계가 AI의 자율적 소프트웨어 개발 능력을 가장 중요한 평가 기준으로 보고 있음을 시사

댓글과 토론

Qwen팀 없는 Qwen팀이 시장 불안 관리하려고 벤치에만 맞춰 성급히 내 놓은 모델이라는게 저희 연구소 실험 결과입니다. 도구 강박이 심해요. 3.5대비 퇴행이라 봅니다.

Q3.5버전 맥에서 돌려보고 있는데 진짜 이전 세대들에 비해서 지능 향상이 인상적이더라구요. Oss 120b까지 따라잡았으니 말다했죠.