Qwen3.6-Plus: 현실 세계 에이전트를 향하여

(qwen.ai)

7P by GN⁺ 3달전 | ★ favorite | 댓글 1개

Qwen3.6-Plus는 Qwen3.5 이후 공개된 대규모 업그레이드 모델로, 에이전트형 코딩 능력과 멀티모달 추론 성능을 대폭 강화함
1M 토큰 컨텍스트 윈도우를 지원하며, Alibaba Cloud Model Studio API를 통해 즉시 사용 가능
코딩·언어·멀티모달·에이전트 벤치마크에서 업계 최고 수준의 성능을 기록하고, 복잡한 코드 관리 및 장기 계획 수행 능력을 향상함
preserve_thinking 옵션을 통해 추론 맥락을 유지하고, OpenClaw·Claude Code·Qwen Code 등 다양한 코딩 에이전트와 통합 지원
시각 인지에서 행동 결정까지 수행 가능한 멀티모달 에이전트형 AI로 발전하며, 향후 소형 모델 오픈소스화 및 고자율 슈퍼 에이전트로의 확장을 목표로 함

Qwen3.6-Plus 주요 기능 및 성능 요약

Qwen3.6-Plus는 Qwen3.5 시리즈 이후 공개된 대규모 업그레이드 버전으로, 에이전트형 코딩 능력과 멀티모달 추론 성능을 크게 강화한 모델임
Alibaba Cloud Model Studio를 통해 API로 즉시 사용 가능하며, 1M 토큰 컨텍스트 윈도우를 기본 제공
커뮤니티 피드백을 반영해 안정성과 신뢰성을 개선하고, 실제 개발 환경에서의 “vibe coding” 경험을 목표로 함

성능 평가

다양한 언어·코딩·멀티모달·에이전트 벤치마크에서 동급 최고 수준의 성능을 기록
코딩 에이전트 분야에서는 SWE-bench, Terminal-Bench, Claw-Eval 등 주요 벤치마크에서 업계 선도 모델과 유사하거나 상회하는 결과를 달성
일반 에이전트 및 도구 활용 영역에서는 TAU3-Bench, DeepPlanning, MCPMark 등에서 전반적 향상
STEM 추론, 초장문 정보 추출, 다국어 적응력 등에서도 새로운 최고 기록을 달성
모델은 논리 추론·메모리·도구 실행을 유기적으로 통합하여, 복잡한 코드 관리나 장기 계획 등 현실 세계 문제 해결 능력을 강화

멀티모달 성능

고급 멀티모달 추론을 통해 문서 이해, 물리적 세계 분석, 비디오 추론, 시각 코딩 등에서 큰 진전 달성
실세계 적용성 측면에서 텍스트·객체 인식, 정밀 시각 인지 등 실제 비즈니스 환경에서 안정적 성능 발휘
비전-언어 통합을 통해 단일 작업 성능을 넘어 워크플로우 중심의 에이전트형 AI로 발전
RealWorldQA, OmniDocBench, CountBench, VideoMME 등 다양한 벤치마크에서 GPT5.2, Claude 4.5, Gemini-3 Pro 등과 경쟁력 있는 결과를 보임

API 및 개발 통합

Alibaba Cloud Model Studio API를 통해 OpenAI 및 Anthropic 호환 프로토콜 지원
새로운 API 옵션 preserve_thinking 추가
- 이전 대화의 추론 내용을 유지하여 에이전트형 작업의 일관성과 토큰 효율성 향상
- 기본값은 비활성(false)이며, 활성화 시 전체 추론 맥락을 유지
API는 OpenAI 호환 chat.completions 엔드포인트를 통해 사용 가능하며, 예제 코드 제공

코딩 및 에이전트 통합

Qwen3.6-Plus는 OpenClaw, Claude Code, Qwen Code, Kilo Code, Cline, OpenCode 등 서드파티 코딩 어시스턴트와 통합 가능
프론트엔드 개발에서 3D 장면, 게임, 웹 디자인 등 복잡한 프로젝트 처리 능력 강화
OpenClaw 통합
- 자체 호스팅 오픈소스 AI 코딩 에이전트로, Model Studio와 연결 시 터미널 기반 에이전트형 코딩 환경 제공
- 설정 파일(openclaw.json)에 Qwen3.6-Plus 모델을 추가하여 사용 가능
- 모델은 reasoning 활성화, 텍스트·이미지 입력, 1M 컨텍스트 윈도우 지원
Qwen Code 통합
- Qwen 시리즈에 최적화된 오픈소스 터미널형 AI 코딩 에이전트
- 복잡한 코드베이스 이해, 반복 작업 자동화, 빠른 배포 지원
- Node.js 환경에서 설치 후 /auth 명령으로 인증 가능
Claude Code 통합
- Anthropic API 프로토콜 호환을 통해 Claude Code CLI에서도 Qwen3.6-Plus 사용 가능
- 환경 변수로 모델명(qwen3.6-plus)과 API 엔드포인트 설정 후 실행

비주얼 에이전트 및 멀티모달 확장

시각 인지 → 멀티모달 추론 → 에이전트 실행으로 이어지는 발전 경로를 지속 강화
단순 인식이 아닌 시각적 정보의 관계 분석 및 행동 결정까지 수행 가능
문서 이해, 차트 분석, UI 인식, 정밀 위치 파악 등 실용적 시각 작업 지원
비디오 이해 영역에서는 시간적 정보와 프레임 간 관계를 처리하여 동적 콘텐츠 분석 가능
GUI 에이전트 시나리오에서 화면 상태를 인식하고 다단계 계획 및 실행 수행

향후 계획

Qwen3.6-Plus는 에이전트형 코딩과 멀티모달 AI의 실질적 진전을 이룬 버전으로, 개발자 생태계의 기반을 강화
곧 Qwen3.6 시리즈 전체 공개 및 소형 모델 오픈소스화 예정
장기적으로는 리포지토리 단위의 복잡한 장기 작업을 수행하는 고자율 슈퍼 에이전트로 발전 목표

GeekNews Weekly에 포함된 글입니다. 에디터 코멘트 보기

GN⁺ 3달전 [-]

Hacker News 의견들

이번 모델은 호스티드 전용이라 공개 가중치(open weight)가 아님
예전엔 공개 모델로 좋은 평판을 얻었지만, 이제는 Claude나 ChatGPT와 경쟁자로 인식되려는 전환이 어려움
사실 작은 모델을 무료로 공개한 건 관대함이 아니라 광고 전략이었음
또 Opus 4.6이 아닌 4.5와 비교한 건 의도적인 오해 유발로 보임
그래도 SOTA급은 아니지만 저렴하게 제공되는 모델 시장은 꽤 큼
다만 이런 시장은 브랜드 충성도가 낮아, 조금 더 나은 모델이 나오면 바로 갈아타는 경향이 있음
- 그들은 “작은 변형 모델”을 나중에 공개하겠다고 했지만, 구체적인 내용은 없음
  Qwen 3.5처럼 300B급 변형이 있을지도 불분명함. 공식 블로그에도 언급 없음
- 아, 그래서 최근 Qwen 팀원들의 이탈이 있었던 거였음
- 요즘은 오히려 이런 모델들의 수익성이 궁금해짐
  오픈 모델이 계속 늘고, 저가 하드웨어에서도 돌아가는데 AI 기업들은 어떻게 마진을 방어할 수 있을까 하는 의문이 생김
- 실제로는 Opus 4.5가 4.6보다 낫다고 느낌
  4.6은 단순히 비용 절감용 업데이트였고, 벤치마크만 조정해 더 좋아 보이게 만든 수준이었음
- 여러 모델을 프로덕션에서 써보면, 모델의 ‘성격(personality)’ 이 중요함
  예를 들어 지시를 잘 따르고, 토큰을 낭비하지 않고, 스크립트에서 벗어나지 않는 특성 말임
  중국 모델들은 이런 면에서 경쟁력이 높고, 70~90% 저렴한 가격에 비슷한 품질을 제공함
Qwen이 Opus 4.5나 Gemini Pro 3.0과 비교한 걸 이해함
하지만 그걸 기만적이라고까지 하는 건 과하다고 생각함
AI 모델은 분기마다 새 버전이 나오는데, 이전 세대 성능을 다 잊은 것도 아니고
GLM-5나 Kimi K2.5를 써봤는데 꽤 괜찮았음. 이번 Qwen 모델도 그 수준이라면 인상적임
Qwen 3.5-plus나 3-Max도 이미 비공개 모델이었으니 이번이 처음은 아님
닫힌 모델이라 아쉽지만, SOTA를 향한 경쟁은 결국 소비자에게 이득이라 생각함
- 문제는 단순히 비교 대상이 아니라 비교 방식의 진정성임
  마치 Apple이 새 iPhone을 내놓고 구형 Android와 비교하는 것처럼 보이니까 신뢰가 떨어짐
- Opus 4.5도 이미 충분히 좋았음
  게다가 Opus 4.5는 출력 토큰당 $25인데, 이번 모델은 $6 수준으로 1/4 가격임
꽤 괜찮은 Pelican 결과물을 얻었음
Alibaba Cloud Model Studio API로 생성했는데, 계정 등록과 PayPal 연결이 필요했음
하지만 지금은 OpenRouter에서 무료로 쓸 수 있음
- Pelican이 후미 그룹(drafting peloton) 을 따라잡는 중이라는 농담이 나옴
- 곧 자전거 타는 펠리컨을 학습시킬 거라는 농담도 있었음. “글로벌 벤치마크”라나 뭐라나
중국 연구소들이 오픈소스를 멈출 거라 생각하는 사람들에게 말하고 싶음
그럴 일은 없을 것임
예를 들어 Z.ai의 코딩 플랜에 가입해보라 — 거의 불가능함
이들은 마케팅 역량이 부족해서 오픈 모델 공개 외에는 존재감을 유지할 방법이 없음
판매도 OpenRouter나 OpenCode 같은 유통 채널에 의존함
결국 오픈소스화는 국가 전략이 아니라 상업화의 유일한 수단임
- “그럼 모델이 스스로 마케팅하면 되지 않나?”라는 농담도 있었음
  만약 자기 홍보도 못 한다면, 그건 성능의 한계 신호일지도 모름
이번 모델은 대부분의 Qwen 모델과 달리 가중치 비공개, 파라미터 수도 공개되지 않음
게다가 Opus 4.6이 두 달 전에 나왔는데 4.5와 비교한 점이 이상함
- 블로그 마지막 문단에 “곧 소형 변형 모델을 오픈소스로 공개할 예정”이라고 밝힘
  출처
- Opus 4.6이 두 달 전 출시라면, Qwen이 아직 비교 테스트를 완료하지 못했을 가능성도 있음
- 사실 Qwen의 -MAX나 -Omni 모델은 원래부터 비공개였음
나는 Opus 4.5와 비교한 게 그리 문제는 아니라고 생각함
내가 익숙한 모델과 비교하는 게 실제로 더 유용함
최고 성능을 원하면 다른 모델을 쓰겠지만, 비슷한 품질의 저가형 옵션을 찾는다면 충분히 의미 있음
- Opus 4.5 수준의 성능을 무료로 얻을 수 있다면 주목할 만함
  앱의 핵심 기능엔 안 쓰더라도, 덜 중요한 부분엔 충분히 활용 가능함
- 솔직히 Opus 4.6이나 GPT 5.4는 이전 세대 대비 체감 차이가 거의 없었음
  4.5 수준 성능을 1/10 가격에 쓸 수 있다면 그걸 택하겠음
에이전트 벤치마크 결과는 흥미롭지만, Qwen3.6-Plus가 오류 복구 능력을 얼마나 갖췄는지 궁금함
대부분의 테스트는 ‘행복 경로(happy path)’만 다루는데,
실제로는 3단계에서 실수하고 15단계에서 되돌아올 수 있는지가 진짜 관건임
실제 개발 워크플로우에서 이런 스트레스 테스트를 해본 사람이 있는지 궁금함
AI 벤더들이 경쟁사 이전 세대 모델과 비교하는 마케팅을 그만했으면 함
아무도 속지 않는데, 괜히 브랜드 신뢰도만 깎임
Qwen 모델 자체는 훌륭한데, 이런 비교 전략 때문에 평판이 손상되는 게 아쉬움
사실 Qwen은 예전부터 Plus와 Max 버전은 비공개로 운영해왔음
그래서 이번 공개 방식이 새롭지는 않음
Qwen 3.6 Plus는 단순히 3.5 Plus의 정제된 버전으로 보임
비교 링크

답변달기

Qwen3.6-Plus: 현실 세계 에이전트를 향하여

Qwen3.6-Plus 주요 기능 및 성능 요약

성능 평가

멀티모달 성능

API 및 개발 통합

코딩 및 에이전트 통합

OpenClaw 통합

Qwen Code 통합

Claude Code 통합

비주얼 에이전트 및 멀티모달 확장

향후 계획

함께 보면 좋은 글 β

댓글과 토론

Hacker News 의견들