3P by GN⁺ 5시간전 | ★ favorite | 댓글 1개
  • Qwen3.6-Plus는 Qwen3.5 이후 공개된 대규모 업그레이드 모델로, 에이전트형 코딩 능력멀티모달 추론 성능을 대폭 강화함
  • 1M 토큰 컨텍스트 윈도우를 지원하며, Alibaba Cloud Model Studio API를 통해 즉시 사용 가능
  • 코딩·언어·멀티모달·에이전트 벤치마크에서 업계 최고 수준의 성능을 기록하고, 복잡한 코드 관리 및 장기 계획 수행 능력을 향상함
  • preserve_thinking 옵션을 통해 추론 맥락을 유지하고, OpenClaw·Claude Code·Qwen Code 등 다양한 코딩 에이전트와 통합 지원
  • 시각 인지에서 행동 결정까지 수행 가능한 멀티모달 에이전트형 AI로 발전하며, 향후 소형 모델 오픈소스화 및 고자율 슈퍼 에이전트로의 확장을 목표로 함

Qwen3.6-Plus 주요 기능 및 성능 요약

  • Qwen3.6-Plus는 Qwen3.5 시리즈 이후 공개된 대규모 업그레이드 버전으로, 에이전트형 코딩 능력멀티모달 추론 성능을 크게 강화한 모델임
  • Alibaba Cloud Model Studio를 통해 API로 즉시 사용 가능하며, 1M 토큰 컨텍스트 윈도우를 기본 제공
  • 커뮤니티 피드백을 반영해 안정성과 신뢰성을 개선하고, 실제 개발 환경에서의 “vibe coding” 경험을 목표로 함

성능 평가

  • 다양한 언어·코딩·멀티모달·에이전트 벤치마크에서 동급 최고 수준의 성능을 기록
  • 코딩 에이전트 분야에서는 SWE-bench, Terminal-Bench, Claw-Eval 등 주요 벤치마크에서 업계 선도 모델과 유사하거나 상회하는 결과를 달성
  • 일반 에이전트 및 도구 활용 영역에서는 TAU3-Bench, DeepPlanning, MCPMark 등에서 전반적 향상
  • STEM 추론, 초장문 정보 추출, 다국어 적응력 등에서도 새로운 최고 기록을 달성
  • 모델은 논리 추론·메모리·도구 실행을 유기적으로 통합하여, 복잡한 코드 관리나 장기 계획 등 현실 세계 문제 해결 능력을 강화

멀티모달 성능

  • 고급 멀티모달 추론을 통해 문서 이해, 물리적 세계 분석, 비디오 추론, 시각 코딩 등에서 큰 진전 달성
  • 실세계 적용성 측면에서 텍스트·객체 인식, 정밀 시각 인지 등 실제 비즈니스 환경에서 안정적 성능 발휘
  • 비전-언어 통합을 통해 단일 작업 성능을 넘어 워크플로우 중심의 에이전트형 AI로 발전
  • RealWorldQA, OmniDocBench, CountBench, VideoMME 등 다양한 벤치마크에서 GPT5.2, Claude 4.5, Gemini-3 Pro 등과 경쟁력 있는 결과를 보임

API 및 개발 통합

  • Alibaba Cloud Model Studio API를 통해 OpenAI 및 Anthropic 호환 프로토콜 지원
  • 새로운 API 옵션 preserve_thinking 추가
    • 이전 대화의 추론 내용을 유지하여 에이전트형 작업의 일관성토큰 효율성 향상
    • 기본값은 비활성(false)이며, 활성화 시 전체 추론 맥락을 유지
  • API는 OpenAI 호환 chat.completions 엔드포인트를 통해 사용 가능하며, 예제 코드 제공

코딩 및 에이전트 통합

  • Qwen3.6-Plus는 OpenClaw, Claude Code, Qwen Code, Kilo Code, Cline, OpenCode 등 서드파티 코딩 어시스턴트와 통합 가능
  • 프론트엔드 개발에서 3D 장면, 게임, 웹 디자인 등 복잡한 프로젝트 처리 능력 강화
  • OpenClaw 통합

    • 자체 호스팅 오픈소스 AI 코딩 에이전트로, Model Studio와 연결 시 터미널 기반 에이전트형 코딩 환경 제공
    • 설정 파일(openclaw.json)에 Qwen3.6-Plus 모델을 추가하여 사용 가능
    • 모델은 reasoning 활성화, 텍스트·이미지 입력, 1M 컨텍스트 윈도우 지원
  • Qwen Code 통합

    • Qwen 시리즈에 최적화된 오픈소스 터미널형 AI 코딩 에이전트
    • 복잡한 코드베이스 이해, 반복 작업 자동화, 빠른 배포 지원
    • Node.js 환경에서 설치 후 /auth 명령으로 인증 가능
  • Claude Code 통합

    • Anthropic API 프로토콜 호환을 통해 Claude Code CLI에서도 Qwen3.6-Plus 사용 가능
    • 환경 변수로 모델명(qwen3.6-plus)과 API 엔드포인트 설정 후 실행

비주얼 에이전트 및 멀티모달 확장

  • 시각 인지 → 멀티모달 추론 → 에이전트 실행으로 이어지는 발전 경로를 지속 강화
  • 단순 인식이 아닌 시각적 정보의 관계 분석 및 행동 결정까지 수행 가능
  • 문서 이해, 차트 분석, UI 인식, 정밀 위치 파악 등 실용적 시각 작업 지원
  • 비디오 이해 영역에서는 시간적 정보와 프레임 간 관계를 처리하여 동적 콘텐츠 분석 가능
  • GUI 에이전트 시나리오에서 화면 상태를 인식하고 다단계 계획 및 실행 수행

향후 계획

  • Qwen3.6-Plus는 에이전트형 코딩멀티모달 AI의 실질적 진전을 이룬 버전으로, 개발자 생태계의 기반을 강화
  • Qwen3.6 시리즈 전체 공개소형 모델 오픈소스화 예정
  • 장기적으로는 리포지토리 단위의 복잡한 장기 작업을 수행하는 고자율 슈퍼 에이전트로 발전 목표
Hacker News 의견들
  • 이번 모델은 호스티드 전용이라 공개 가중치(open weight)가 아님
    예전엔 공개 모델로 좋은 평판을 얻었지만, 이제는 Claude나 ChatGPT와 경쟁자로 인식되려는 전환이 어려움
    사실 작은 모델을 무료로 공개한 건 관대함이 아니라 광고 전략이었음
    또 Opus 4.6이 아닌 4.5와 비교한 건 의도적인 오해 유발로 보임
    그래도 SOTA급은 아니지만 저렴하게 제공되는 모델 시장은 꽤 큼
    다만 이런 시장은 브랜드 충성도가 낮아, 조금 더 나은 모델이 나오면 바로 갈아타는 경향이 있음

    • 그들은 “작은 변형 모델”을 나중에 공개하겠다고 했지만, 구체적인 내용은 없음
      Qwen 3.5처럼 300B급 변형이 있을지도 불분명함. 공식 블로그에도 언급 없음
    • 아, 그래서 최근 Qwen 팀원들의 이탈이 있었던 거였음
    • 요즘은 오히려 이런 모델들의 수익성이 궁금해짐
      오픈 모델이 계속 늘고, 저가 하드웨어에서도 돌아가는데 AI 기업들은 어떻게 마진을 방어할 수 있을까 하는 의문이 생김
    • 실제로는 Opus 4.5가 4.6보다 낫다고 느낌
      4.6은 단순히 비용 절감용 업데이트였고, 벤치마크만 조정해 더 좋아 보이게 만든 수준이었음
    • 여러 모델을 프로덕션에서 써보면, 모델의 ‘성격(personality)’ 이 중요함
      예를 들어 지시를 잘 따르고, 토큰을 낭비하지 않고, 스크립트에서 벗어나지 않는 특성 말임
      중국 모델들은 이런 면에서 경쟁력이 높고, 70~90% 저렴한 가격에 비슷한 품질을 제공함
  • Qwen이 Opus 4.5나 Gemini Pro 3.0과 비교한 걸 이해함
    하지만 그걸 기만적이라고까지 하는 건 과하다고 생각함
    AI 모델은 분기마다 새 버전이 나오는데, 이전 세대 성능을 다 잊은 것도 아니고
    GLM-5나 Kimi K2.5를 써봤는데 꽤 괜찮았음. 이번 Qwen 모델도 그 수준이라면 인상적임
    Qwen 3.5-plus나 3-Max도 이미 비공개 모델이었으니 이번이 처음은 아님
    닫힌 모델이라 아쉽지만, SOTA를 향한 경쟁은 결국 소비자에게 이득이라 생각함

    • 문제는 단순히 비교 대상이 아니라 비교 방식의 진정성
      마치 Apple이 새 iPhone을 내놓고 구형 Android와 비교하는 것처럼 보이니까 신뢰가 떨어짐
    • Opus 4.5도 이미 충분히 좋았음
      게다가 Opus 4.5는 출력 토큰당 $25인데, 이번 모델은 $6 수준으로 1/4 가격임
  • 꽤 괜찮은 Pelican 결과물을 얻었음
    Alibaba Cloud Model Studio API로 생성했는데, 계정 등록과 PayPal 연결이 필요했음
    하지만 지금은 OpenRouter에서 무료로 쓸 수 있음

    • Pelican이 후미 그룹(drafting peloton) 을 따라잡는 중이라는 농담이 나옴
    • 자전거 타는 펠리컨을 학습시킬 거라는 농담도 있었음. “글로벌 벤치마크”라나 뭐라나
  • 중국 연구소들이 오픈소스를 멈출 거라 생각하는 사람들에게 말하고 싶음
    그럴 일은 없을 것임
    예를 들어 Z.ai의 코딩 플랜에 가입해보라 — 거의 불가능함
    이들은 마케팅 역량이 부족해서 오픈 모델 공개 외에는 존재감을 유지할 방법이 없음
    판매도 OpenRouter나 OpenCode 같은 유통 채널에 의존함
    결국 오픈소스화는 국가 전략이 아니라 상업화의 유일한 수단

    • “그럼 모델이 스스로 마케팅하면 되지 않나?”라는 농담도 있었음
      만약 자기 홍보도 못 한다면, 그건 성능의 한계 신호일지도 모름
  • 이번 모델은 대부분의 Qwen 모델과 달리 가중치 비공개, 파라미터 수도 공개되지 않음
    게다가 Opus 4.6이 두 달 전에 나왔는데 4.5와 비교한 점이 이상함

    • 블로그 마지막 문단에 “곧 소형 변형 모델을 오픈소스로 공개할 예정”이라고 밝힘
      출처
    • Opus 4.6이 두 달 전 출시라면, Qwen이 아직 비교 테스트를 완료하지 못했을 가능성도 있음
    • 사실 Qwen의 -MAX나 -Omni 모델은 원래부터 비공개였음
  • 나는 Opus 4.5와 비교한 게 그리 문제는 아니라고 생각함
    내가 익숙한 모델과 비교하는 게 실제로 더 유용함
    최고 성능을 원하면 다른 모델을 쓰겠지만, 비슷한 품질의 저가형 옵션을 찾는다면 충분히 의미 있음

    • Opus 4.5 수준의 성능을 무료로 얻을 수 있다면 주목할 만함
      앱의 핵심 기능엔 안 쓰더라도, 덜 중요한 부분엔 충분히 활용 가능함
    • 솔직히 Opus 4.6이나 GPT 5.4는 이전 세대 대비 체감 차이가 거의 없었음
      4.5 수준 성능을 1/10 가격에 쓸 수 있다면 그걸 택하겠음
  • 에이전트 벤치마크 결과는 흥미롭지만, Qwen3.6-Plus가 오류 복구 능력을 얼마나 갖췄는지 궁금함
    대부분의 테스트는 ‘행복 경로(happy path)’만 다루는데,
    실제로는 3단계에서 실수하고 15단계에서 되돌아올 수 있는지가 진짜 관건임
    실제 개발 워크플로우에서 이런 스트레스 테스트를 해본 사람이 있는지 궁금함

  • AI 벤더들이 경쟁사 이전 세대 모델과 비교하는 마케팅을 그만했으면 함
    아무도 속지 않는데, 괜히 브랜드 신뢰도만 깎임
    Qwen 모델 자체는 훌륭한데, 이런 비교 전략 때문에 평판이 손상되는 게 아쉬움

  • 사실 Qwen은 예전부터 Plus와 Max 버전은 비공개로 운영해왔음
    그래서 이번 공개 방식이 새롭지는 않음

  • Qwen 3.6 Plus는 단순히 3.5 Plus의 정제된 버전으로 보임
    비교 링크