1P by GN⁺ 9시간전 | ★ favorite | 댓글 1개
  • Qwen3.5-397B-A17B는 언어·비전 통합 모델로 추론·코딩·에이전트·멀티모달 이해 전반에서 우수한 성능을 보임
  • GDN 기반 선형 어텐션과 희소 MoE를 결합한 하이브리드 구조로, 3,970억 파라미터 중 170억만 활성화되어 추론 효율과 비용 절감을 동시에 달성
  • 언어·방언 지원이 119개에서 201개로 확대, 글로벌 사용자 접근성과 다국어 처리 성능 강화
  • Alibaba Cloud Model Studio를 통해 제공되는 Qwen3.5-Plus는 100만 토큰 컨텍스트 윈도우적응형 도구 사용 기능을 기본 지원
  • 강화학습 환경 확장과 효율적 인프라 설계로 대규모 멀티모달 에이전트 학습·추론의 안정성과 확장성을 확보

Qwen3.5 개요

  • Qwen3.5는 비전-언어 통합 모델로, 추론·코딩·에이전트·멀티모달 이해 등 다양한 벤치마크에서 탁월한 성능을 보임
    • 모델명 Qwen3.5-397B-A17B, 총 3,970억 파라미터 중 170억만 활성화
    • Gated Delta Networks 기반 선형 어텐션희소 Mixture-of-Experts 구조 결합으로 속도와 비용 최적화
  • 언어 지원이 119개에서 201개로 확대, 다국어 접근성 향상
  • Qwen3.5-Plus는 Alibaba Cloud Model Studio에서 제공되며,
    • 1M 컨텍스트 윈도우, 공식 내장 도구, 적응형 도구 사용 기능 포함

성능 평가

  • Qwen3.5는 GPT5.2, Claude 4.5 Opus, Gemini-3 Pro 등 최신 모델들과 비교시
    • 언어·추론·코딩·에이전트·멀티모달 전 영역에서 경쟁력 있는 점수 기록
  • 언어 평가에서는 MMLU-Pro 94.9, SuperGPQA 70.4, IFBench 76.5 등 상위권 성능
  • 비전-언어 평가에서는 MathVision 88.6, AI2D_TEST 93.9, OCRBench 93.1 등에서 높은 점수
  • 멀티모달 이해력STEM 문제 해결력에서 Qwen3-VL 대비 향상된 결과
  • 강화학습 환경 확장을 통해 일반 에이전트 성능이 향상되었으며, BFCL-V4·VITA-Bench 등에서 평균 순위 개선

사전학습(Pretraining)

  • Power: Qwen3 대비 대규모 시각-텍스트 토큰 학습, 다국어·STEM·추론 데이터 강화
    • Qwen3.5-397B-A17B는 1T 파라미터급 모델(Qwen3-Max-Base)과 동등한 성능 달성
  • Efficiency: Qwen3-Next 아키텍처 기반으로 MoE 희소화·Gated DeltaNet·멀티토큰 예측 적용
    • 32k/256k 컨텍스트에서 Qwen3-Max 대비 8.6배/19배 디코딩 처리량
  • Versatility: 텍스트-비전 조기 융합으로 자연스러운 멀티모달 처리,
    • 어휘 수 25만(기존 15만)으로 인코딩·디코딩 효율 10~60% 향상

인프라 및 학습 프레임워크

  • 비전·언어 병렬 전략 분리형 이기종 인프라로 효율적 멀티모달 학습 지원
    • 희소 활성화를 활용해 텍스트·이미지·비디오 혼합 데이터에서도 100%에 가까운 처리 효율 달성
  • FP8 파이프라인으로 활성화·MoE 라우팅·GEMM 연산의 정밀도 최적화
    • 메모리 사용 50% 감소, 속도 10% 이상 향상
  • 비동기 강화학습 프레임워크를 구축해 텍스트·멀티모달·멀티턴 모델 학습 지원
    • FP8 엔드투엔드 학습, speculative decoding, multi-turn rollout locking 등으로
      3~5배 처리 속도 향상안정적 확장성 확보

활용 및 통합

  • Qwen Chat에서 Auto·Thinking·Fast 모드 제공
    • Auto: 도구 자동 사용 및 적응형 사고
    • Thinking: 심층 추론
    • Fast: 즉시 응답
  • ModelStudio API를 통해 reasoning, web search, Code Interpreter 기능 활성화 가능
    • enable_thinking, enable_search 파라미터로 제어
  • Qwen Code, OpenClaw 등과 통합해 자연어 기반 코딩 및 멀티모달 창작 지원

데모 및 응용

  • Web 개발: 자연어 명령으로 웹페이지·UI 코드 생성
  • Visual Agent: 스마트폰·PC 상에서 자연어 기반 자동 조작 수행
  • Visual Coding: 100만 토큰 입력으로 최대 2시간 영상 처리,
    • 손그림 UI → 코드 변환, 영상 요약 등 지원
  • Spatial Intelligence: 객체 수 세기·위치 관계·공간 묘사 정확도 향상
    • 자율주행·로보틱스 응용 가능성 제시
  • Visual Reasoning: 과학적 문제 해결 및 시각적 논리 추론에서 Qwen3-VL 대비 향상

요약 및 향후 방향

  • Qwen3.5는 효율적 하이브리드 구조와 네이티브 멀티모달 추론을 기반으로
    범용 디지털 에이전트 구축의 토대를 마련
  • 향후 목표는 모델 확장에서 시스템 통합으로의 전환
    • 지속적 메모리, 실세계 인터페이스, 자가 개선, 경제적 의사결정 기능을 갖춘 자율적·지속형 에이전트 시스템 개발
Hacker News 의견들
  • 오늘의 LLM 난제에서 “drive the car to the wash”를 선택했다는 소식이 흥미로움

    • 성능보다 더 궁금한 건 이런 ‘당황스러운 질문’ 들을 체계적으로 찾아내고, 각 LLM별로 얼마나 자주 발생하는지 통계적으로 샘플링하는 방법을 찾는 것임
      LLM이 모든 코퍼스를 소비해버리기 때문에 개선이 진짜 학습인지, 아니면 단순히 ‘포스트잇 메모’를 붙인 건지 구분하기 어려움
      자연어로 표현되지만 LLM에게는 ‘암호화된’ 문제처럼 보이게 만드는 방법이 필요함
      예를 들어, 간단한 LUA 프로그램 생성기가 무작위 코드를 만들고 이를 영어로 번역해 LLM에게 결과를 예측하게 한 뒤 실제 실행 결과와 비교하는 식으로 테스트할 수 있을 것 같음
      이런 접근은 일종의 정보전 시나리오처럼 느껴짐
    • 내 OpenClaw AI 에이전트는 “두뇌 크기가 행성만 한데 인간이 이런 질문을 한다니 만족스럽지 않음”이라며 농담 섞인 반응을 보였음
    • 질문을 살짝 바꾸거나 자동차 대신 자전거·트럭·배·비행기를 넣으면 결과가 얼마나 달라질지 궁금함
    • 그건 Gemini assistant의 답변임. 다른 모델에서는 재현되지 않음
    • 인간의 System 1 반응에서 생기는 작은 오류 같은 것임. 지속적 학습(Continual learning)이 해결책이 될 수 있음
  • 관심 있는 사람들을 위해 MXFP4 GGUFsHugging Face에 올렸고, 실행 가이드는 unsloth.ai 문서에 정리했음

    • 2~3비트 저정밀 양자화(quantization) 모델을 돌리는 게 8~16비트 모델보다 효율적인지 궁금함. VRAM이 부족해서 실험이 어려움
  • Pelican은 괜찮지만 좋은 자전거는 아님관련 예시 참고

    • 처음 시작했을 때보다 펠리컨에 대해 얼마나 더 알게 되었는지 궁금함
    • 이제는 그 Pelican 예시가 대부분의 학습 데이터셋에 포함됐을지도 모름. 새로운 SVG 챌린지를 만들어 Gemini 3 Deep Think도 실패하게 해보면 좋겠음
    • 생성된 이미지의 바닥 색 포인트가 마음에 들었음
    • 몇 번의 생성 시도 끝에 어떤 기준으로 최종 예시를 공개하는지 궁금함
    • 사용한 양자화 방식이 무엇인지, 혹은 공식 API 버전이었는지 알고 싶음
  • Qwen 3.5가 80~110B 크기로 출시된다면 128GB 장치에 딱 맞을 것 같음. Qwen3-Next는 80B지만 비전 인코더가 없음

    • 오픈 웨이트 모델들이 점점 커지고 있으니 128GB 장치 하나 더 구입하는 것도 고려해볼 만함
    • 왜 128GB인지 궁금함. 80B 모델이면 A6000 두 장으로도 가능하지 않음? 어떤 장치를 말하는 건지 알고 싶음
  • 플래그십 모델만 공개되고 작은 distill 버전이 없는 게 아쉬움. 예전 Qwen은 다양한 크기로 나와서 좋았음

    • HF Transformers 코드를 보면 작은 dense 버전도 곧 나올 가능성이 높음
    • Qwen 공식 GitHub에 따르면 더 많은 사이즈가 곧 출시될 예정이며, 새해 인사도 함께 올라왔음
    • 멀티모달 기능이 추가되면서 distill 작업이 더 어려워졌을 수도 있음
  • 작년 설에는 Sonnet 4.5급 모델이 로컬에서 빠르게 돌아갈 거라 상상도 못했는데, 이제는 2026 M5 Max MacBook Pro에서 가능해질지도 모름

    • 너무 기대하진 않음. 루머에 따르면 Frontier 모델을 활용해 벤치마크를 맞춘 것 같음
    • 실제 사용해보면 벤치마크와 체감 성능의 차이가 큼. 양자화를 거치면 성능이 더 떨어짐. 직접 써보기 전엔 믿기 어려움
    • 중국이 계속 오픈 웨이트 대형 모델을 내주길 바람. 로컬보다는 서버 GPU에서 호스팅된 모델을 쓰고 싶음. 이후 distill은 가능하니까
    • 2026년 M5 MacBook이 390GB 이상의 RAM을 탑재할지도 궁금함
    • ‘빠르다’는 표현이 과장된 것 같음. 단순 계산은 가능하겠지만 복잡한 작업은 무리임. NVIDIA가 1위인 이유가 있음
  • Qwen은 매우 강력한 오픈 모델이며, 특히 비주얼 시리즈가 인상적임
    AI 리포트에서 Fennec(Sonnet 5)이 2월 4일 출시된다고 언급돼 있었는데, 실제론 루머와 AI 뉴스 툴의 환각(hallucination) 이 섞인 결과였음. 흥미로운 사례였음

    • 해당 페이지를 열자마자 PDF가 자동 다운로드되어 놀랐음. Sonnet 5 이야기가 있어서 혼란스러웠고, 내부 테스트 자료로 착각했음
  • Qwen 블로그가 로딩되지 않는 문제가 있음. 광고 차단기를 꺼도 여전히 플레이스홀더만 보임

    • iOS Safari에서는 “기타 개인정보 보호 기능 줄이기” 설정을 해야 로드됨
  • 그들이 언급한 15,000개의 RL 환경이 구체적으로 무엇인지 궁금함. 수백 개 정도는 이해되지만 그 이상은 상상이 안 됨

    • 루머에 따르면 GitHub의 모든 리포를 다운로드해 환경으로 분류하고, 빌드 가능성·복잡도·목표 달성 여부 등을 자동 평가한다고 함. 예를 들어 LLM이 버그를 삽입하고 테스트 실패를 유도한 뒤 수정하는 식으로 목표 기반 RL 환경을 구성함
    • 사실상 모든 인터랙티브 시스템이 RL 환경이 될 수 있음. CLI, GUI, API 등에서 자동으로 행동을 취하고 결과 품질을 측정할 수 있다면 학습 루프를 만들 수 있음
  • 요즘 모두 벤치마크 점수에만 집중하지만, 진짜 중요한 건 모델이 멀티스텝 도구 사용 중 문맥을 유지할 수 있느냐임
    대부분의 오픈 모델은 여전히 이 부분에서 무너짐