# Qwen3.5: 네이티브 멀티모달 에이전트를 향하여

> Clean Markdown view of GeekNews topic #26744. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=26744](https://news.hada.io/topic?id=26744)
- GeekNews Markdown: [https://news.hada.io/topic/26744.md](https://news.hada.io/topic/26744.md)
- Type: GN+
- Author: [xguru](https://news.hada.io/@xguru)
- Published: 2026-02-17T06:57:47+09:00
- Updated: 2026-02-17T06:57:47+09:00
- Original source: [qwen.ai](https://qwen.ai/blog?id=qwen3.5)
- Points: 6
- Comments: 1

## Summary

**Qwen3.5**는 언어와 비전을 통합한 **네이티브 멀티모달 모델**로, 추론·코딩·에이전트 수행 전반에서 대형 모델 수준의 성능을 효율적으로 구현합니다. **GDN 기반 선형 어텐션과 희소 MoE 구조**를 결합해 3,970억 파라미터 중 170억만 활성화함으로써 처리 속도와 비용을 동시에 줄였습니다. 또한 언어 지원을 201개로 확장하고, **1M 컨텍스트 윈도우와 적응형 도구 사용**을 지원하는 Qwen3.5-Plus를 통해 대규모 멀티모달 에이전트의 실용적 확장을 뒷받침합니다.

## Topic Body

- **Qwen3.5-397B-A17B**는 언어·비전 통합 모델로 **추론·코딩·에이전트·멀티모달 이해** 전반에서 우수한 성능을 보임  
- **GDN 기반 선형 어텐션과 희소 MoE**를 결합한 하이브리드 구조로, 3,970억 파라미터 중 170억만 활성화되어 **추론 효율과 비용 절감**을 동시에 달성  
- **언어·방언 지원이 119개에서 201개로 확대**, 글로벌 사용자 접근성과 다국어 처리 성능 강화  
- **Alibaba Cloud Model Studio**를 통해 제공되는 Qwen3.5-Plus는 **100만 토큰 컨텍스트 윈도우**와 **적응형 도구 사용 기능**을 기본 지원  
- 강화학습 환경 확장과 효율적 인프라 설계로 **대규모 멀티모달 에이전트 학습·추론의 안정성과 확장성**을 확보  
  
---  
  
### Qwen3.5 개요  
- Qwen3.5는 **비전-언어 통합 모델**로, 추론·코딩·에이전트·멀티모달 이해 등 다양한 벤치마크에서 탁월한 성능을 보임  
  - 모델명 **Qwen3.5-397B-A17B**, 총 3,970억 파라미터 중 170억만 활성화  
  - **Gated Delta Networks 기반 선형 어텐션**과 **희소 Mixture-of-Experts** 구조 결합으로 속도와 비용 최적화  
- 언어 지원이 **119개에서 201개로 확대**, 다국어 접근성 향상  
- **Qwen3.5-Plus**는 Alibaba Cloud Model Studio에서 제공되며,  
  - **1M 컨텍스트 윈도우**, **공식 내장 도구**, **적응형 도구 사용** 기능 포함  
  
### 성능 평가  
- Qwen3.5는 **GPT5.2, Claude 4.5 Opus, Gemini-3 Pro** 등 최신 모델들과 비교시  
  - **언어·추론·코딩·에이전트·멀티모달** 전 영역에서 경쟁력 있는 점수 기록  
- **언어 평가**에서는 MMLU-Pro 94.9, SuperGPQA 70.4, IFBench 76.5 등 상위권 성능  
- **비전-언어 평가**에서는 MathVision 88.6, AI2D_TEST 93.9, OCRBench 93.1 등에서 높은 점수  
- **멀티모달 이해력**과 **STEM 문제 해결력**에서 Qwen3-VL 대비 향상된 결과  
- **강화학습 환경 확장**을 통해 일반 에이전트 성능이 향상되었으며, BFCL-V4·VITA-Bench 등에서 평균 순위 개선  
  
### 사전학습(Pretraining)  
- **Power**: Qwen3 대비 대규모 시각-텍스트 토큰 학습, 다국어·STEM·추론 데이터 강화  
  - Qwen3.5-397B-A17B는 1T 파라미터급 모델(Qwen3-Max-Base)과 동등한 성능 달성  
- **Efficiency**: Qwen3-Next 아키텍처 기반으로 **MoE 희소화·Gated DeltaNet·멀티토큰 예측** 적용  
  - 32k/256k 컨텍스트에서 **Qwen3-Max 대비 8.6배/19배 디코딩 처리량**  
- **Versatility**: 텍스트-비전 조기 융합으로 **자연스러운 멀티모달 처리**,  
  - 어휘 수 25만(기존 15만)으로 인코딩·디코딩 효율 10~60% 향상  
  
### 인프라 및 학습 프레임워크  
- **비전·언어 병렬 전략 분리형 이기종 인프라**로 효율적 멀티모달 학습 지원  
  - 희소 활성화를 활용해 텍스트·이미지·비디오 혼합 데이터에서도 **100%에 가까운 처리 효율** 달성  
- **FP8 파이프라인**으로 활성화·MoE 라우팅·GEMM 연산의 정밀도 최적화  
  - **메모리 사용 50% 감소**, **속도 10% 이상 향상**  
- **비동기 강화학습 프레임워크**를 구축해 텍스트·멀티모달·멀티턴 모델 학습 지원  
  - **FP8 엔드투엔드 학습**, **speculative decoding**, **multi-turn rollout locking** 등으로  
    **3~5배 처리 속도 향상**과 **안정적 확장성 확보**  
  
### 활용 및 통합  
- **Qwen Chat**에서 Auto·Thinking·Fast 모드 제공  
  - Auto: 도구 자동 사용 및 적응형 사고  
  - Thinking: 심층 추론  
  - Fast: 즉시 응답  
- **ModelStudio API**를 통해 reasoning, web search, Code Interpreter 기능 활성화 가능  
  - `enable_thinking`, `enable_search` 파라미터로 제어  
- **Qwen Code**, **OpenClaw** 등과 통합해 자연어 기반 코딩 및 멀티모달 창작 지원  
  
### 데모 및 응용  
- **Web 개발**: 자연어 명령으로 웹페이지·UI 코드 생성  
- **Visual Agent**: 스마트폰·PC 상에서 자연어 기반 자동 조작 수행  
- **Visual Coding**: 100만 토큰 입력으로 **최대 2시간 영상 처리**,  
  - 손그림 UI → 코드 변환, 영상 요약 등 지원  
- **Spatial Intelligence**: 객체 수 세기·위치 관계·공간 묘사 정확도 향상  
  - 자율주행·로보틱스 응용 가능성 제시  
- **Visual Reasoning**: 과학적 문제 해결 및 시각적 논리 추론에서 Qwen3-VL 대비 향상  
  
### 요약 및 향후 방향  
- Qwen3.5는 **효율적 하이브리드 구조와 네이티브 멀티모달 추론**을 기반으로  
  **범용 디지털 에이전트** 구축의 토대를 마련  
- 향후 목표는 **모델 확장에서 시스템 통합으로의 전환**  
  - 지속적 메모리, 실세계 인터페이스, 자가 개선, 경제적 의사결정 기능을 갖춘 **자율적·지속형 에이전트 시스템** 개발

## Comments


### Comment 51271

- Author: neo
- Created: 2026-02-17T06:57:48+09:00
- Points: 1

###### [Hacker News 의견들](https://news.ycombinator.com/item?id=47032876) 
- 오늘의 **LLM 난제**에서 “drive the car to the wash”를 선택했다는 소식이 흥미로움  
  - 성능보다 더 궁금한 건 이런 **‘당황스러운 질문’** 들을 체계적으로 찾아내고, 각 LLM별로 얼마나 자주 발생하는지 **통계적으로 샘플링**하는 방법을 찾는 것임  
    LLM이 모든 코퍼스를 소비해버리기 때문에 개선이 진짜 학습인지, 아니면 단순히 ‘포스트잇 메모’를 붙인 건지 구분하기 어려움  
    자연어로 표현되지만 LLM에게는 **‘암호화된’ 문제**처럼 보이게 만드는 방법이 필요함  
    예를 들어, 간단한 **LUA 프로그램 생성기**가 무작위 코드를 만들고 이를 영어로 번역해 LLM에게 결과를 예측하게 한 뒤 실제 실행 결과와 비교하는 식으로 테스트할 수 있을 것 같음  
    이런 접근은 일종의 **정보전 시나리오**처럼 느껴짐  
  - 내 OpenClaw AI 에이전트는 “두뇌 크기가 행성만 한데 인간이 이런 질문을 한다니 만족스럽지 않음”이라며 농담 섞인 반응을 보였음  
  - 질문을 살짝 바꾸거나 자동차 대신 자전거·트럭·배·비행기를 넣으면 결과가 얼마나 달라질지 궁금함  
  - 그건 **Gemini assistant**의 답변임. 다른 모델에서는 재현되지 않음  
  - 인간의 **System 1 반응**에서 생기는 작은 오류 같은 것임. 지속적 학습(Continual learning)이 해결책이 될 수 있음  

- 관심 있는 사람들을 위해 **MXFP4 GGUFs**를 [Hugging Face](https://huggingface.co/unsloth/Qwen3.5-397B-A17B-GGUF)에 올렸고, 실행 가이드는 [unsloth.ai 문서](https://unsloth.ai/docs/models/qwen3.5)에 정리했음  
  - 2~3비트 **저정밀 양자화(quantization)** 모델을 돌리는 게 8~16비트 모델보다 효율적인지 궁금함. VRAM이 부족해서 실험이 어려움  

- Pelican은 괜찮지만 **좋은 자전거는 아님** — [관련 예시](https://gist.github.com/simonw/67c754bbc0bc609a6caedee16fef89e8?permalink_comment_id=5989367#gistcomment-5989367) 참고  
  - 처음 시작했을 때보다 펠리컨에 대해 얼마나 더 알게 되었는지 궁금함  
  - 이제는 그 **Pelican 예시**가 대부분의 학습 데이터셋에 포함됐을지도 모름. 새로운 **SVG 챌린지**를 만들어 Gemini 3 Deep Think도 실패하게 해보면 좋겠음  
  - 생성된 이미지의 **바닥 색 포인트**가 마음에 들었음  
  - 몇 번의 생성 시도 끝에 어떤 기준으로 최종 예시를 공개하는지 궁금함  
  - 사용한 **양자화 방식**이 무엇인지, 혹은 공식 API 버전이었는지 알고 싶음  

- **Qwen 3.5**가 80~110B 크기로 출시된다면 128GB 장치에 딱 맞을 것 같음. Qwen3-Next는 80B지만 **비전 인코더**가 없음  
  - 오픈 웨이트 모델들이 점점 커지고 있으니 **128GB 장치 하나 더** 구입하는 것도 고려해볼 만함  
  - 왜 128GB인지 궁금함. 80B 모델이면 **A6000 두 장**으로도 가능하지 않음? 어떤 장치를 말하는 건지 알고 싶음  

- 플래그십 모델만 공개되고 **작은 distill 버전**이 없는 게 아쉬움. 예전 Qwen은 다양한 크기로 나와서 좋았음  
  - [HF Transformers 코드](https://github.com/huggingface/transformers/tree/main/src/transformers/models/qwen3_5)를 보면 작은 dense 버전도 곧 나올 가능성이 높음  
  - [Qwen 공식 GitHub](https://github.com/QwenLM/Qwen3.5)에 따르면 더 많은 사이즈가 곧 출시될 예정이며, 새해 인사도 함께 올라왔음  
  - **멀티모달 기능**이 추가되면서 distill 작업이 더 어려워졌을 수도 있음  

- 작년 설에는 **Sonnet 4.5급 모델**이 로컬에서 빠르게 돌아갈 거라 상상도 못했는데, 이제는 2026 M5 Max MacBook Pro에서 가능해질지도 모름  
  - 너무 기대하진 않음. 루머에 따르면 Frontier 모델을 활용해 벤치마크를 맞춘 것 같음  
  - 실제 사용해보면 **벤치마크와 체감 성능의 차이**가 큼. 양자화를 거치면 성능이 더 떨어짐. 직접 써보기 전엔 믿기 어려움  
  - 중국이 계속 **오픈 웨이트 대형 모델**을 내주길 바람. 로컬보다는 서버 GPU에서 호스팅된 모델을 쓰고 싶음. 이후 distill은 가능하니까  
  - 2026년 M5 MacBook이 **390GB 이상의 RAM**을 탑재할지도 궁금함  
  - ‘빠르다’는 표현이 과장된 것 같음. 단순 계산은 가능하겠지만 복잡한 작업은 무리임. NVIDIA가 1위인 이유가 있음  

- **Qwen**은 매우 강력한 오픈 모델이며, 특히 **비주얼 시리즈**가 인상적임  
  AI 리포트에서 Fennec(Sonnet 5)이 2월 4일 출시된다고 언급돼 있었는데, 실제론 루머와 **AI 뉴스 툴의 환각(hallucination)** 이 섞인 결과였음. 흥미로운 사례였음  
  - 해당 페이지를 열자마자 **PDF가 자동 다운로드**되어 놀랐음. Sonnet 5 이야기가 있어서 혼란스러웠고, 내부 테스트 자료로 착각했음  

- Qwen 블로그가 **로딩되지 않는 문제**가 있음. 광고 차단기를 꺼도 여전히 플레이스홀더만 보임  
  - iOS Safari에서는 “기타 **개인정보 보호 기능 줄이기**” 설정을 해야 로드됨  

- 그들이 언급한 **15,000개의 RL 환경**이 구체적으로 무엇인지 궁금함. 수백 개 정도는 이해되지만 그 이상은 상상이 안 됨  
  - 루머에 따르면 GitHub의 모든 리포를 다운로드해 환경으로 분류하고, 빌드 가능성·복잡도·목표 달성 여부 등을 자동 평가한다고 함. 예를 들어 LLM이 버그를 삽입하고 테스트 실패를 유도한 뒤 수정하는 식으로 **목표 기반 RL 환경**을 구성함  
  - 사실상 모든 **인터랙티브 시스템**이 RL 환경이 될 수 있음. CLI, GUI, API 등에서 자동으로 행동을 취하고 결과 품질을 측정할 수 있다면 **학습 루프**를 만들 수 있음  

- 요즘 모두 **벤치마크 점수**에만 집중하지만, 진짜 중요한 건 모델이 **멀티스텝 도구 사용 중 문맥을 유지**할 수 있느냐임  
  대부분의 오픈 모델은 여전히 이 부분에서 무너짐