# Qwen3.5-Omni: 텍스트·이미지·오디오·영상을 모두 처리하는 완전 옴니모달 LLM 출시

> Clean Markdown view of GeekNews topic #28027. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=28027](https://news.hada.io/topic?id=28027)
- GeekNews Markdown: [https://news.hada.io/topic/28027.md](https://news.hada.io/topic/28027.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2026-03-31T09:45:01+09:00
- Updated: 2026-03-31T09:45:01+09:00
- Original source: [qwen.ai](https://qwen.ai/blog?id=qwen3.5-omni)
- Points: 7
- Comments: 0

## Summary

Alibaba Qwen 팀이 텍스트·이미지·오디오·영상을 **모두 이해하고 생성하는 옴니모달 모델**을 공개했습니다. **256k 롱컨텍스트**에 10시간 이상의 오디오, 400초 이상의 영상 입력을 처리할 수 있고, 오디오-비주얼 벤치마크 **215개 서브태스크에서 SOTA**를 달성했습니다. 특히 **74개 언어 음성 인식**과 **39개 중국어 방언** 지원, 보이스 클론, 실시간 대화 중 감정·속도 제어 같은 인터랙티브 기능이 눈에 띕니다. 위에서 소개한 Gemma 4와 함께, 오픈 모델 경쟁이 멀티모달 영역에서 본격적으로 뜨거워지고 있습니다.

## Topic Body

- 텍스트·이미지·오디오·영상을 모두 이해하고 생성하는 Alibaba Qwen 팀의 최신 모델, Thinker-Talker 아키텍처에 Hybrid-Attention MoE를 적용해 전 모달리티 처리 능력을 대폭 강화  
- Plus·Flash·Light 3가지 크기의 Instruct 버전을 제공하며, **256k 롱컨텍스트** 입력, 10시간 이상의 오디오, 720P 기준 400초 이상의 영상 처리를 지원  
- Qwen3.5-Omni-Plus는 **215개 오디오·영상 이해 벤치마크**에서 SOTA를 달성하였고, 일반 오디오 이해·추론·번역·대화 전 영역에서 Gemini-3.1 Pro를 초과  
- 이전 세대 대비 **다국어 지원이 대폭 확장**되어 74개 언어 및 39개 중국어 방언 음성 인식, 36개 언어 음성 합성을 지원하며, 보이스 클론·웹검색·실시간 대화·감정/속도/볼륨 제어 등 인터랙티브 기능을 새롭게 탑재  
- **ARIA(Adaptive Rate Interleave Alignment)** 기술로 텍스트와 음성 토큰 인코딩 효율 차이에서 발생하는 누락·오독 문제를 해결해 스트리밍 음성 합성의 자연스러움과 안정성을 획기적으로 개선  
  
---  
  
### 모델 개요  
  
- **Qwen3.5-Omni**는 텍스트, 이미지, 오디오, 영상을 모두 처리하는 Qwen의 최신 완전 옴니모달 LLM  
- Thinker와 Talker 모두 **Hybrid-Attention MoE** 구조를 채택하여 멀티모달 처리 성능 향상  
- Plus, Flash, Light 3가지 Instruct 버전으로 제공되며, 모두 **256k 롱컨텍스트** 입력 지원  
  - 오디오 입력: 10시간 이상  
  - 720P·1FPS 기준 영상 입력: 400초 이상  
- 방대한 텍스트, 시각 데이터, **1억 시간 이상의 오디오-비주얼 데이터**로 옴니모달 방식의 사전학습(pre-training) 수행  
- Offline API 및 Realtime API를 통해 현재 이용 가능  
  
### 주요 성능 (Offline)  
  
- Qwen3.5-Omni-Plus는 오디오-비주얼 이해·추론·인터랙션 215개 서브태스크/벤치마크에서 **SOTA 달성**  
  - 오디오-비주얼 벤치마크 3종, 오디오 벤치마크 5종, ASR 벤치마크 8종, 언어별 S2TT 156종, 언어별 ASR 43종 포함  
- 일반 오디오 이해·추론·인식·번역·대화 전 영역에서 **Gemini-3.1 Pro를 초과**하며, 전체 오디오-비주얼 이해 수준도 Gemini-3.1 Pro에 도달  
- 비주얼·텍스트 성능은 동일 크기의 Qwen3.5 모델과 동등 수준  
- **오디오-비주얼 캡셔닝** 기능: 세밀하고 구조화된 캡션, 자동 세그멘테이션·타임스탬프 주석, 등장인물 및 오디오 관계 설명 등 시나리오 수준 묘사 지원  
- **Audio-Visual Vibe Coding**: 오디오-비주얼 명령어를 기반으로 직접 코드를 생성하는 새로운 옴니모달 기능 확인  
  
### 주요 기능 (Realtime)  
  
- **시맨틱 인터럽션(Semantic Interruption)**: 오딘 기반 턴테이킹 의도 인식으로 backchanneling 및 배경 잡음에 의한 불필요한 끊김 방지; API에 기본 탑재  
- **WebSearch 및 복잡한 FunctionCall 네이티브 지원**: 모델이 자율적으로 웹검색 호출 여부를 결정하여 실시간 질의 대응  
- **엔드투엔드 보이스 컨트롤**: 사람처럼 지시를 따르며 발화 볼륨·속도·감정을 자유롭게 제어  
- **보이스 클론(Voice Clone)**: 사용자가 음성을 업로드해 AI 어시스턴트의 목소리를 커스터마이징 가능; 모두 Realtime API를 통해 제공  
- 시스템 프롬프트 수정으로 모델의 대화 스타일 및 정체성 변경 가능  
  
### ARIA 기술  
  
- 스트리밍 음성 인터랙션에서 텍스트와 음성 토큰 인코딩 효율 차이로 발생하는 누락·오독·발음 불명확 문제 해결을 위해 **ARIA(Adaptive Rate Interleave Alignment)** 기술 제안  
- 텍스트와 음성 단위를 동적으로 정렬(interleave)하여 실시간 성능을 유지하면서 **음성 합성의 자연스러움과 안정성** 대폭 향상  
- 이전 세대 Qwen3-Omni의 고정 1:1 텍스트-음성 토크나이저 비율 방식을 대체  
  
### 아키텍처 변화 (Qwen3-Omni 대비)  
  
- 백본: MoE → **Hybrid-MoE**  
- 시퀀스 길이: 32k → **256k** (오디오 10시간, 영상 400초)  
- 캡셔닝 범위: 오디오 전용 → **오디오-비주얼**  
- 시맨틱 인터럽션: 미지원 → **지원**  
- WebSearch/Tool: 미지원 → **지원**  
- 보이스 컨트롤·클론: 미지원 → **지원**  
- Talker 구조: 듀얼트랙 자기회귀(Dual-Track Autoregression) → **Interleave + ARIA**  
  
### 다국어 지원 확장  
  
- **음성 인식(ASR)**  
  - 이전: 11개 다국어 + 중국어 방언 8종  
  - 현재: **74개 다국어** + **중국어 방언 39종**  
- **음성 합성(TTS)**  
  - 이전: 29개 다국어 + 중국어 방언 7종  
  - 현재: **36개 다국어 음성 생성** (원문에 방언 합성 목록 별도 명시 없음)  
  
### 벤치마크 수치 (주요 발췌)  
  
- **오디오-비주얼 (Qwen3.5-Omni-Plus vs Gemini-3.1 Pro)**  
  - DailyOmni: 84.6 vs 82.7  
  - AVUT: 85.0 vs 85.6  
  - VideoMME (with audio): 83.7 vs 89.0  
  - OmniGAIA: 57.2 vs 68.9  
- **오디오 (Qwen3.5-Omni-Plus vs Gemini-3.1 Pro)**  
  - MMAU: 82.2 vs 81.1  
  - VoiceBench: 93.1 vs 88.9  
  - Fleurs S2TT (xx↔en top59): 35.4 vs 34.6  
- **음성 합성 안정성 WER↓ (Custom Voice, Seed-hard)**  
  - Qwen3.5-Omni-Plus: 6.24  
  - ElevenLabs: 27.70 / Gemini-2.5 Pro: 11.57 / GPT-Audio: 8.19  
  
### API 및 이용 방법  
  
- **Offline API**: 영상·오디오 분석, 웹검색(`enable_search` 파라미터) 지원; Python OpenAI 호환 SDK로 호출  
- **Realtime API**: WebSocket 기반 실시간 대화; dashscope SDK 사용, 음성 입출력 스트리밍 지원  
- 이용 가능 모델 ID: `qwen3.5-omni-plus`, `qwen3.5-omni-plus-realtime`  
- 중국 본토(베이징)와 국제(싱가포르) 엔드포인트 구분 지원  
  
### 보이스 목록  
  
- **중국어·영어 커스텀 보이스**: Tina, Cindy, Liora Mira, Sunnybobi, Raymond 등 5종  
- **감정 동반·롤플레이 등 시나리오 보이스**: Ethan, Harvey, Maia 등 19종 (중·영문)  
- **중국어 방언 보이스**: 쓰촨어, 베이징 방언, 톈진 방언, 광둥어 등 8종  
- **다국어 보이스**: 한국어(Sohee), 독일어(Lenn), 일본어(Ono Anna), 스페인어, 프랑스어, 러시아어 등 23개 언어 총 23종

## Comments


_No public comments on this page._