- 텍스트·이미지·오디오·영상을 모두 이해하고 생성하는 Alibaba Qwen 팀의 최신 모델, Thinker-Talker 아키텍처에 Hybrid-Attention MoE를 적용해 전 모달리티 처리 능력을 대폭 강화
- Plus·Flash·Light 3가지 크기의 Instruct 버전을 제공하며, 256k 롱컨텍스트 입력, 10시간 이상의 오디오, 720P 기준 400초 이상의 영상 처리를 지원
- Qwen3.5-Omni-Plus는 215개 오디오·영상 이해 벤치마크에서 SOTA를 달성하였고, 일반 오디오 이해·추론·번역·대화 전 영역에서 Gemini-3.1 Pro를 초과
- 이전 세대 대비 다국어 지원이 대폭 확장되어 74개 언어 및 39개 중국어 방언 음성 인식, 36개 언어 음성 합성을 지원하며, 보이스 클론·웹검색·실시간 대화·감정/속도/볼륨 제어 등 인터랙티브 기능을 새롭게 탑재
-
ARIA(Adaptive Rate Interleave Alignment) 기술로 텍스트와 음성 토큰 인코딩 효율 차이에서 발생하는 누락·오독 문제를 해결해 스트리밍 음성 합성의 자연스러움과 안정성을 획기적으로 개선
모델 개요
-
Qwen3.5-Omni는 텍스트, 이미지, 오디오, 영상을 모두 처리하는 Qwen의 최신 완전 옴니모달 LLM
- Thinker와 Talker 모두 Hybrid-Attention MoE 구조를 채택하여 멀티모달 처리 성능 향상
- Plus, Flash, Light 3가지 Instruct 버전으로 제공되며, 모두 256k 롱컨텍스트 입력 지원
- 오디오 입력: 10시간 이상
- 720P·1FPS 기준 영상 입력: 400초 이상
- 방대한 텍스트, 시각 데이터, 1억 시간 이상의 오디오-비주얼 데이터로 옴니모달 방식의 사전학습(pre-training) 수행
- Offline API 및 Realtime API를 통해 현재 이용 가능
주요 성능 (Offline)
- Qwen3.5-Omni-Plus는 오디오-비주얼 이해·추론·인터랙션 215개 서브태스크/벤치마크에서 SOTA 달성
- 오디오-비주얼 벤치마크 3종, 오디오 벤치마크 5종, ASR 벤치마크 8종, 언어별 S2TT 156종, 언어별 ASR 43종 포함
- 일반 오디오 이해·추론·인식·번역·대화 전 영역에서 Gemini-3.1 Pro를 초과하며, 전체 오디오-비주얼 이해 수준도 Gemini-3.1 Pro에 도달
- 비주얼·텍스트 성능은 동일 크기의 Qwen3.5 모델과 동등 수준
-
오디오-비주얼 캡셔닝 기능: 세밀하고 구조화된 캡션, 자동 세그멘테이션·타임스탬프 주석, 등장인물 및 오디오 관계 설명 등 시나리오 수준 묘사 지원
-
Audio-Visual Vibe Coding: 오디오-비주얼 명령어를 기반으로 직접 코드를 생성하는 새로운 옴니모달 기능 확인
주요 기능 (Realtime)
-
시맨틱 인터럽션(Semantic Interruption): 오딘 기반 턴테이킹 의도 인식으로 backchanneling 및 배경 잡음에 의한 불필요한 끊김 방지; API에 기본 탑재
-
WebSearch 및 복잡한 FunctionCall 네이티브 지원: 모델이 자율적으로 웹검색 호출 여부를 결정하여 실시간 질의 대응
-
엔드투엔드 보이스 컨트롤: 사람처럼 지시를 따르며 발화 볼륨·속도·감정을 자유롭게 제어
-
보이스 클론(Voice Clone): 사용자가 음성을 업로드해 AI 어시스턴트의 목소리를 커스터마이징 가능; 모두 Realtime API를 통해 제공
- 시스템 프롬프트 수정으로 모델의 대화 스타일 및 정체성 변경 가능
ARIA 기술
- 스트리밍 음성 인터랙션에서 텍스트와 음성 토큰 인코딩 효율 차이로 발생하는 누락·오독·발음 불명확 문제 해결을 위해 ARIA(Adaptive Rate Interleave Alignment) 기술 제안
- 텍스트와 음성 단위를 동적으로 정렬(interleave)하여 실시간 성능을 유지하면서 음성 합성의 자연스러움과 안정성 대폭 향상
- 이전 세대 Qwen3-Omni의 고정 1:1 텍스트-음성 토크나이저 비율 방식을 대체
아키텍처 변화 (Qwen3-Omni 대비)
- 백본: MoE → Hybrid-MoE
- 시퀀스 길이: 32k → 256k (오디오 10시간, 영상 400초)
- 캡셔닝 범위: 오디오 전용 → 오디오-비주얼
- 시맨틱 인터럽션: 미지원 → 지원
- WebSearch/Tool: 미지원 → 지원
- 보이스 컨트롤·클론: 미지원 → 지원
- Talker 구조: 듀얼트랙 자기회귀(Dual-Track Autoregression) → Interleave + ARIA
다국어 지원 확장
-
음성 인식(ASR)
- 이전: 11개 다국어 + 중국어 방언 8종
- 현재: 74개 다국어 + 중국어 방언 39종
-
음성 합성(TTS)
- 이전: 29개 다국어 + 중국어 방언 7종
- 현재: 36개 다국어 음성 생성 (원문에 방언 합성 목록 별도 명시 없음)
벤치마크 수치 (주요 발췌)
-
오디오-비주얼 (Qwen3.5-Omni-Plus vs Gemini-3.1 Pro)
- DailyOmni: 84.6 vs 82.7
- AVUT: 85.0 vs 85.6
- VideoMME (with audio): 83.7 vs 89.0
- OmniGAIA: 57.2 vs 68.9
-
오디오 (Qwen3.5-Omni-Plus vs Gemini-3.1 Pro)
- MMAU: 82.2 vs 81.1
- VoiceBench: 93.1 vs 88.9
- Fleurs S2TT (xx↔en top59): 35.4 vs 34.6
-
음성 합성 안정성 WER↓ (Custom Voice, Seed-hard)
- Qwen3.5-Omni-Plus: 6.24
- ElevenLabs: 27.70 / Gemini-2.5 Pro: 11.57 / GPT-Audio: 8.19
API 및 이용 방법
-
Offline API: 영상·오디오 분석, 웹검색(
enable_search 파라미터) 지원; Python OpenAI 호환 SDK로 호출
-
Realtime API: WebSocket 기반 실시간 대화; dashscope SDK 사용, 음성 입출력 스트리밍 지원
- 이용 가능 모델 ID:
qwen3.5-omni-plus, qwen3.5-omni-plus-realtime
- 중국 본토(베이징)와 국제(싱가포르) 엔드포인트 구분 지원
보이스 목록
-
중국어·영어 커스텀 보이스: Tina, Cindy, Liora Mira, Sunnybobi, Raymond 등 5종
-
감정 동반·롤플레이 등 시나리오 보이스: Ethan, Harvey, Maia 등 19종 (중·영문)
-
중국어 방언 보이스: 쓰촨어, 베이징 방언, 톈진 방언, 광둥어 등 8종
-
다국어 보이스: 한국어(Sohee), 독일어(Lenn), 일본어(Ono Anna), 스페인어, 프랑스어, 러시아어 등 23개 언어 총 23종