Qwen3.5-Omni: 텍스트·이미지·오디오·영상을 모두 처리하는 완전 옴니모달 LLM 출시

(qwen.ai)

텍스트·이미지·오디오·영상을 모두 이해하고 생성하는 Alibaba Qwen 팀의 최신 모델, Thinker-Talker 아키텍처에 Hybrid-Attention MoE를 적용해 전 모달리티 처리 능력을 대폭 강화
Plus·Flash·Light 3가지 크기의 Instruct 버전을 제공하며, 256k 롱컨텍스트 입력, 10시간 이상의 오디오, 720P 기준 400초 이상의 영상 처리를 지원
Qwen3.5-Omni-Plus는 215개 오디오·영상 이해 벤치마크에서 SOTA를 달성하였고, 일반 오디오 이해·추론·번역·대화 전 영역에서 Gemini-3.1 Pro를 초과
이전 세대 대비 다국어 지원이 대폭 확장되어 74개 언어 및 39개 중국어 방언 음성 인식, 36개 언어 음성 합성을 지원하며, 보이스 클론·웹검색·실시간 대화·감정/속도/볼륨 제어 등 인터랙티브 기능을 새롭게 탑재
ARIA(Adaptive Rate Interleave Alignment) 기술로 텍스트와 음성 토큰 인코딩 효율 차이에서 발생하는 누락·오독 문제를 해결해 스트리밍 음성 합성의 자연스러움과 안정성을 획기적으로 개선

모델 개요

Qwen3.5-Omni는 텍스트, 이미지, 오디오, 영상을 모두 처리하는 Qwen의 최신 완전 옴니모달 LLM
Thinker와 Talker 모두 Hybrid-Attention MoE 구조를 채택하여 멀티모달 처리 성능 향상
Plus, Flash, Light 3가지 Instruct 버전으로 제공되며, 모두 256k 롱컨텍스트 입력 지원
- 오디오 입력: 10시간 이상
- 720P·1FPS 기준 영상 입력: 400초 이상
방대한 텍스트, 시각 데이터, 1억 시간 이상의 오디오-비주얼 데이터로 옴니모달 방식의 사전학습(pre-training) 수행
Offline API 및 Realtime API를 통해 현재 이용 가능

Qwen3.5-Omni-Plus는 오디오-비주얼 이해·추론·인터랙션 215개 서브태스크/벤치마크에서 SOTA 달성
- 오디오-비주얼 벤치마크 3종, 오디오 벤치마크 5종, ASR 벤치마크 8종, 언어별 S2TT 156종, 언어별 ASR 43종 포함
일반 오디오 이해·추론·인식·번역·대화 전 영역에서 Gemini-3.1 Pro를 초과하며, 전체 오디오-비주얼 이해 수준도 Gemini-3.1 Pro에 도달
비주얼·텍스트 성능은 동일 크기의 Qwen3.5 모델과 동등 수준
오디오-비주얼 캡셔닝 기능: 세밀하고 구조화된 캡션, 자동 세그멘테이션·타임스탬프 주석, 등장인물 및 오디오 관계 설명 등 시나리오 수준 묘사 지원
Audio-Visual Vibe Coding: 오디오-비주얼 명령어를 기반으로 직접 코드를 생성하는 새로운 옴니모달 기능 확인

시맨틱 인터럽션(Semantic Interruption): 오딘 기반 턴테이킹 의도 인식으로 backchanneling 및 배경 잡음에 의한 불필요한 끊김 방지; API에 기본 탑재
WebSearch 및 복잡한 FunctionCall 네이티브 지원: 모델이 자율적으로 웹검색 호출 여부를 결정하여 실시간 질의 대응
엔드투엔드 보이스 컨트롤: 사람처럼 지시를 따르며 발화 볼륨·속도·감정을 자유롭게 제어
보이스 클론(Voice Clone): 사용자가 음성을 업로드해 AI 어시스턴트의 목소리를 커스터마이징 가능; 모두 Realtime API를 통해 제공
시스템 프롬프트 수정으로 모델의 대화 스타일 및 정체성 변경 가능

스트리밍 음성 인터랙션에서 텍스트와 음성 토큰 인코딩 효율 차이로 발생하는 누락·오독·발음 불명확 문제 해결을 위해 ARIA(Adaptive Rate Interleave Alignment) 기술 제안
텍스트와 음성 단위를 동적으로 정렬(interleave)하여 실시간 성능을 유지하면서 음성 합성의 자연스러움과 안정성 대폭 향상
이전 세대 Qwen3-Omni의 고정 1:1 텍스트-음성 토크나이저 비율 방식을 대체

음성 인식(ASR)
- 이전: 11개 다국어 + 중국어 방언 8종
- 현재: 74개 다국어 + 중국어 방언 39종
음성 합성(TTS)
- 이전: 29개 다국어 + 중국어 방언 7종
- 현재: 36개 다국어 음성 생성 (원문에 방언 합성 목록 별도 명시 없음)

오디오-비주얼 (Qwen3.5-Omni-Plus vs Gemini-3.1 Pro)
- DailyOmni: 84.6 vs 82.7
- AVUT: 85.0 vs 85.6
- VideoMME (with audio): 83.7 vs 89.0
- OmniGAIA: 57.2 vs 68.9
오디오 (Qwen3.5-Omni-Plus vs Gemini-3.1 Pro)
- MMAU: 82.2 vs 81.1
- VoiceBench: 93.1 vs 88.9
- Fleurs S2TT (xx↔en top59): 35.4 vs 34.6
음성 합성 안정성 WER↓ (Custom Voice, Seed-hard)
- Qwen3.5-Omni-Plus: 6.24
- ElevenLabs: 27.70 / Gemini-2.5 Pro: 11.57 / GPT-Audio: 8.19

Offline API: 영상·오디오 분석, 웹검색(enable_search 파라미터) 지원; Python OpenAI 호환 SDK로 호출
Realtime API: WebSocket 기반 실시간 대화; dashscope SDK 사용, 음성 입출력 스트리밍 지원
이용 가능 모델 ID: qwen3.5-omni-plus, qwen3.5-omni-plus-realtime
중국 본토(베이징)와 국제(싱가포르) 엔드포인트 구분 지원

중국어·영어 커스텀 보이스: Tina, Cindy, Liora Mira, Sunnybobi, Raymond 등 5종
감정 동반·롤플레이 등 시나리오 보이스: Ethan, Harvey, Maia 등 19종 (중·영문)
중국어 방언 보이스: 쓰촨어, 베이징 방언, 톈진 방언, 광둥어 등 8종
다국어 보이스: 한국어(Sohee), 독일어(Lenn), 일본어(Ono Anna), 스페인어, 프랑스어, 러시아어 등 23개 언어 총 23종

GeekNews Weekly에 포함된 글입니다. 에디터 코멘트 보기