5P by GN⁺ 15시간전 | ★ favorite | 댓글과 토론
  • 텍스트·이미지·오디오·영상을 모두 이해하고 생성하는 Alibaba Qwen 팀의 최신 모델, Thinker-Talker 아키텍처에 Hybrid-Attention MoE를 적용해 전 모달리티 처리 능력을 대폭 강화
  • Plus·Flash·Light 3가지 크기의 Instruct 버전을 제공하며, 256k 롱컨텍스트 입력, 10시간 이상의 오디오, 720P 기준 400초 이상의 영상 처리를 지원
  • Qwen3.5-Omni-Plus는 215개 오디오·영상 이해 벤치마크에서 SOTA를 달성하였고, 일반 오디오 이해·추론·번역·대화 전 영역에서 Gemini-3.1 Pro를 초과
  • 이전 세대 대비 다국어 지원이 대폭 확장되어 74개 언어 및 39개 중국어 방언 음성 인식, 36개 언어 음성 합성을 지원하며, 보이스 클론·웹검색·실시간 대화·감정/속도/볼륨 제어 등 인터랙티브 기능을 새롭게 탑재
  • ARIA(Adaptive Rate Interleave Alignment) 기술로 텍스트와 음성 토큰 인코딩 효율 차이에서 발생하는 누락·오독 문제를 해결해 스트리밍 음성 합성의 자연스러움과 안정성을 획기적으로 개선

모델 개요

  • Qwen3.5-Omni는 텍스트, 이미지, 오디오, 영상을 모두 처리하는 Qwen의 최신 완전 옴니모달 LLM
  • Thinker와 Talker 모두 Hybrid-Attention MoE 구조를 채택하여 멀티모달 처리 성능 향상
  • Plus, Flash, Light 3가지 Instruct 버전으로 제공되며, 모두 256k 롱컨텍스트 입력 지원
    • 오디오 입력: 10시간 이상
    • 720P·1FPS 기준 영상 입력: 400초 이상
  • 방대한 텍스트, 시각 데이터, 1억 시간 이상의 오디오-비주얼 데이터로 옴니모달 방식의 사전학습(pre-training) 수행
  • Offline API 및 Realtime API를 통해 현재 이용 가능

주요 성능 (Offline)

  • Qwen3.5-Omni-Plus는 오디오-비주얼 이해·추론·인터랙션 215개 서브태스크/벤치마크에서 SOTA 달성
    • 오디오-비주얼 벤치마크 3종, 오디오 벤치마크 5종, ASR 벤치마크 8종, 언어별 S2TT 156종, 언어별 ASR 43종 포함
  • 일반 오디오 이해·추론·인식·번역·대화 전 영역에서 Gemini-3.1 Pro를 초과하며, 전체 오디오-비주얼 이해 수준도 Gemini-3.1 Pro에 도달
  • 비주얼·텍스트 성능은 동일 크기의 Qwen3.5 모델과 동등 수준
  • 오디오-비주얼 캡셔닝 기능: 세밀하고 구조화된 캡션, 자동 세그멘테이션·타임스탬프 주석, 등장인물 및 오디오 관계 설명 등 시나리오 수준 묘사 지원
  • Audio-Visual Vibe Coding: 오디오-비주얼 명령어를 기반으로 직접 코드를 생성하는 새로운 옴니모달 기능 확인

주요 기능 (Realtime)

  • 시맨틱 인터럽션(Semantic Interruption): 오딘 기반 턴테이킹 의도 인식으로 backchanneling 및 배경 잡음에 의한 불필요한 끊김 방지; API에 기본 탑재
  • WebSearch 및 복잡한 FunctionCall 네이티브 지원: 모델이 자율적으로 웹검색 호출 여부를 결정하여 실시간 질의 대응
  • 엔드투엔드 보이스 컨트롤: 사람처럼 지시를 따르며 발화 볼륨·속도·감정을 자유롭게 제어
  • 보이스 클론(Voice Clone): 사용자가 음성을 업로드해 AI 어시스턴트의 목소리를 커스터마이징 가능; 모두 Realtime API를 통해 제공
  • 시스템 프롬프트 수정으로 모델의 대화 스타일 및 정체성 변경 가능

ARIA 기술

  • 스트리밍 음성 인터랙션에서 텍스트와 음성 토큰 인코딩 효율 차이로 발생하는 누락·오독·발음 불명확 문제 해결을 위해 ARIA(Adaptive Rate Interleave Alignment) 기술 제안
  • 텍스트와 음성 단위를 동적으로 정렬(interleave)하여 실시간 성능을 유지하면서 음성 합성의 자연스러움과 안정성 대폭 향상
  • 이전 세대 Qwen3-Omni의 고정 1:1 텍스트-음성 토크나이저 비율 방식을 대체

아키텍처 변화 (Qwen3-Omni 대비)

  • 백본: MoE → Hybrid-MoE
  • 시퀀스 길이: 32k → 256k (오디오 10시간, 영상 400초)
  • 캡셔닝 범위: 오디오 전용 → 오디오-비주얼
  • 시맨틱 인터럽션: 미지원 → 지원
  • WebSearch/Tool: 미지원 → 지원
  • 보이스 컨트롤·클론: 미지원 → 지원
  • Talker 구조: 듀얼트랙 자기회귀(Dual-Track Autoregression) → Interleave + ARIA

다국어 지원 확장

  • 음성 인식(ASR)
    • 이전: 11개 다국어 + 중국어 방언 8종
    • 현재: 74개 다국어 + 중국어 방언 39종
  • 음성 합성(TTS)
    • 이전: 29개 다국어 + 중국어 방언 7종
    • 현재: 36개 다국어 음성 생성 (원문에 방언 합성 목록 별도 명시 없음)

벤치마크 수치 (주요 발췌)

  • 오디오-비주얼 (Qwen3.5-Omni-Plus vs Gemini-3.1 Pro)
    • DailyOmni: 84.6 vs 82.7
    • AVUT: 85.0 vs 85.6
    • VideoMME (with audio): 83.7 vs 89.0
    • OmniGAIA: 57.2 vs 68.9
  • 오디오 (Qwen3.5-Omni-Plus vs Gemini-3.1 Pro)
    • MMAU: 82.2 vs 81.1
    • VoiceBench: 93.1 vs 88.9
    • Fleurs S2TT (xx↔en top59): 35.4 vs 34.6
  • 음성 합성 안정성 WER↓ (Custom Voice, Seed-hard)
    • Qwen3.5-Omni-Plus: 6.24
    • ElevenLabs: 27.70 / Gemini-2.5 Pro: 11.57 / GPT-Audio: 8.19

API 및 이용 방법

  • Offline API: 영상·오디오 분석, 웹검색(enable_search 파라미터) 지원; Python OpenAI 호환 SDK로 호출
  • Realtime API: WebSocket 기반 실시간 대화; dashscope SDK 사용, 음성 입출력 스트리밍 지원
  • 이용 가능 모델 ID: qwen3.5-omni-plus, qwen3.5-omni-plus-realtime
  • 중국 본토(베이징)와 국제(싱가포르) 엔드포인트 구분 지원

보이스 목록

  • 중국어·영어 커스텀 보이스: Tina, Cindy, Liora Mira, Sunnybobi, Raymond 등 5종
  • 감정 동반·롤플레이 등 시나리오 보이스: Ethan, Harvey, Maia 등 19종 (중·영문)
  • 중국어 방언 보이스: 쓰촨어, 베이징 방언, 톈진 방언, 광둥어 등 8종
  • 다국어 보이스: 한국어(Sohee), 독일어(Lenn), 일본어(Ono Anna), 스페인어, 프랑스어, 러시아어 등 23개 언어 총 23종