1P by GN⁺ 3일전 | ★ favorite | 댓글 1개
  • Qwen3-Omni-Flash-2025-12-01은 텍스트, 이미지, 오디오, 비디오를 동시에 처리하고 실시간 스트리밍으로 텍스트와 음성 출력을 생성하는 차세대 멀티모달 모델
  • 오디오·비주얼 명령 이해력과 대화 안정성이 크게 향상되어 자연스럽고 일관된 음성-영상 상호작용 구현
  • 시스템 프롬프트 완전 제어 기능으로 인격 스타일, 말투, 출력 길이 등 세부 조정 가능
  • 119개 언어 텍스트, 19개 언어 음성 인식, 10개 언어 음성 합성을 지원하며 다국어 일관성 문제 해결
  • 논리 추론, 코드 생성, 시각·음성 이해 등 전 영역에서 성능이 향상되어 자연스럽고 정밀한 AI 상호작용 경험 제공

Qwen3-Omni-Flash-2025-12-01 개요

  • Qwen3-Omni는 텍스트, 이미지, 오디오, 비디오 등 다양한 입력을 처리하고 실시간으로 텍스트와 자연스러운 음성 출력을 생성하는 네이티브 멀티모달 대형 모델
  • 이번 버전 Qwen3-Omni-Flash-2025-12-01은 기존 Qwen3-Omni를 기반으로 한 전면 업그레이드 버전
  • 모델 성능과 효율성을 전반적으로 개선하여 더 빠르고 정확한 멀티모달 처리 능력 제공

주요 기능 향상

  • 오디오-비주얼 상호작용 강화

    • 음성·영상 명령 이해와 실행 능력이 크게 향상되어 일상적 구어 상황에서의 지능 저하 문제 해결
    • 다회차 오디오-비주얼 대화의 안정성과 일관성이 높아져 자연스러운 상호작용 가능
  • 시스템 프롬프트 제어 강화

    • 시스템 프롬프트를 완전히 사용자 정의할 수 있어 모델 행동을 정밀하게 제어 가능
    • 인격 스타일(예: 달콤한, 쿨한, 애니메이션풍), 말투, 출력 길이 등 세부 요소를 세밀하게 조정
  • 다국어 지원 신뢰성 향상

    • 텍스트 기반 상호작용 119개 언어, 음성 인식 19개 언어, 음성 합성 10개 언어 지원
    • 이전 버전의 언어 불안정 문제가 해결되어 정확하고 일관된 다국어 성능 확보
  • 자연스러운 음성 합성

    • 발화 속도, 멈춤, 억양을 텍스트 맥락에 따라 자동 조정하여 인간과 유사한 음성 품질 구현
    • 느리거나 기계적인 음성을 제거하고 표현력 있는 자연스러운 음성 출력 제공

성능 향상 지표

  • 텍스트 이해 및 생성 능력 강화

    • 논리 추론 ZebraLogic +5.6, 코드 생성 LiveCodeBench-v6 +9.3, MultiPL-E +2.7, 글쓰기 품질 WritingBench +2.2 향상
    • 복잡한 다단계 지시 수행의 신뢰도 향상
  • 음성 이해 정확도 향상

    • Fleurs-zh에서 단어 오류율 감소, VoiceBench +3.2 개선
    • 실제 대화 환경에서의 음성 이해력 강화
  • 음성 합성 품질 개선

    • 중국어 및 다국어 환경에서 자연스러운 억양과 리듬 구현
    • 인간 음성과 유사한 발화 품질 확보
  • 이미지 이해력 강화

    • 시각적 추론 과제에서 MMMU +4.7, MMMU-Pro +4.8, MathVision_full +2.2 향상
    • 다이어그램, 수학적 도형 등 복잡한 시각 콘텐츠 해석 능력 강화
  • 비디오 이해력 개선

    • MLVU +1.6 향상으로 비디오 의미 이해력 강화
    • 오디오-비주얼 동기화 개선으로 실시간 영상 대화 기반 강화

향후 계획

  • 사용자 피드백과 Qwen3-Omni 기반 혁신적 응용 사례 수집 예정
  • 향후 다화자 음성 인식(ASR) , 비디오 OCR, 오디오-비디오 자율 학습, 에이전트 기반 워크플로 및 함수 호출 지원 등 기능 확장 예정

인용 정보

  • 연구 활용 시 다음 인용문 사용 권장
Hacker News 의견들
  • 이번 모델은 30B 파라미터 MoE 구조로, 활성 파라미터는 3B 수준임
    이전의 7B omni 모델의 후속작으로, Qwen2.5-Omni-7B와 비슷한 성능을 기대할 수 있음
    공개된 omni 모델이 많지 않아서 꽤 의미 있는 릴리스라고 생각함
    개인적으로는 이 모델을 입출력 인터페이스(키보드·모니터) 대체용으로 쓰고, 백엔드에서 다른 기술로 연산을 처리하는 구조로 활용하고 싶음
    또 reasoning 버전도 있는데, 음성 채팅 중에 ‘생각 중’ 토큰을 발음하는 기능이 있어서 꽤 재미있을 듯함

    • 이 모델은 여러 구성요소가 쌓인 형태임
      650M 오디오 인코더, 540M 비전 인코더, 30B-A3B LLM, 3B-A0.3B 오디오 LLM, 그리고 80M Transformer/200M ConvNet으로 오디오 토큰을 파형으로 변환함
      Qwen3-Omni의 비공개 가중치 업데이트 버전이며, 이전에는 Qwen/Qwen3-Omni-30B-A3B-Instruct가 공개되어 있었음
      현재는 오픈소스 추론 프레임워크에서 완전하게 지원되지 않아, transformers에서만 매우 느리게 동작함
    • Alibaba Cloud 문서를 보면 이 모델은 오픈소스가 아님
    • 새 버전의 가중치를 어디에서도 찾을 수 없었음. Modelscope와 Hugging Face를 확인했지만 없었고, 컨텍스트 윈도우가 200K+ 토큰으로 확장된 것 같음
    • reasoning 버전이 생각 토큰을 발음한다는 점이 흥미로움. 예전에 Claude도 이런 식으로 작동했었음
    • 생각 토큰에 리버브 같은 효과를 넣으면 모델의 ‘생각 소리’를 들을 수 있을지도 몰라서 재미있을 것 같음
  • Qwen3-Omni가 GPT-4o처럼 실시간 대화를 지원하는지 궁금했음
    문서상으로는 안 되는 것 같았지만, 실제로는 지원한다고 함
    혹시 비NVIDIA 환경에서 로컬로 구동해본 사람이 있는지 궁금함

    • 공식 채팅 사이트에는 아직 오디오→오디오 모델이 없음
      나는 동음이의어 테스트(record vs record)나 음성 톤 변경 요청으로 확인해보곤 함
    • vLLM이나 SGLang 같은 추론 프레임워크가 아직 완전 지원하지 않아서, 비NVIDIA 환경에서는 불가능
    • 그래도 네이티브 speech-to-speech 기능은 있는 것으로 보임
    • 아직 완성도 높은 로컬 음성 채팅 앱은 없다고 생각함
      Silly Tavern 같은 것도 거의 unusable 수준임
      하지만 이런 로컬 음성 모델이야말로 자연어 기반 워크플로우의 핵심이 될 것임
  • Macbook에서 GGUF나 MLX로 Omni 모델을 구동할 수 있는지 궁금했음
    LMStudio나 Llama.cpp로는 가능하지만, 마이크나 웹캠 스트리밍을 지원하지 않음
    Qwen은 보통 Cuda 기반 Python 예제를 제공하는데, 오픈소스 대안이 있는지 찾는 중임

  • 나는 Gemini Flash Live 2.5를 잘 쓰고 있음
    3.0 버전이 곧 나오길 기대 중임
    벤치마크상으로는 Gemini Live보다 낫다고 하지만 직접 테스트해봐야 함
    개인적으로는 영어 중심 환경에서 Qwen Omni 모델이 늘 아쉬웠음

  • 32B면 꽤 작아서 64GB RAM 장비에서도 구동 가능할 것 같음
    Ollama에 올라오면 직접 테스트해볼 예정임

    • Hugging Face의 Qwen3-Omni-30B-A3B 모델은 9월에 업데이트된 것으로 보임
      그런데 논문 벤치마크에서는 Qwen3-Omni-Flash-2025-12-01이 Qwen3-235B-A22B보다 성능이 높다고 되어 있음
      30B 모델인데 어떻게 가능한지 혼란스러움
      FLASH 버전은 Hugging Face에 없고, API 전용 모델일 가능성이 높음
    • 나는 48GB RAM Mac에서 유니버설 메모리 덕분에 잘 돌리고 있음
  • 처음엔 API 전용인 줄 알았는데, Hugging Face 컬렉션에 모델이 있긴 함
    하지만 실제로는 이전 버전이고, HF 데모도 API를 호출하는 방식이라 로컬 연산은 아님

  • Qwen3-Omni가 2.5 Flash를 모든 벤치마크에서 압도한다는 점이 인상적임
    이제 LLM 워크로드를 로컬 GPU로 옮길 때가 된 듯함

    • 하지만 반드시 자신의 데이터셋으로 벤치마크해야 함
      공개 벤치마크는 신뢰하기 어렵고, 그대로 모델을 선택하면 실망할 수 있음
    • 텍스트 전용 작업이라면 Omni 대신 Qwen3-30B-A3B를 쓰는 게 효율적임
    • 이미지 벤치마크는 Qwen 2.0과 비교한 것으로 보여서 다소 의심스러움
  • 음성 모델의 말투가 생명력 없는 느낌이 드는 이유가 궁금했음
    특히 과일 가격 부분에서 완전히 자연스럽지만 AI임을 바로 알아챌 수 있었음
    아마 억양이나 일정한 발화 속도 때문일 듯함

    • 나는 오히려 감정이 과하지 않은 게 좋다고 생각함
      과도한 감정 표현은 인위적으로 느껴짐
      다만 독일어 발음 오류가 있었던 건 아쉬움
    • 완전한 end-to-end 멀티모달이 아닐 수도 있음
      음성 합성 단계가 따로 있어서 그런 결과가 나오는 듯함
      노래나 억양 테스트로 확인해볼 수 있음
    • 비전, 오디오, 다국어, 억양 제어 등 너무 많은 기능을 30B 파라미터에 담아서 그런 것 같음
      ChatGPT의 음성 모델이 가장 자연스러움
    • AI의 말투를 바로 알아챌 수 있다는 건 오히려 좋은 일일 수도 있음
    • 나는 오히려 AI 특유의 억양(accent) 이 있는 게 더 좋음
  • 실시간 음성 출력에서 ‘생각 중’ 토큰과 사용자용 발화를 구분하는 게 어렵다는 문제가 있음

    • 간단한 방법은 TTS 전에 출력 스트림을 분리하는 것임
      reasoning/structured 토큰은 한쪽으로, 사용자용 텍스트는 다른 쪽으로 보내서
      후자만 음성 합성하면 ‘생각 중’이 들리는 문제를 해결할 수 있음
  • Qwen이 오픈웨이트 공개 여부를 모호하게 표현하는 것 같음
    실제로는 대부분 비공개이며, 공개된 것처럼 보이지만 API 전용인 경우가 많음
    덕분에 사용자는 모델을 찾느라 헛수고를 하게 됨