# Qwen3-Omni-Flash-2025-12-01: 차세대 네이티브 멀티모달 대형 모델

> Clean Markdown view of GeekNews topic #25005. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=25005](https://news.hada.io/topic?id=25005)
- GeekNews Markdown: [https://news.hada.io/topic/25005.md](https://news.hada.io/topic/25005.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2025-12-12T03:34:57+09:00
- Updated: 2025-12-12T03:34:57+09:00
- Original source: [qwen.ai](https://qwen.ai/blog?id=qwen3-omni-flash-20251201)
- Points: 1
- Comments: 1

## Topic Body

- **Qwen3-Omni-Flash-2025-12-01**은 텍스트, 이미지, 오디오, 비디오를 동시에 처리하고 실시간 스트리밍으로 **텍스트와 음성 출력을 생성**하는 차세대 멀티모달 모델  
- 오디오·비주얼 명령 이해력과 대화 안정성이 크게 향상되어 **자연스럽고 일관된 음성-영상 상호작용** 구현  
- **시스템 프롬프트 완전 제어** 기능으로 인격 스타일, 말투, 출력 길이 등 세부 조정 가능  
- **119개 언어 텍스트**, **19개 언어 음성 인식**, **10개 언어 음성 합성**을 지원하며 다국어 일관성 문제 해결  
- 논리 추론, 코드 생성, 시각·음성 이해 등 전 영역에서 성능이 향상되어 **자연스럽고 정밀한 AI 상호작용 경험** 제공  

---

### Qwen3-Omni-Flash-2025-12-01 개요
- **Qwen3-Omni**는 텍스트, 이미지, 오디오, 비디오 등 다양한 입력을 처리하고 **실시간으로 텍스트와 자연스러운 음성 출력**을 생성하는 네이티브 멀티모달 대형 모델  
- 이번 버전 **Qwen3-Omni-Flash-2025-12-01**은 기존 Qwen3-Omni를 기반으로 한 **전면 업그레이드 버전**  
- 모델 성능과 효율성을 전반적으로 개선하여 **더 빠르고 정확한 멀티모달 처리 능력** 제공  

### 주요 기능 향상
- **오디오-비주얼 상호작용 강화**  
  - 음성·영상 명령 이해와 실행 능력이 크게 향상되어 **일상적 구어 상황에서의 지능 저하 문제** 해결  
  - 다회차 오디오-비주얼 대화의 **안정성과 일관성**이 높아져 자연스러운 상호작용 가능  

- **시스템 프롬프트 제어 강화**  
  - 시스템 프롬프트를 완전히 사용자 정의할 수 있어 **모델 행동을 정밀하게 제어** 가능  
  - 인격 스타일(예: 달콤한, 쿨한, 애니메이션풍), 말투, 출력 길이 등 세부 요소를 세밀하게 조정  

- **다국어 지원 신뢰성 향상**  
  - 텍스트 기반 상호작용 **119개 언어**, 음성 인식 **19개 언어**, 음성 합성 **10개 언어** 지원  
  - 이전 버전의 언어 불안정 문제가 해결되어 **정확하고 일관된 다국어 성능** 확보  

- **자연스러운 음성 합성**  
  - 발화 속도, 멈춤, 억양을 텍스트 맥락에 따라 자동 조정하여 **인간과 유사한 음성 품질** 구현  
  - 느리거나 기계적인 음성을 제거하고 **표현력 있는 자연스러운 음성 출력** 제공  

### 성능 향상 지표
- **텍스트 이해 및 생성 능력 강화**  
  - 논리 추론 **ZebraLogic +5.6**, 코드 생성 **LiveCodeBench-v6 +9.3**, **MultiPL-E +2.7**, 글쓰기 품질 **WritingBench +2.2** 향상  
  - 복잡한 다단계 지시 수행의 신뢰도 향상  

- **음성 이해 정확도 향상**  
  - **Fleurs-zh**에서 단어 오류율 감소, **VoiceBench +3.2** 개선  
  - 실제 대화 환경에서의 음성 이해력 강화  

- **음성 합성 품질 개선**  
  - 중국어 및 다국어 환경에서 **자연스러운 억양과 리듬** 구현  
  - 인간 음성과 유사한 발화 품질 확보  

- **이미지 이해력 강화**  
  - 시각적 추론 과제에서 **MMMU +4.7**, **MMMU-Pro +4.8**, **MathVision_full +2.2** 향상  
  - 다이어그램, 수학적 도형 등 복잡한 시각 콘텐츠 해석 능력 강화  

- **비디오 이해력 개선**  
  - **MLVU +1.6** 향상으로 비디오 의미 이해력 강화  
  - 오디오-비주얼 동기화 개선으로 **실시간 영상 대화 기반 강화**  

### 향후 계획
- 사용자 피드백과 **Qwen3-Omni 기반 혁신적 응용 사례** 수집 예정  
- 향후 **다화자 음성 인식(ASR)** , **비디오 OCR**, **오디오-비디오 자율 학습**, **에이전트 기반 워크플로 및 함수 호출 지원** 등 기능 확장 예정  

### 인용 정보
- 연구 활용 시 다음 인용문 사용 권장  
  - `@misc{qwen3_omni_20251201, author={{Qwen Team, Alibaba}}, title={{Qwen3-Omni-Flash-2025-12-01：Hear You. See You. Follow Smarter!}}, year={2025}, url={https://qwen.ai/blog?id=qwen3-omni-20251201}}`

## Comments



### Comment 47618

- Author: neo
- Created: 2025-12-12T03:34:57+09:00
- Points: 1

###### [Hacker News 의견들](https://news.ycombinator.com/item?id=46219538) 
- 이번 모델은 **30B 파라미터 MoE** 구조로, 활성 파라미터는 3B 수준임  
  이전의 7B omni 모델의 후속작으로, [Qwen2.5-Omni-7B](https://huggingface.co/Qwen/Qwen2.5-Omni-7B)와 비슷한 성능을 기대할 수 있음  
  공개된 omni 모델이 많지 않아서 꽤 의미 있는 릴리스라고 생각함  
  개인적으로는 이 모델을 **입출력 인터페이스(키보드·모니터)** 대체용으로 쓰고, 백엔드에서 다른 기술로 연산을 처리하는 구조로 활용하고 싶음  
  또 reasoning 버전도 있는데, 음성 채팅 중에 ‘생각 중’ 토큰을 발음하는 기능이 있어서 꽤 재미있을 듯함  
  - 이 모델은 여러 구성요소가 쌓인 형태임  
    650M 오디오 인코더, 540M 비전 인코더, 30B-A3B LLM, 3B-A0.3B 오디오 LLM, 그리고 80M Transformer/200M ConvNet으로 오디오 토큰을 파형으로 변환함  
    Qwen3-Omni의 **비공개 가중치 업데이트 버전**이며, 이전에는 Qwen/Qwen3-Omni-30B-A3B-Instruct가 공개되어 있었음  
    현재는 오픈소스 추론 프레임워크에서 완전하게 지원되지 않아, transformers에서만 매우 느리게 동작함  
  - [Alibaba Cloud 문서](https://www.alibabacloud.com/help/en/model-studio/qwen-omni#2d8d6c9ca5e1c)를 보면 이 모델은 **오픈소스가 아님**  
  - 새 버전의 가중치를 어디에서도 찾을 수 없었음. Modelscope와 Hugging Face를 확인했지만 없었고, **컨텍스트 윈도우가 200K+ 토큰**으로 확장된 것 같음  
  - reasoning 버전이 생각 토큰을 발음한다는 점이 흥미로움. 예전에 Claude도 이런 식으로 작동했었음  
  - 생각 토큰에 리버브 같은 효과를 넣으면 모델의 ‘생각 소리’를 들을 수 있을지도 몰라서 재미있을 것 같음  

- Qwen3-Omni가 GPT-4o처럼 **실시간 대화**를 지원하는지 궁금했음  
  문서상으로는 안 되는 것 같았지만, 실제로는 지원한다고 함  
  혹시 **비NVIDIA 환경**에서 로컬로 구동해본 사람이 있는지 궁금함  
  - 공식 채팅 사이트에는 아직 **오디오→오디오 모델**이 없음  
    나는 동음이의어 테스트(record vs record)나 음성 톤 변경 요청으로 확인해보곤 함  
  - vLLM이나 SGLang 같은 추론 프레임워크가 아직 완전 지원하지 않아서, **비NVIDIA 환경에서는 불가능**함  
  - 그래도 네이티브 **speech-to-speech** 기능은 있는 것으로 보임  
  - 아직 완성도 높은 로컬 음성 채팅 앱은 없다고 생각함  
    Silly Tavern 같은 것도 거의 unusable 수준임  
    하지만 이런 로컬 음성 모델이야말로 **자연어 기반 워크플로우**의 핵심이 될 것임  

- Macbook에서 GGUF나 MLX로 **Omni 모델을 구동**할 수 있는지 궁금했음  
  LMStudio나 Llama.cpp로는 가능하지만, 마이크나 웹캠 스트리밍을 지원하지 않음  
  Qwen은 보통 Cuda 기반 Python 예제를 제공하는데, 오픈소스 대안이 있는지 찾는 중임  
  - [vLLM 사용법 가이드](https://github.com/QwenLM/Qwen3-Omni#vllm-usage)와 [로컬 웹 UI 데모](https://github.com/QwenLM/Qwen3-Omni?tab=readme-ov-file#launch-local-web-ui-demo)를 참고하면 연결할 수 있을 듯함  
  - [whisper.cpp](https://github.com/ggml-org/whisper.cpp)를 이용하면 가능함  

- 나는 **Gemini Flash Live 2.5**를 잘 쓰고 있음  
  3.0 버전이 곧 나오길 기대 중임  
  벤치마크상으로는 Gemini Live보다 낫다고 하지만 직접 테스트해봐야 함  
  개인적으로는 영어 중심 환경에서 Qwen Omni 모델이 늘 아쉬웠음  

- 32B면 꽤 작아서 **64GB RAM 장비에서도 구동 가능**할 것 같음  
  Ollama에 올라오면 직접 테스트해볼 예정임  
  - Hugging Face의 Qwen3-Omni-30B-A3B 모델은 9월에 업데이트된 것으로 보임  
    그런데 논문 벤치마크에서는 Qwen3-Omni-Flash-2025-12-01이 Qwen3-235B-A22B보다 성능이 높다고 되어 있음  
    30B 모델인데 어떻게 가능한지 혼란스러움  
    FLASH 버전은 Hugging Face에 없고, **API 전용 모델**일 가능성이 높음  
  - 나는 **48GB RAM Mac**에서 유니버설 메모리 덕분에 잘 돌리고 있음  

- 처음엔 API 전용인 줄 알았는데, [Hugging Face 컬렉션](https://huggingface.co/collections/Qwen/qwen3-omni)에 모델이 있긴 함  
  하지만 실제로는 **이전 버전**이고, HF 데모도 API를 호출하는 방식이라 로컬 연산은 아님  

- Qwen3-Omni가 **2.5 Flash를 모든 벤치마크에서 압도**한다는 점이 인상적임  
  이제 LLM 워크로드를 로컬 GPU로 옮길 때가 된 듯함  
  - 하지만 반드시 **자신의 데이터셋으로 벤치마크**해야 함  
    공개 벤치마크는 신뢰하기 어렵고, 그대로 모델을 선택하면 실망할 수 있음  
  - 텍스트 전용 작업이라면 Omni 대신 **Qwen3-30B-A3B**를 쓰는 게 효율적임  
  - 이미지 벤치마크는 Qwen 2.0과 비교한 것으로 보여서 다소 의심스러움  

- 음성 모델의 말투가 **생명력 없는 느낌**이 드는 이유가 궁금했음  
  특히 과일 가격 부분에서 완전히 자연스럽지만 AI임을 바로 알아챌 수 있었음  
  아마 억양이나 일정한 발화 속도 때문일 듯함  
  - 나는 오히려 감정이 과하지 않은 게 좋다고 생각함  
    과도한 감정 표현은 인위적으로 느껴짐  
    다만 독일어 발음 오류가 있었던 건 아쉬움  
  - 완전한 **end-to-end 멀티모달**이 아닐 수도 있음  
    음성 합성 단계가 따로 있어서 그런 결과가 나오는 듯함  
    노래나 억양 테스트로 확인해볼 수 있음  
  - 비전, 오디오, 다국어, 억양 제어 등 너무 많은 기능을 **30B 파라미터**에 담아서 그런 것 같음  
    ChatGPT의 음성 모델이 가장 자연스러움  
  - AI의 말투를 바로 알아챌 수 있다는 건 오히려 **좋은 일**일 수도 있음  
  - 나는 오히려 AI 특유의 **억양(accent)** 이 있는 게 더 좋음  

- 실시간 음성 출력에서 **‘생각 중’ 토큰과 사용자용 발화**를 구분하는 게 어렵다는 문제가 있음  
  - 간단한 방법은 TTS 전에 출력 스트림을 분리하는 것임  
    reasoning/structured 토큰은 한쪽으로, 사용자용 텍스트는 다른 쪽으로 보내서  
    후자만 음성 합성하면 ‘생각 중’이 들리는 문제를 해결할 수 있음  

- Qwen이 **오픈웨이트 공개 여부를 모호하게** 표현하는 것 같음  
  실제로는 대부분 비공개이며, 공개된 것처럼 보이지만 **API 전용**인 경우가 많음  
  덕분에 사용자는 모델을 찾느라 헛수고를 하게 됨
