Qwen3-Omni-Flash-2025-12-01: 차

▲

GN⁺ 5달전 | parent | ★ favorite | on: Qwen3-Omni-Flash-2025-12-01: 차세대 네이티브 멀티모달 대형 모델(qwen.ai)

Hacker News 의견들

이번 모델은 30B 파라미터 MoE 구조로, 활성 파라미터는 3B 수준임
이전의 7B omni 모델의 후속작으로, Qwen2.5-Omni-7B와 비슷한 성능을 기대할 수 있음
공개된 omni 모델이 많지 않아서 꽤 의미 있는 릴리스라고 생각함
개인적으로는 이 모델을 입출력 인터페이스(키보드·모니터) 대체용으로 쓰고, 백엔드에서 다른 기술로 연산을 처리하는 구조로 활용하고 싶음
또 reasoning 버전도 있는데, 음성 채팅 중에 ‘생각 중’ 토큰을 발음하는 기능이 있어서 꽤 재미있을 듯함
- 이 모델은 여러 구성요소가 쌓인 형태임
  650M 오디오 인코더, 540M 비전 인코더, 30B-A3B LLM, 3B-A0.3B 오디오 LLM, 그리고 80M Transformer/200M ConvNet으로 오디오 토큰을 파형으로 변환함
  Qwen3-Omni의 비공개 가중치 업데이트 버전이며, 이전에는 Qwen/Qwen3-Omni-30B-A3B-Instruct가 공개되어 있었음
  현재는 오픈소스 추론 프레임워크에서 완전하게 지원되지 않아, transformers에서만 매우 느리게 동작함
- Alibaba Cloud 문서를 보면 이 모델은 오픈소스가 아님
- 새 버전의 가중치를 어디에서도 찾을 수 없었음. Modelscope와 Hugging Face를 확인했지만 없었고, 컨텍스트 윈도우가 200K+ 토큰으로 확장된 것 같음
- reasoning 버전이 생각 토큰을 발음한다는 점이 흥미로움. 예전에 Claude도 이런 식으로 작동했었음
- 생각 토큰에 리버브 같은 효과를 넣으면 모델의 ‘생각 소리’를 들을 수 있을지도 몰라서 재미있을 것 같음
Qwen3-Omni가 GPT-4o처럼 실시간 대화를 지원하는지 궁금했음
문서상으로는 안 되는 것 같았지만, 실제로는 지원한다고 함
혹시 비NVIDIA 환경에서 로컬로 구동해본 사람이 있는지 궁금함
- 공식 채팅 사이트에는 아직 오디오→오디오 모델이 없음
  나는 동음이의어 테스트(record vs record)나 음성 톤 변경 요청으로 확인해보곤 함
- vLLM이나 SGLang 같은 추론 프레임워크가 아직 완전 지원하지 않아서, 비NVIDIA 환경에서는 불가능함
- 그래도 네이티브 speech-to-speech 기능은 있는 것으로 보임
- 아직 완성도 높은 로컬 음성 채팅 앱은 없다고 생각함
  Silly Tavern 같은 것도 거의 unusable 수준임
  하지만 이런 로컬 음성 모델이야말로 자연어 기반 워크플로우의 핵심이 될 것임
Macbook에서 GGUF나 MLX로 Omni 모델을 구동할 수 있는지 궁금했음
LMStudio나 Llama.cpp로는 가능하지만, 마이크나 웹캠 스트리밍을 지원하지 않음
Qwen은 보통 Cuda 기반 Python 예제를 제공하는데, 오픈소스 대안이 있는지 찾는 중임
- vLLM 사용법 가이드와 로컬 웹 UI 데모를 참고하면 연결할 수 있을 듯함
- whisper.cpp를 이용하면 가능함
나는 Gemini Flash Live 2.5를 잘 쓰고 있음
3.0 버전이 곧 나오길 기대 중임
벤치마크상으로는 Gemini Live보다 낫다고 하지만 직접 테스트해봐야 함
개인적으로는 영어 중심 환경에서 Qwen Omni 모델이 늘 아쉬웠음
32B면 꽤 작아서 64GB RAM 장비에서도 구동 가능할 것 같음
Ollama에 올라오면 직접 테스트해볼 예정임
- Hugging Face의 Qwen3-Omni-30B-A3B 모델은 9월에 업데이트된 것으로 보임
  그런데 논문 벤치마크에서는 Qwen3-Omni-Flash-2025-12-01이 Qwen3-235B-A22B보다 성능이 높다고 되어 있음
  30B 모델인데 어떻게 가능한지 혼란스러움
  FLASH 버전은 Hugging Face에 없고, API 전용 모델일 가능성이 높음
- 나는 48GB RAM Mac에서 유니버설 메모리 덕분에 잘 돌리고 있음
처음엔 API 전용인 줄 알았는데, Hugging Face 컬렉션에 모델이 있긴 함
하지만 실제로는 이전 버전이고, HF 데모도 API를 호출하는 방식이라 로컬 연산은 아님
Qwen3-Omni가 2.5 Flash를 모든 벤치마크에서 압도한다는 점이 인상적임
이제 LLM 워크로드를 로컬 GPU로 옮길 때가 된 듯함
- 하지만 반드시 자신의 데이터셋으로 벤치마크해야 함
  공개 벤치마크는 신뢰하기 어렵고, 그대로 모델을 선택하면 실망할 수 있음
- 텍스트 전용 작업이라면 Omni 대신 Qwen3-30B-A3B를 쓰는 게 효율적임
- 이미지 벤치마크는 Qwen 2.0과 비교한 것으로 보여서 다소 의심스러움
음성 모델의 말투가 생명력 없는 느낌이 드는 이유가 궁금했음
특히 과일 가격 부분에서 완전히 자연스럽지만 AI임을 바로 알아챌 수 있었음
아마 억양이나 일정한 발화 속도 때문일 듯함
- 나는 오히려 감정이 과하지 않은 게 좋다고 생각함
  과도한 감정 표현은 인위적으로 느껴짐
  다만 독일어 발음 오류가 있었던 건 아쉬움
- 완전한 end-to-end 멀티모달이 아닐 수도 있음
  음성 합성 단계가 따로 있어서 그런 결과가 나오는 듯함
  노래나 억양 테스트로 확인해볼 수 있음
- 비전, 오디오, 다국어, 억양 제어 등 너무 많은 기능을 30B 파라미터에 담아서 그런 것 같음
  ChatGPT의 음성 모델이 가장 자연스러움
- AI의 말투를 바로 알아챌 수 있다는 건 오히려 좋은 일일 수도 있음
- 나는 오히려 AI 특유의 억양(accent) 이 있는 게 더 좋음
실시간 음성 출력에서 ‘생각 중’ 토큰과 사용자용 발화를 구분하는 게 어렵다는 문제가 있음
- 간단한 방법은 TTS 전에 출력 스트림을 분리하는 것임
  reasoning/structured 토큰은 한쪽으로, 사용자용 텍스트는 다른 쪽으로 보내서
  후자만 음성 합성하면 ‘생각 중’이 들리는 문제를 해결할 수 있음
Qwen이 오픈웨이트 공개 여부를 모호하게 표현하는 것 같음
실제로는 대부분 비공개이며, 공개된 것처럼 보이지만 API 전용인 경우가 많음
덕분에 사용자는 모델을 찾느라 헛수고를 하게 됨