Hacker News 의견들
  • 이번 모델은 30B 파라미터 MoE 구조로, 활성 파라미터는 3B 수준임
    이전의 7B omni 모델의 후속작으로, Qwen2.5-Omni-7B와 비슷한 성능을 기대할 수 있음
    공개된 omni 모델이 많지 않아서 꽤 의미 있는 릴리스라고 생각함
    개인적으로는 이 모델을 입출력 인터페이스(키보드·모니터) 대체용으로 쓰고, 백엔드에서 다른 기술로 연산을 처리하는 구조로 활용하고 싶음
    또 reasoning 버전도 있는데, 음성 채팅 중에 ‘생각 중’ 토큰을 발음하는 기능이 있어서 꽤 재미있을 듯함

    • 이 모델은 여러 구성요소가 쌓인 형태임
      650M 오디오 인코더, 540M 비전 인코더, 30B-A3B LLM, 3B-A0.3B 오디오 LLM, 그리고 80M Transformer/200M ConvNet으로 오디오 토큰을 파형으로 변환함
      Qwen3-Omni의 비공개 가중치 업데이트 버전이며, 이전에는 Qwen/Qwen3-Omni-30B-A3B-Instruct가 공개되어 있었음
      현재는 오픈소스 추론 프레임워크에서 완전하게 지원되지 않아, transformers에서만 매우 느리게 동작함
    • Alibaba Cloud 문서를 보면 이 모델은 오픈소스가 아님
    • 새 버전의 가중치를 어디에서도 찾을 수 없었음. Modelscope와 Hugging Face를 확인했지만 없었고, 컨텍스트 윈도우가 200K+ 토큰으로 확장된 것 같음
    • reasoning 버전이 생각 토큰을 발음한다는 점이 흥미로움. 예전에 Claude도 이런 식으로 작동했었음
    • 생각 토큰에 리버브 같은 효과를 넣으면 모델의 ‘생각 소리’를 들을 수 있을지도 몰라서 재미있을 것 같음
  • Qwen3-Omni가 GPT-4o처럼 실시간 대화를 지원하는지 궁금했음
    문서상으로는 안 되는 것 같았지만, 실제로는 지원한다고 함
    혹시 비NVIDIA 환경에서 로컬로 구동해본 사람이 있는지 궁금함

    • 공식 채팅 사이트에는 아직 오디오→오디오 모델이 없음
      나는 동음이의어 테스트(record vs record)나 음성 톤 변경 요청으로 확인해보곤 함
    • vLLM이나 SGLang 같은 추론 프레임워크가 아직 완전 지원하지 않아서, 비NVIDIA 환경에서는 불가능
    • 그래도 네이티브 speech-to-speech 기능은 있는 것으로 보임
    • 아직 완성도 높은 로컬 음성 채팅 앱은 없다고 생각함
      Silly Tavern 같은 것도 거의 unusable 수준임
      하지만 이런 로컬 음성 모델이야말로 자연어 기반 워크플로우의 핵심이 될 것임
  • Macbook에서 GGUF나 MLX로 Omni 모델을 구동할 수 있는지 궁금했음
    LMStudio나 Llama.cpp로는 가능하지만, 마이크나 웹캠 스트리밍을 지원하지 않음
    Qwen은 보통 Cuda 기반 Python 예제를 제공하는데, 오픈소스 대안이 있는지 찾는 중임

  • 나는 Gemini Flash Live 2.5를 잘 쓰고 있음
    3.0 버전이 곧 나오길 기대 중임
    벤치마크상으로는 Gemini Live보다 낫다고 하지만 직접 테스트해봐야 함
    개인적으로는 영어 중심 환경에서 Qwen Omni 모델이 늘 아쉬웠음

  • 32B면 꽤 작아서 64GB RAM 장비에서도 구동 가능할 것 같음
    Ollama에 올라오면 직접 테스트해볼 예정임

    • Hugging Face의 Qwen3-Omni-30B-A3B 모델은 9월에 업데이트된 것으로 보임
      그런데 논문 벤치마크에서는 Qwen3-Omni-Flash-2025-12-01이 Qwen3-235B-A22B보다 성능이 높다고 되어 있음
      30B 모델인데 어떻게 가능한지 혼란스러움
      FLASH 버전은 Hugging Face에 없고, API 전용 모델일 가능성이 높음
    • 나는 48GB RAM Mac에서 유니버설 메모리 덕분에 잘 돌리고 있음
  • 처음엔 API 전용인 줄 알았는데, Hugging Face 컬렉션에 모델이 있긴 함
    하지만 실제로는 이전 버전이고, HF 데모도 API를 호출하는 방식이라 로컬 연산은 아님

  • Qwen3-Omni가 2.5 Flash를 모든 벤치마크에서 압도한다는 점이 인상적임
    이제 LLM 워크로드를 로컬 GPU로 옮길 때가 된 듯함

    • 하지만 반드시 자신의 데이터셋으로 벤치마크해야 함
      공개 벤치마크는 신뢰하기 어렵고, 그대로 모델을 선택하면 실망할 수 있음
    • 텍스트 전용 작업이라면 Omni 대신 Qwen3-30B-A3B를 쓰는 게 효율적임
    • 이미지 벤치마크는 Qwen 2.0과 비교한 것으로 보여서 다소 의심스러움
  • 음성 모델의 말투가 생명력 없는 느낌이 드는 이유가 궁금했음
    특히 과일 가격 부분에서 완전히 자연스럽지만 AI임을 바로 알아챌 수 있었음
    아마 억양이나 일정한 발화 속도 때문일 듯함

    • 나는 오히려 감정이 과하지 않은 게 좋다고 생각함
      과도한 감정 표현은 인위적으로 느껴짐
      다만 독일어 발음 오류가 있었던 건 아쉬움
    • 완전한 end-to-end 멀티모달이 아닐 수도 있음
      음성 합성 단계가 따로 있어서 그런 결과가 나오는 듯함
      노래나 억양 테스트로 확인해볼 수 있음
    • 비전, 오디오, 다국어, 억양 제어 등 너무 많은 기능을 30B 파라미터에 담아서 그런 것 같음
      ChatGPT의 음성 모델이 가장 자연스러움
    • AI의 말투를 바로 알아챌 수 있다는 건 오히려 좋은 일일 수도 있음
    • 나는 오히려 AI 특유의 억양(accent) 이 있는 게 더 좋음
  • 실시간 음성 출력에서 ‘생각 중’ 토큰과 사용자용 발화를 구분하는 게 어렵다는 문제가 있음

    • 간단한 방법은 TTS 전에 출력 스트림을 분리하는 것임
      reasoning/structured 토큰은 한쪽으로, 사용자용 텍스트는 다른 쪽으로 보내서
      후자만 음성 합성하면 ‘생각 중’이 들리는 문제를 해결할 수 있음
  • Qwen이 오픈웨이트 공개 여부를 모호하게 표현하는 것 같음
    실제로는 대부분 비공개이며, 공개된 것처럼 보이지만 API 전용인 경우가 많음
    덕분에 사용자는 모델을 찾느라 헛수고를 하게 됨