Qwen3-Omni: 텍스트, 이미지, 비디오를 위한 네이티브 옴니 AI 모델
(github.com/QwenLM)- Qwen3-Omni는 텍스트, 이미지, 오디오, 비디오를 하나의 모델로 처리하며 실시간 음성 생성이 가능한 최첨단 멀티모달 LLM임
- 119개 텍스트 언어와 19개 음성 입력 언어, 10개 음성 출력 언어를 지원해 글로벌 서비스 구현에 최적화된 특징을 가짐
- 모델 구조는 MoE 기반 Thinker–Talker 설계로, 성능·효율성 모두 강화하며, 스트리밍 기반 대화와 사용자 맞춤 행동 제어 제공
- 오픈소스로 공개된 Qwen3-Omni-30B-A3B-Captioner는 상세하고 환각률 낮은 오디오 캡션 기능을 제공함
- Hugging Face Transformers, vLLM, Docker, API 등 다양하고 유연한 실서비스 적용 경로와 개발 편의 기능을 갖춤
Qwen3-Omni 개요 및 중요성
Qwen3-Omni는 Alibaba Cloud의 Qwen 팀에서 개발한 엔드투엔드 멀티링궐 옴니모달 LLM(open-source large language model)임. 이 프로젝트는 현재 오픈소스 멀티모달 AI 중에서도 드물게 텍스트, 이미지, 오디오, 비디오까지 통합적으로 이해 및 실시간 반응 생성이 가능한 것이 특징임. 경쟁 오픈소스 대비 광범위한 언어 지원, 실시간 스트리밍, 고정밀 오디오 캡셔닝 등 강점을 보유함. 개발자·기업들은 자연어 질의응답, 오디오·비주얼 상황 분석, 실시간 다중모달 인터페이스 등 다양한 신규 서비스를 빠르게 실현할 수 있음.
주요 특징
- 멀티모달 처리: 텍스트, 이미지, 오디오, 비디오 입력을 한데 처리하고 실시간 텍스트/음성 응답 출력
- 최첨단 성능: 오디오/비디오 관련 36개 벤치마크 중 22개(SOTA), 오픈소스 기준 32개 SOTA, ASR·음성대화 성능은 Gemini 2.5 Pro와 유사함
- 광범위한 언어 지원: 119개 텍스트, 19개 음성 입력, 10개 음성 출력 언어를 지원
- 실시간 스트리밍: 자연스러운 턴테이킹 및 신속한 즉각 응답
- 사용자 맞춤 제어: 시스템 프롬프트를 통한 세밀한 행동조절 및 적응성 확보
- MoE 기반 아키텍처: Thinker–Talker 설계, AuT 사전학습, 다중 코드북 구조로 초저지연/고효율 실현
- 오디오 캡션 모델 오픈소스화: Qwen3-Omni-30B-A3B-Captioner로 상세 오디오 설명 및 환각 방지 지원
지원 도메인별 시나리오 예시
- 오디오: 음성인식, 음성번역, 음악/소리 분석, 오디오 캡션 등
- 비주얼: 복합 이미지 OCR, 객체 인식, 이미지 기반 QA, 수학문제 풀이, 비디오 설명·길찾기, 씬 전환 분석 등
- 오디오+비주얼: 멀티모달 QA, 대화, 에이전트 음성 호출 등
- 다운스트림 파인튜닝: Qwen3-Omni-30B-A3B-Instruct를 활용한 캡션 모델 파인튜닝
모델별 설명
- Qwen3-Omni-30B-A3B-Instruct: 오디오·비디오·텍스트 입력 + 텍스트/음성 출력(thinker+talker)
- Qwen3-Omni-30B-A3B-Thinking: 오디오·비디오·텍스트 입력 + 텍스트 출력(thinker 전용, chain-of-thought reasoning)
- Qwen3-Omni-30B-A3B-Captioner: 오디오 입력→텍스트 출력, 상세 설명·환각 최소화(캡션 특화)
주요 활용 환경 및 장점
- Hugging Face Transformers 통합: 손쉬운 코드 내장, 다양한 입력 채널(B64, URL 등) 유연 처리, FlashAttention 2 지원
- vLLM: 대규모 실서비스 저지연·동시성 강점, 배치 추론 신속, 멀티GPU 환경 쉽게 확장, 서버-API 통합 강점
- Docker 이미지 제공: 환경 충돌 최소화, 간편 실험/배포
- DashScope API: 알리바바 공식 API, 실시간/오프라인 둘 다 지원
- 웹/온프레미스 데모: 별도 구축 없어도 웹 기반 체험 가능
실사용 예시와 팁
코어 알고리듬 및 기능
- Thinker–Talker 구조로 분리된 고도화 추론·음성합성 가능
- 다양한 입력 조합(순수 텍스트/텍스트+이미지/오디오/동영상 등)에 대해 일관된 API 및 명시적 프롬프트 처리 지원
- 음성 출력을 원치 않을 경우 메모리 절약 옵션 존재(10GB 이상 메모리 절약)
- 다양한 음성 합성(Ethan, Chelsie, Aiden 등) 옵션 지원, speaker 파라미터로 선택 가능
고급 배치/대화 예시
- 여러 건의 멀티모달 메시지를 한 번에 병합 처리해 대용량 데이터·벤치마크·대화형 서비스에서 효율적임
- 각 메시지(텍스트, 이미지, 오디오, 동영상 조합)에 대해 맞춤 답변 생성
vLLM 기반 실무 배포
- 파라미터 세팅(tensor_parallel_size, max_num_seqs, limit_mm_per_prompt 등)으로 동시추론, 메모리튜닝 가능
- vLLM serve에서 API 방식 대화 지원, 추후 Instruct 모델 오디오 출력도 지원 예정
API 및 환경
- DashScope API를 통한 클라우드 실시간·오프라인/캡션별 API 문서(중국/글로벌) 제공
- 실 서비스, 연구 등 목적에 맞게 vLLM, Official API, Transformers 환경을 아우르는 유연함
시스템 사양/권장사항
- BF16 정밀도 기준 15~120초 비디오 기준 최소 메모리(68~145GB) 안내
- GPU 환경, FlashAttention 2 지원 필요
- 프롬프트 사용 팁: 명시적 텍스트 지시를 멀티모달 입력과 함께 사용할 것
에이전트 및 다운스트림 활용
- 오디오 기반 기능 호출, 실시간 멀티모달 대화·분석·비서 서비스, 상세 오디오캡션 등 다양한 에이전트 구축 가능
- 시스템 프롬프트를 통한 역할 제어, 대화 스타일·프레임 설정 예시 제공
마무리
Qwen3-Omni는 오픈소스 LLM 가운데 세계 최대급 범용 텍스트+음성+이미지+비디오를 통합 제공하며, 실시간·대규모 웹서비스, 연구, 기관 내 구축에 이상적임. vLLM, API, Docker 환경 등과의 긴밀한 통합 및 높은 호환성, 상세한 사례 지원으로 개발 효율성과 경쟁우위 확보에 매우 큰 장점이 있음.
Hacker News 의견
-
영어로 대화할 때는 속도가 매우 느리게 느껴졌는데, 스페인어로 대화하니 훨씬 빠름을 느낌, 실시간 번역 등 엄청난 기능을 곧 사용할 수 있을 거라는 사실이 정말 인상적임, 미국 연구소들이 오픈 웨이트 경쟁에 적극적으로 나서지 않는다면, 결국 중국이 AI 시장을 장악할 것이라는 생각이 듦, 개인정보 보호나 데이터 소유권에 민감한 미국인들은 결과적으로 집에 오픈된 중국 모델을 돌리는 1,000~2,000달러짜리 기기를 갖출지도 모른다는 생각이 들며, 정말 놀라운 변화라고 느낌
-
미국에서 지내면서 중국이 리눅스를 강력히 권장하고, RISC-V 같은 오픈 CPU 아키텍처, 그리고 자체 호스팅 오픈 모델까지 밀고 있다는 기사를 보고 있음, 우리가 오히려 ‘악역’인 것 같은 생각이 드는 중임
-
나는 실제로 집에 3090 두 대와 Qwen3를 돌리고 있음, Home Assistant와 연동해서 esp32 음성 위성 기기들까지 활용 중임, 놀랄 만큼 잘 동작함을 경험함
-
일반적인 미국인은 프라이버시를 보장하는 기술에 1,000~2,000달러를 추가로 쓸 의지가 거의 없는 듯함, 이미 대부분이 20~200달러를 아끼기 위해 IoT 카메라(Ring 등)로 집안 모든 오디오/비디오를 영장 없이 정부에 제공하는 상황임
-
-
https://chat.qwen.ai/에서 직접 체험 가능함, 구글이나 GitHub로 로그인해야 음성 모드를 쓸 수 있음, 다양한 목소리가 준비되어 있는데, 예를 들어 Dylan(베이징 골목에서 자란 10대), Peter(톈진 콩트 전문가), Cherry(밝고 긍정적인 젊은 여성), Ethan(활기차고 따뜻한 소년), Eric(특별한 쓰촨 청두 출신 남성), Jada(상하이에서 온 카리스마 누나) 등이 있음
-
특히 언어를 바꿔서 목소리를 테스트하면 정말 웃김, 러시아어로는 Ryan이 한 달 전부터 러시아어를 배우기 시작한 서양인 같은 느낌이고, Dylan은 좀 더 자연스러우며 다른 목소리는 강한 아시아 억양이 섞인 러시아어라서 각각 개성이 재미있음
-
나는 Omni Flash만 보이는데, 그것이 맞는지 궁금함
-
-
모델 웨이트는 70GB로 Hugging Face에서 파일 용량도 표기됨(Qwen/Qwen3-Omni-30B-A3B-Instruct), 로컬에서 돌리기에 꽤 접근성 좋은 용량임, macOS 포트가 곧 나올지 궁금함, 지금은 NVIDIA GPU가 반드시 필요해 보임
-
BF16 기준이라 양자화(Q4)한다면 24GB GPU에도 충분히 들어갈 것 같음, 같은 30B-A3B 계열 모델들과 비슷하다고 봄, 200B+ 사이즈일까 봐 걱정했는데 다행스럽게 생각함
-
난 시간이 부족해서 못 해봤지만, 어제 공개된 Apple용 Mojo stuff와 연동해서 동작시키려는 시도가 흥미로울 듯함, 아직 완성도는 확실치 않겠지만 재밌는 도전이 될 거라 생각함
-
macOS에서 돌아가는 추론 엔진이 있는지 궁금함
-
5090에서도 돌릴 수 있을지 알고 싶음, 또는 여러 개의 GPU를 연결하는 게 가능한지, 아니면 NVIDIA가 막아놓았는지 궁금함
-
-
데모 영상이 여기 있음, 특히 영상-음성 입력을 다른 언어로 번역해서 음성 출력까지 하는 장면이 지금까지 본 것 중 제일 인상적이었음
YouTube 데모 영상 -
이 분야에서 진짜 레버리지 포인트는 성능/사이즈임, 오픈 웨이트 경쟁이 생기면 효율에 대한 혁신이 강제된다고 봄, 닫힌 웨이트 모델들이 생각하지 못한 강점이 생길 수도 있음, 클러스터형 집단 추론 메커니즘이 충분히 발전하면 H100 서버 한 대에서 8개의 30B 모델이 1개의 240B 모델 대비 정확도 면에서 앞설 수 있는 시점이 언제 올지 궁금함
-
신기해서 간단한 오디오 클립 몇 개를 넣어봤는데, 피아노, 드럼 등 악기까지 구별하는 수준임, 음성 외의 오디오 인식에 초점을 둔 멀티모달 LLM 연구는 아직 많이 못 본 것 같음, 최첨단 현황(SOTA)에 대해 더 깊은 분석이 있으면 좋겠음
-
"native video support"가 실제로 뭘 의미하는지 궁금함, 단순히 연속된 풀 프레임 이미지를 해석(빠른 이벤트는 놓치게 되는 방식)하는 수준인지, 아니면 더 복잡한 기술을 의미하는 것인지 알고 싶음
-
음성 입력+음성 출력이 정말 큰 변화라고 생각함, 이론적으로는 음성으로 대화하고, 내 언어나 상대방 언어로 번역이 바로 가능해짐, 지금은 깨우는 단어(웨이크워드), 음성-텍스트 변환, 텍스트-음성 변환 등 여러 기술이 중간에 필요한데, 이 모델은 최소한 32b급에서 음성 입출력 모두 지원하는 버전들이 3개 정도 있는 것 같음, 아키텍처에 따라 앞으로 집에서 쓰거나 “AI 토스터기” 같은 기기에서 직접 돌릴 수 있을 듯함
-
이런 모델을 집 자동화 시스템에 tool calls로 연결하면 기회가 엄청 많다고 생각함, ChatGPT에 이 기능이 들어간 후로 다른 서비스에서 지원되길 기다렸음, 특히 요리 등 손을 못 쓰는 상황에서 ("다음 단계 읽어줘, 손에 고기 묻음", "라우 만들 때 밀가루 얼마나 필요함?", "레몬이 없는데 대체로 뭘 쓰면 좋음?") 혁신적인 활용이 가능할 것임
-
무엇보다 언어 학습에 큰 도움이 될 것 같음, 로컬에서도 돌릴 수 있어 보임, 특히 unsloth 개발자들이 다루게 되면 더 기대됨
-
-
Qwen의 thinker/speaker 아키텍처가 정말 흥미로움, 내가 인간의 멀티모달 인지 방식을 상상하는 것과 비슷함, 예를 들어 사과 사진, "apple"이라는 철자, 소리 모두가 중간에 텍스트를 거치지 않아도 같은 개념에 매핑되는 방식임
- 모든 LLM이 그렇게 동작하는 건 아닌지 궁금함
-
멀티모달 모델을 배우는 데 좋은 자료가 있을지 궁금함, 어디서부터 시작하면 좋은지 잘 모르겠음