# Qwen3-TTS 패밀리 오픈소스 공개: 음성 디자인, 클론, 생성 기능 제공

> Clean Markdown view of GeekNews topic #26049. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=26049](https://news.hada.io/topic?id=26049)
- GeekNews Markdown: [https://news.hada.io/topic/26049.md](https://news.hada.io/topic/26049.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2026-01-23T10:33:18+09:00
- Updated: 2026-01-23T10:33:18+09:00
- Original source: [qwen.ai](https://qwen.ai/blog?id=qwen3tts-0115)
- Points: 31
- Comments: 3

## Summary

**Qwen3-TTS**는 음성 복제와 디자인, 자연어 기반 제어를 통합한 **다국어 음성 생성 모델 시리즈**로, 1.7B·0.6B 두 가지 크기와 10개 주요 언어를 지원합니다. 자체 **Qwen3-TTS-Tokenizer-12Hz** 인코더와 Dual-Track 스트리밍 구조를 통해 문자 입력 후 97ms 내 첫 오디오를 출력하며, 비언어적 정보까지 보존한 고충실도 음성을 실시간으로 합성합니다.   
  
요즘 오픈 모델에서 가장 주목받는 건 역시 Qwen 패밀리네요. 꾸준히 잘 성장하고 있는게 놀랍습니다.

## Topic Body

- **Qwen3-TTS**는 음성 복제, 음성 디자인, 초고품질 인간형 음성 생성, 자연어 기반 제어를 지원하는 **다국어 음성 생성 모델 시리즈**  
- 중국어,영어,일본어,한국어 등 **10개 주요 언어 및 다양한 방언**을 지원하며, 1.7B와 0.6B 두 가지 모델 크기로 제공  
- 자체 개발한 **Qwen3-TTS-Tokenizer-12Hz** 인코더를 통해 음성 신호를 효율적으로 압축하고, 비언어적 정보와 음향 환경을 완전 보존  
- **Dual-Track 스트리밍 구조**로 문자 1개 입력 후 첫 오디오 패킷을 즉시 출력하며, **97ms 지연**의 실시간 합성 성능을 달성   
- 오픈소스 공개로 **개발자와 기업이 고품질 음성 생성 기술을 직접 활용**할 수 있음  
  
---  
  
### Qwen3-TTS 개요  
- Qwen3-TTS는 Qwen이 개발한 **고성능 음성 생성 모델 시리즈**로, 음성 디자인·복제·생성·제어 기능을 통합 제공  
  - 자연어 명령으로 음색, 감정, 억양 등을 제어 가능  
  - **Qwen API** 및 GitHub를 통해 접근 가능  
- **Qwen3-TTS-Tokenizer-12Hz** 다중 코드북 인코더를 기반으로, 고속·고충실도의 음성 복원과 효율적 압축을 구현  
- **Dual-Track 양방향 스트리밍**으로 문자 단위 실시간 음성 출력 지원  
  
### 모델 구성  
- 전체 모델은 **1.7B**와 **0.6B** 두 가지 크기로 제공  
  - 1.7B: 최고 성능과 정밀 제어 기능 제공  
  - 0.6B: 성능과 효율의 균형형  
- 두 모델 모두 **중국어, 영어, 일본어, 한국어, 독일어, 프랑스어, 러시아어, 포르투갈어, 스페인어, 이탈리아어** 지원  
- **3초 음성 입력으로 빠른 음성 클론** 가능, 파인튜닝(FT)에도 활용 가능  
  
### 주요 기술 특징  
- **고성능 음성 표현력**  
  - Qwen3-TTS-Tokenizer-12Hz로 음향 신호의 고차원 의미 모델링 및 압축 수행  
  - 비언어적 정보와 환경음 보존, 경량 non-DiT 구조로 고속 복원 지원  
- **엔드투엔드 다중 코드북 구조**  
  - 기존 LM+DiT 방식의 정보 병목과 오류 누적 문제 제거  
  - 모델 범용성, 생성 효율, 성능 한계치 향상  
- **초저지연 스트리밍 합성**  
  - Dual-Track 하이브리드 구조로 스트리밍·비스트리밍 동시 지원  
  - 문자 1개 입력 후 첫 오디오 출력, **97ms 지연** 달성  
- **지능형 텍스트 이해 및 음성 제어**  
  - 자연어 명령 기반으로 **음색, 감정, 운율** 등 다차원 속성 제어  
  - 텍스트 의미에 따라 자동으로 톤과 리듬 조정  
  
### 모델 성능 평가  
- **음성 디자인**: InstructTTS-Eval 벤치마크에서 **MiniMax-Voice-Design**보다 높은 지시 수행력과 표현력 달성  
- **음성 제어**: 단일 화자 다국어 일반화에서 **WER 2.34%** , 스타일 제어 점수 **75.4%** 기록  
  - 10분 연속 합성에서도 중국어 WER 2.36%, 영어 2.81% 유지  
- **음성 복제**: Seed-tts-eval에서 **MiniMax, SeedTTS**보다 안정적  
  - 10개 언어 평균 **WER 1.835%, 화자 유사도 0.789**, **CosyVoice3** 초과 성능  
  
### Tokenizer 성능  
- **LibriSpeech test-clean** 세트 기준 SOTA 달성  
  - PESQ: 광대역 3.21, 협대역 3.68  
  - STOI: 0.96, UTMOS: 4.16  
  - 화자 유사도 0.95로 **거의 무손실 수준의 화자 정보 보존**  
  
### 음성 디자인 및 샘플  
- 자연어 설명을 기반으로 **사용자 정의 음색 생성** 가능  
  - 성별, 나이, 감정, 억양 등 세밀한 속성 제어  
  - 예시: 명령형 남성 음성, 감정적 여성 음성, 연령별 음색 등  
- **Timbre Reuse** 기능으로 생성된 음색을 저장·재사용 가능  
  - 다화자 대화나 장편 내레이션에 활용 가능  
  
### CustomVoice 및 음색 제어  
- 화자별 파인튜닝 후에도 **목표 음색 유지와 다국어 발화** 가능  
- 단일 속성 및 다중 속성 제어 모두 지원  
  - 예: 슬픔, 분노, 속삭임, 느린 말투 등 세밀한 감정 조절  
- **9가지 공개 음색 세트** 제공  
  - 중국어, 영어, 일본어, 한국어, 방언 포함  
  - 예: 苏瑶(Serena), 福伯(Uncle Fu), 十三(Vivian), 甜茶(Ryan), 素熙(Sohee) 등  
  
### Voice Clone 및 다국어 복제  
- 3초 음성 입력으로 **고속 음성 복제** 수행  
  - 중국어·영어 복제 외에도 **교차 언어 복제** 지원  
  - 예: 일본어, 한국어 등 다국어 발화 가능  
- **텍스트 노이즈 강건성** 확보  
  - 복잡한 기호, 병음, 특수문자 포함 문장도 정확히 발음  
  
### Tokenizer 기반 오디오 복원  
- **방언, 노래, 비언어음, 배경음** 등 다양한 음향 요소 복원 가능  
- 원본 대비 고충실도의 재구성 품질 입증

## Comments


### Comment 49811

- Author: sudosudo
- Created: 2026-01-24T00:14:57+09:00
- Points: 1

옹 노트북에서도 돌아가네요

### Comment 49751

- Author: xguru
- Created: 2026-01-23T13:15:15+09:00
- Points: 1

저도 요즘 로컬에서 Qwen 기반 모델을 정말 많이 쓰긴 합니다.  
처음엔 알리바바 모델이라 그런가 보다 했는데 지속적으로 개선하면서 확장하는게 놀랍네요.

### Comment 49737

- Author: neo
- Created: 2026-01-23T10:33:19+09:00
- Points: 1

###### [Hacker News 의견들](https://news.ycombinator.com/item?id=46719229) 
- macOS에서 **mlx-audio**를 이용해 실행해봤음. Prince Canuma의 [트윗](https://x.com/Prince_Canuma/status/2014453857019904423) 덕분에 가능했음  
  내가 사용한 스크립트는 [여기](https://github.com/simonw/tools/blob/main/python/q3_tts.py)에 있음  
  `uv`로 실행하면 처음에 4.5GB 모델을 다운로드함. 예시 명령어는 다음과 같음  
  `uv run https://tools.simonwillison.net/python/q3_tts.py 'I am a pirate, give me your gold!' -i 'gruff voice' -o pirate.wav`
  - 정말 멋짐. **uv**의 또 다른 승리임  

- 직접 **voice cloning**을 해보고 싶다면 [Hugging Face 데모](https://huggingface.co/spaces/Qwen/Qwen3-TTS)에서 가능함  
  "Voice Clone" 탭으로 가서 예시 텍스트를 붙여넣고 마이크로 자신의 음성을 녹음한 뒤, 다른 텍스트를 입력하면 자신의 목소리로 읽어주는 버전을 생성할 수 있음  
  내가 생성한 오디오 샘플은 [여기](https://simonwillison.net/2026/Jan/22/qwen3-tts/)에 공유했음
  - 솔직히 좀 **무섭게 느껴짐**. z-image-turbo와 함께라면 이제 화면 속 모든 것은 가짜일 수 있다고 가정해야 함. **암호학적 검증** 없이는 신뢰할 수 없는 시대에 들어섰음  
  - HF 데모가 과부하였지만 로컬에서는 잘 작동했음. 1.7B 모델은 화자의 **톤**을 잘 잡지만 **억양 변화**는 부족해서 단조롭게 들림. 아마 데모에서 **표현력 조절 기능**을 노출하지 않아서일 것 같음. 그래도 0.6B보다 **잡음 처리**는 훨씬 나았음. FlashAttention 없이 5090 GPU에서 0.3배속 정도로 느렸지만 품질은 인상적이었음  
  - 놀라운 기술임. 내 **복제된 목소리**가 정말 나처럼 들렸음. 좋은 용도도 나쁜 용도도 많을 것 같음 — 예를 들어 돌아가신 할머니가 손주에게 동화책을 읽어주는 것부터, 사기나 자동 팟캐스트 제작까지 가능함  
  - 게시한 녹음만으로는 **복제 성능**을 판단하기 어려움. 원래 목소리 샘플도 함께 있어야 함  
  - 재미있게 써봤음. 내 목소리 몇 분만 녹음해두면 언젠가 **내가 나에게 책을 읽어주는 오디오북**을 만들 수도 있을 것 같음  

- 흥미로운 모델임. 1080 GPU에서 0.6B 모델을 돌려봤는데, 200자 단위로는 OOM 없이 생성 가능했음. **도덕경 오디오북**을 만들어보려 했는데, 결과가 매번 달라서 마치 **마법의 룰렛** 같았음. 어떤 부분은 명확하고 어떤 부분은 웃거나 신음하는 식으로 감정이 들쭉날쭉했음. Ryan 화자가 가장 안정적이었고, Eric은 과장된 중국식 억양처럼 들렸음. 감정이 일정했다면 지금까지 써본 TTS 중 최고였을 것임  
  - 감정을 직접 지정해봤는지? 비워두면 **랜덤 감정(rng)** 으로 설정될 수도 있음  
  - 1080에서의 **RTF(실시간 비율)** 이 궁금함. 0.6B 모델이 엣지 디바이스에서 실시간 추론 가능한지 확인 중임  

- Qwen 팀에게 부탁하고 싶음 — **Opus 4.5**의 코딩 능력을 능가하는 모델을 내줬으면 함. 모델은 마음에 들지만, 그 회사의 **폐쇄적 리더십**과 정치적 분열성은 싫음  
  - 그들이 기다리던 코멘트일지도 모름  
  - 나도 같은 문제를 겪음 (덴마크인임). **Open Code**와 **Minimax m2.1**(월 10달러)로 테스트했는데 꽤 잘 작동했음. **GLM 4.7**도 훌륭함. 자세한 비교는 [이 글](https://dev.to/kilocode/open-weight-models-are-getting-serious-glm-47-vs-minimax-m21-42g7)에 있음. 굳이 싫어하는 회사에 돈을 보낼 필요는 없음  
  - “정치적으로 분열적”이라는 게 무슨 의미인지 궁금함  
  - **GLM 4.7**로 좋은 결과를 얻고 있음. 두 개의 max 계정을 24/7 돌리고 있고, 코드 리뷰는 Claude로 일부 처리함. 비용이 문제라면 GLM 4.7이 좋은 선택임  
  - 새로 나온 GLM 4.7을 시도해봤는지 묻고 싶음  

- 이런 기술이 **소름 돋을 정도로 발전**한 건 오랜만임. 2018년부터 AI TTS를 써왔지만, 이번 모델은 처음으로 **옛 라디오 드라마 복원**이 가능하다고 느꼈음. 예를 들어 테이프 손상으로 일부 대사가 사라진 부분을 문맥으로 복원할 수 있을 것 같음. Bob Bailey 같은 배우들의 수십 시간 분량 오디오를 다시 살릴 수 있을지도 모름  
  - 들은 샘플들이 **미야자키 스타일 애니 더빙**처럼 들렸음. 혹시 그런 데이터로 학습된 걸까 궁금함  
  - 나도 “Have Gun - Will Travel” 라디오 에피소드를 복원하는 프로젝트를 계획 중임. **테이프 손상**이나 **효과음 간섭**으로 알아듣기 힘든 부분을 복원할 수 있다면 정말 놀라운 일임. 물론 **악용 가능성**도 크지만  

- Mac에서 실행해본 사람 있는지 궁금함. 설치 가이드가 **NVIDIA GPU(CUDA, FlashAttention)** 를 전제로 되어 있어서, **PyTorch Metal/MPS** 백엔드에서 작동할지 모르겠음  
  - FlashAttention 없이 `--no-flash-attn` 옵션으로 실행 가능함. 나도 Windows에서 그렇게 함  
  - **modal**을 이용해 Metal 환경을 임대하는 걸 추천함  
  - FlashAttention 의존성이 있어서 현재로선 불가능함. 누군가 **Metal용 포팅**을 해주길 바람  

- 마지막 **Age Control 예시**는 “미국식 억양”으로 설정했는데, 내 귀엔 **호주인이 미국식 억양을 흉내내는** 것처럼 들렸음  

- 오디오북 제작에 정말 적합할 것 같음. 기존 AI TTS는 여전히 **자연스러움**이 부족했음  

- **성우 업계**는 이제 천천히 익어가는 중임. 일부 데모는 인디 성우보다 훨씬 **완성도 높은 음성**을 들려줬음  

- 언젠가 **내 할머니가 이걸로 사기당할까** 걱정됨  
  - 지금까지는 그게 **주요 사용 사례**처럼 보임  
  - 하지만 요즘 할머니들은 **QVC와 전화 점술사** 세대라서, 이제는 그런 일에 쉽게 속지 않을지도 모름