16P by GN⁺ 17시간전 | ★ favorite | 댓글 3개
  • Qwen3-TTS는 음성 복제, 음성 디자인, 초고품질 인간형 음성 생성, 자연어 기반 제어를 지원하는 다국어 음성 생성 모델 시리즈
  • 중국어,영어,일본어,한국어 등 10개 주요 언어 및 다양한 방언을 지원하며, 1.7B와 0.6B 두 가지 모델 크기로 제공
  • 자체 개발한 Qwen3-TTS-Tokenizer-12Hz 인코더를 통해 음성 신호를 효율적으로 압축하고, 비언어적 정보와 음향 환경을 완전 보존
  • Dual-Track 스트리밍 구조로 문자 1개 입력 후 첫 오디오 패킷을 즉시 출력하며, 97ms 지연의 실시간 합성 성능을 달성
  • 오픈소스 공개로 개발자와 기업이 고품질 음성 생성 기술을 직접 활용할 수 있음

Qwen3-TTS 개요

  • Qwen3-TTS는 Qwen이 개발한 고성능 음성 생성 모델 시리즈로, 음성 디자인·복제·생성·제어 기능을 통합 제공
    • 자연어 명령으로 음색, 감정, 억양 등을 제어 가능
    • Qwen API 및 GitHub를 통해 접근 가능
  • Qwen3-TTS-Tokenizer-12Hz 다중 코드북 인코더를 기반으로, 고속·고충실도의 음성 복원과 효율적 압축을 구현
  • Dual-Track 양방향 스트리밍으로 문자 단위 실시간 음성 출력 지원

모델 구성

  • 전체 모델은 1.7B0.6B 두 가지 크기로 제공
    • 1.7B: 최고 성능과 정밀 제어 기능 제공
    • 0.6B: 성능과 효율의 균형형
  • 두 모델 모두 중국어, 영어, 일본어, 한국어, 독일어, 프랑스어, 러시아어, 포르투갈어, 스페인어, 이탈리아어 지원
  • 3초 음성 입력으로 빠른 음성 클론 가능, 파인튜닝(FT)에도 활용 가능

주요 기술 특징

  • 고성능 음성 표현력
    • Qwen3-TTS-Tokenizer-12Hz로 음향 신호의 고차원 의미 모델링 및 압축 수행
    • 비언어적 정보와 환경음 보존, 경량 non-DiT 구조로 고속 복원 지원
  • 엔드투엔드 다중 코드북 구조
    • 기존 LM+DiT 방식의 정보 병목과 오류 누적 문제 제거
    • 모델 범용성, 생성 효율, 성능 한계치 향상
  • 초저지연 스트리밍 합성
    • Dual-Track 하이브리드 구조로 스트리밍·비스트리밍 동시 지원
    • 문자 1개 입력 후 첫 오디오 출력, 97ms 지연 달성
  • 지능형 텍스트 이해 및 음성 제어
    • 자연어 명령 기반으로 음색, 감정, 운율 등 다차원 속성 제어
    • 텍스트 의미에 따라 자동으로 톤과 리듬 조정

모델 성능 평가

  • 음성 디자인: InstructTTS-Eval 벤치마크에서 MiniMax-Voice-Design보다 높은 지시 수행력과 표현력 달성
  • 음성 제어: 단일 화자 다국어 일반화에서 WER 2.34% , 스타일 제어 점수 75.4% 기록
    • 10분 연속 합성에서도 중국어 WER 2.36%, 영어 2.81% 유지
  • 음성 복제: Seed-tts-eval에서 MiniMax, SeedTTS보다 안정적
    • 10개 언어 평균 WER 1.835%, 화자 유사도 0.789, CosyVoice3 초과 성능

Tokenizer 성능

  • LibriSpeech test-clean 세트 기준 SOTA 달성
    • PESQ: 광대역 3.21, 협대역 3.68
    • STOI: 0.96, UTMOS: 4.16
    • 화자 유사도 0.95로 거의 무손실 수준의 화자 정보 보존

음성 디자인 및 샘플

  • 자연어 설명을 기반으로 사용자 정의 음색 생성 가능
    • 성별, 나이, 감정, 억양 등 세밀한 속성 제어
    • 예시: 명령형 남성 음성, 감정적 여성 음성, 연령별 음색 등
  • Timbre Reuse 기능으로 생성된 음색을 저장·재사용 가능
    • 다화자 대화나 장편 내레이션에 활용 가능

CustomVoice 및 음색 제어

  • 화자별 파인튜닝 후에도 목표 음색 유지와 다국어 발화 가능
  • 단일 속성 및 다중 속성 제어 모두 지원
    • 예: 슬픔, 분노, 속삭임, 느린 말투 등 세밀한 감정 조절
  • 9가지 공개 음색 세트 제공
    • 중국어, 영어, 일본어, 한국어, 방언 포함
    • 예: 苏瑶(Serena), 福伯(Uncle Fu), 十三(Vivian), 甜茶(Ryan), 素熙(Sohee) 등

Voice Clone 및 다국어 복제

  • 3초 음성 입력으로 고속 음성 복제 수행
    • 중국어·영어 복제 외에도 교차 언어 복제 지원
    • 예: 일본어, 한국어 등 다국어 발화 가능
  • 텍스트 노이즈 강건성 확보
    • 복잡한 기호, 병음, 특수문자 포함 문장도 정확히 발음

Tokenizer 기반 오디오 복원

  • 방언, 노래, 비언어음, 배경음 등 다양한 음향 요소 복원 가능
  • 원본 대비 고충실도의 재구성 품질 입증

옹 노트북에서도 돌아가네요

저도 요즘 로컬에서 Qwen 기반 모델을 정말 많이 쓰긴 합니다.
처음엔 알리바바 모델이라 그런가 보다 했는데 지속적으로 개선하면서 확장하는게 놀랍네요.

Hacker News 의견들
  • macOS에서 mlx-audio를 이용해 실행해봤음. Prince Canuma의 트윗 덕분에 가능했음
    내가 사용한 스크립트는 여기에 있음
    uv로 실행하면 처음에 4.5GB 모델을 다운로드함. 예시 명령어는 다음과 같음
    uv run https://tools.simonwillison.net/python/q3_tts.py 'I am a pirate, give me your gold!' -i 'gruff voice' -o pirate.wav

    • 정말 멋짐. uv의 또 다른 승리임
  • 직접 voice cloning을 해보고 싶다면 Hugging Face 데모에서 가능함
    "Voice Clone" 탭으로 가서 예시 텍스트를 붙여넣고 마이크로 자신의 음성을 녹음한 뒤, 다른 텍스트를 입력하면 자신의 목소리로 읽어주는 버전을 생성할 수 있음
    내가 생성한 오디오 샘플은 여기에 공유했음

    • 솔직히 좀 무섭게 느껴짐. z-image-turbo와 함께라면 이제 화면 속 모든 것은 가짜일 수 있다고 가정해야 함. 암호학적 검증 없이는 신뢰할 수 없는 시대에 들어섰음
    • HF 데모가 과부하였지만 로컬에서는 잘 작동했음. 1.7B 모델은 화자의 을 잘 잡지만 억양 변화는 부족해서 단조롭게 들림. 아마 데모에서 표현력 조절 기능을 노출하지 않아서일 것 같음. 그래도 0.6B보다 잡음 처리는 훨씬 나았음. FlashAttention 없이 5090 GPU에서 0.3배속 정도로 느렸지만 품질은 인상적이었음
    • 놀라운 기술임. 내 복제된 목소리가 정말 나처럼 들렸음. 좋은 용도도 나쁜 용도도 많을 것 같음 — 예를 들어 돌아가신 할머니가 손주에게 동화책을 읽어주는 것부터, 사기나 자동 팟캐스트 제작까지 가능함
    • 게시한 녹음만으로는 복제 성능을 판단하기 어려움. 원래 목소리 샘플도 함께 있어야 함
    • 재미있게 써봤음. 내 목소리 몇 분만 녹음해두면 언젠가 내가 나에게 책을 읽어주는 오디오북을 만들 수도 있을 것 같음
  • 흥미로운 모델임. 1080 GPU에서 0.6B 모델을 돌려봤는데, 200자 단위로는 OOM 없이 생성 가능했음. 도덕경 오디오북을 만들어보려 했는데, 결과가 매번 달라서 마치 마법의 룰렛 같았음. 어떤 부분은 명확하고 어떤 부분은 웃거나 신음하는 식으로 감정이 들쭉날쭉했음. Ryan 화자가 가장 안정적이었고, Eric은 과장된 중국식 억양처럼 들렸음. 감정이 일정했다면 지금까지 써본 TTS 중 최고였을 것임

    • 감정을 직접 지정해봤는지? 비워두면 랜덤 감정(rng) 으로 설정될 수도 있음
    • 1080에서의 RTF(실시간 비율) 이 궁금함. 0.6B 모델이 엣지 디바이스에서 실시간 추론 가능한지 확인 중임
  • Qwen 팀에게 부탁하고 싶음 — Opus 4.5의 코딩 능력을 능가하는 모델을 내줬으면 함. 모델은 마음에 들지만, 그 회사의 폐쇄적 리더십과 정치적 분열성은 싫음

    • 그들이 기다리던 코멘트일지도 모름
    • 나도 같은 문제를 겪음 (덴마크인임). Open CodeMinimax m2.1(월 10달러)로 테스트했는데 꽤 잘 작동했음. GLM 4.7도 훌륭함. 자세한 비교는 이 글에 있음. 굳이 싫어하는 회사에 돈을 보낼 필요는 없음
    • “정치적으로 분열적”이라는 게 무슨 의미인지 궁금함
    • GLM 4.7로 좋은 결과를 얻고 있음. 두 개의 max 계정을 24/7 돌리고 있고, 코드 리뷰는 Claude로 일부 처리함. 비용이 문제라면 GLM 4.7이 좋은 선택임
    • 새로 나온 GLM 4.7을 시도해봤는지 묻고 싶음
  • 이런 기술이 소름 돋을 정도로 발전한 건 오랜만임. 2018년부터 AI TTS를 써왔지만, 이번 모델은 처음으로 옛 라디오 드라마 복원이 가능하다고 느꼈음. 예를 들어 테이프 손상으로 일부 대사가 사라진 부분을 문맥으로 복원할 수 있을 것 같음. Bob Bailey 같은 배우들의 수십 시간 분량 오디오를 다시 살릴 수 있을지도 모름

    • 들은 샘플들이 미야자키 스타일 애니 더빙처럼 들렸음. 혹시 그런 데이터로 학습된 걸까 궁금함
    • 나도 “Have Gun - Will Travel” 라디오 에피소드를 복원하는 프로젝트를 계획 중임. 테이프 손상이나 효과음 간섭으로 알아듣기 힘든 부분을 복원할 수 있다면 정말 놀라운 일임. 물론 악용 가능성도 크지만
  • Mac에서 실행해본 사람 있는지 궁금함. 설치 가이드가 NVIDIA GPU(CUDA, FlashAttention) 를 전제로 되어 있어서, PyTorch Metal/MPS 백엔드에서 작동할지 모르겠음

    • FlashAttention 없이 --no-flash-attn 옵션으로 실행 가능함. 나도 Windows에서 그렇게 함
    • modal을 이용해 Metal 환경을 임대하는 걸 추천함
    • FlashAttention 의존성이 있어서 현재로선 불가능함. 누군가 Metal용 포팅을 해주길 바람
  • 마지막 Age Control 예시는 “미국식 억양”으로 설정했는데, 내 귀엔 호주인이 미국식 억양을 흉내내는 것처럼 들렸음

  • 오디오북 제작에 정말 적합할 것 같음. 기존 AI TTS는 여전히 자연스러움이 부족했음

  • 성우 업계는 이제 천천히 익어가는 중임. 일부 데모는 인디 성우보다 훨씬 완성도 높은 음성을 들려줬음

  • 언젠가 내 할머니가 이걸로 사기당할까 걱정됨

    • 지금까지는 그게 주요 사용 사례처럼 보임
    • 하지만 요즘 할머니들은 QVC와 전화 점술사 세대라서, 이제는 그런 일에 쉽게 속지 않을지도 모름