# Zonos - 고품질 오픈 가중치 음성 합성 모델

> Clean Markdown view of GeekNews topic #19224. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=19224](https://news.hada.io/topic?id=19224)
- GeekNews Markdown: [https://news.hada.io/topic/19224.md](https://news.hada.io/topic/19224.md)
- Type: news
- Author: [xguru](https://news.hada.io/@xguru)
- Published: 2025-02-14T10:23:01+09:00
- Updated: 2025-02-14T10:23:01+09:00
- Original source: [github.com/Zyphra](https://github.com/Zyphra/Zonos)
- Points: 24
- Comments: 2

## Summary

Zonos는 200,000시간 이상의 다국어 음성 데이터로 학습된 고품질 오픈 가중치 텍스트-음성 변환(TTS) 모델로, 상용 TTS 서비스와 동등하거나 뛰어난 음성 품질과 자연스러운 표현력을 제공합니다. 이 모델은 Zero-shot TTS 및 음성 클로닝 기능을 지원하며, 다양한 조절 기능을 통해 말하기 속도, 음높이, 음질 및 감정을 제어할 수 있습니다. 또한, RTX 4090에서 실시간의 약 2배 속도로 실행 가능하며, Gradio WebUI를 통해 간편한 웹 인터페이스를 제공합니다. 한국어가 없는게 너무 아쉽네요.

## Topic Body

- 200,000시간 이상의 다국어 음성 데이터로 학습된 Open Weight Text-To-Speech 모델  
- 상용 TTS 서비스와 "동등하거나 뛰어난 음성 품질" 및 "자연스러운 표현력 제공"  
- 44kHz 샘플링 속도로 고음질 음성 출력  
- 음성 클로닝 지원: 단 몇 초의 참조 음성으로 특정 화자의 스타일을 정밀하게 복제 가능  
- 다양한 조절 기능: 말하기 속도, 음높이, 음질 및 감정(기쁨, 두려움, 슬픔, 분노 등) 제어 가능  
  
### 주요 기능  
- Zero-shot TTS 및 음성 클로닝  
  - 텍스트와 10~30초 길이의 화자 샘플을 입력하면 즉시 고품질 음성 합성 가능  
- 오디오 프리픽스 입력 지원  
  - 텍스트와 함께 오디오 프리픽스를 추가하면 보다 정밀한 화자 매칭 가능  
  - 속삭이는 음성과 같은 특정 음성 스타일을 구현하는 데 효과적  
- 다국어 지원  
  - 영어, 일본어, 중국어, 프랑스어, 독일어 지원  
- 감정 및 음성 품질 제어  
  - 감정 조절: 기쁨, 분노, 슬픔, 두려움 등 표현 가능  
  - 세부 음성 조절: 속도, 음높이, 최대 주파수, 오디오 품질 조정 가능  
- 고속 성능  
  - RTX 4090에서 실시간의 약 2배 속도로 실행 가능  
- Gradio WebUI 지원  
  - 간편한 웹 인터페이스 제공으로 누구나 쉽게 음성 생성 가능  
- 간단한 설치 및 배포  
  - Docker를 이용해 손쉽게 설치 및 배포 가능

## Comments



### Comment 34572

- Author: mindok
- Created: 2025-02-14T15:49:12+09:00
- Points: 2

한국어가 없는 게 아쉽네요,,,

### Comment 34826

- Author: marantz
- Created: 2025-02-19T17:31:11+09:00
- Points: 1
- Parent comment: 34572
- Depth: 1

한국어도 잘 되긴 합니다. 약간 어색하긴 하지만요.
