- 200,000시간 이상의 다국어 음성 데이터로 학습된 Open Weight Text-To-Speech 모델
- 상용 TTS 서비스와 "동등하거나 뛰어난 음성 품질" 및 "자연스러운 표현력 제공"
- 44kHz 샘플링 속도로 고음질 음성 출력
- 음성 클로닝 지원: 단 몇 초의 참조 음성으로 특정 화자의 스타일을 정밀하게 복제 가능
- 다양한 조절 기능: 말하기 속도, 음높이, 음질 및 감정(기쁨, 두려움, 슬픔, 분노 등) 제어 가능
주요 기능
- Zero-shot TTS 및 음성 클로닝
- 텍스트와 10~30초 길이의 화자 샘플을 입력하면 즉시 고품질 음성 합성 가능
- 오디오 프리픽스 입력 지원
- 텍스트와 함께 오디오 프리픽스를 추가하면 보다 정밀한 화자 매칭 가능
- 속삭이는 음성과 같은 특정 음성 스타일을 구현하는 데 효과적
- 다국어 지원
- 영어, 일본어, 중국어, 프랑스어, 독일어 지원
- 감정 및 음성 품질 제어
- 감정 조절: 기쁨, 분노, 슬픔, 두려움 등 표현 가능
- 세부 음성 조절: 속도, 음높이, 최대 주파수, 오디오 품질 조정 가능
- 고속 성능
- RTX 4090에서 실시간의 약 2배 속도로 실행 가능
- Gradio WebUI 지원
- 간편한 웹 인터페이스 제공으로 누구나 쉽게 음성 생성 가능
- 간단한 설치 및 배포
- Docker를 이용해 손쉽게 설치 및 배포 가능