Zonos - 고품질 오픈 가중치 음성 합성 모델

xguru · 2025-02-14T10:23:01+09:00

200,000시간 이상의 다국어 음성 데이터로 학습된 Open Weight Text-To-Speech 모델 상용 TTS 서비스와 "동등하거나 뛰어난 음성 품질" 및 "자연스러운 표현력 제공" 44kHz 샘플링 속도로 고음질 음성 출력 음성 클로닝 지원: 단 몇 초의 참조 음성으로 특정 화자의 스타일을 정밀하게 복제 가능 다양한 조절 기능: 말하기 속도, 음높이, 음질 및 감정(기쁨, 두려움, 슬픔, 분노 등) 제어 가능 주요 기능 Zero-shot TTS 및 음성 클로닝 텍스트와 10~30초 길이의 화자 샘플을 입력하면 즉시 고품질 음성 합성 가능 오디오 프리픽스 입력 지원 텍스트와 함께 오디오 프리픽스를 추가하면 보다 정밀한 화자 매칭 가능 속삭이는 음성과 같은 특정 음성 스타일을 구현하는 데 효과적 다국어 지원 영어, 일본어, 중국어, 프랑스어, 독일어 지원 감정 및 음성 품질 제어 감정 조절: 기쁨, 분노, 슬픔, 두려움 등 표현 가능 세부 음성 조절: 속도, 음높이, 최대 주파수, 오디오 품질 조정 가능 고속 성능 RTX 4090에서 실시간의 약 2배 속도로 실행 가능 Gradio WebUI 지원 간편한 웹 인터페이스 제공으로 누구나 쉽게 음성 생성 가능 간단한 설치 및 배포 Docker를 이용해 손쉽게 설치 및 배포 가능

(github.com/Zyphra)

24P by xguru 2025-02-14 | ★ favorite | 댓글 2개

200,000시간 이상의 다국어 음성 데이터로 학습된 Open Weight Text-To-Speech 모델
상용 TTS 서비스와 "동등하거나 뛰어난 음성 품질" 및 "자연스러운 표현력 제공"
44kHz 샘플링 속도로 고음질 음성 출력
음성 클로닝 지원: 단 몇 초의 참조 음성으로 특정 화자의 스타일을 정밀하게 복제 가능
다양한 조절 기능: 말하기 속도, 음높이, 음질 및 감정(기쁨, 두려움, 슬픔, 분노 등) 제어 가능

주요 기능

Zero-shot TTS 및 음성 클로닝
- 텍스트와 10~30초 길이의 화자 샘플을 입력하면 즉시 고품질 음성 합성 가능
오디오 프리픽스 입력 지원
- 텍스트와 함께 오디오 프리픽스를 추가하면 보다 정밀한 화자 매칭 가능
- 속삭이는 음성과 같은 특정 음성 스타일을 구현하는 데 효과적
다국어 지원
- 영어, 일본어, 중국어, 프랑스어, 독일어 지원
감정 및 음성 품질 제어
- 감정 조절: 기쁨, 분노, 슬픔, 두려움 등 표현 가능
- 세부 음성 조절: 속도, 음높이, 최대 주파수, 오디오 품질 조정 가능
고속 성능
- RTX 4090에서 실시간의 약 2배 속도로 실행 가능
Gradio WebUI 지원
- 간편한 웹 인터페이스 제공으로 누구나 쉽게 음성 생성 가능
간단한 설치 및 배포
- Docker를 이용해 손쉽게 설치 및 배포 가능