MetaVoice-1B - 1.2B 파라미터 Text-To-Speech 모델

xguru · 2024-02-10T10:16:01+09:00

10만 시간의 음성으로 학습된 12억개 파라미터의 TTS(텍스트-음성-변환) 모델 감정적인 말하기 리듬과 어조(영어) 미세 조정을 통한 보이스 클로닝 지원(인도 스피커의 경우 1분 정도의 음성 데이터 만으로 성공했음) 미국/영국 음성에 대해서는 30초의 레퍼런스 오디오 만으로 Zero-Shot 클로닝 가능 긴 음성 합성 지원 아파치 2.0 라이센스로 제한없이 사용 가능

(github.com/metavoiceio)

12P by xguru 2024-02-10 | ★ favorite | 댓글과 토론

10만 시간의 음성으로 학습된 12억개 파라미터의 TTS(텍스트-음성-변환) 모델
감정적인 말하기 리듬과 어조(영어)
미세 조정을 통한 보이스 클로닝 지원(인도 스피커의 경우 1분 정도의 음성 데이터 만으로 성공했음)
미국/영국 음성에 대해서는 30초의 레퍼런스 오디오 만으로 Zero-Shot 클로닝 가능
긴 음성 합성 지원
아파치 2.0 라이센스로 제한없이 사용 가능

MetaVoice-1B - 1.2B 파라미터 Text-To-Speech 모델

함께 보면 좋은 글 β

댓글과 토론