MetaVoice-1B - 1.2B 파라미터 Text-To-Speech 모델
(github.com/metavoiceio)- 10만 시간의 음성으로 학습된 12억개 파라미터의 TTS(텍스트-음성-변환) 모델
- 감정적인 말하기 리듬과 어조(영어)
- 미세 조정을 통한 보이스 클로닝 지원(인도 스피커의 경우 1분 정도의 음성 데이터 만으로 성공했음)
- 미국/영국 음성에 대해서는 30초의 레퍼런스 오디오 만으로 Zero-Shot 클로닝 가능
- 긴 음성 합성 지원
- 아파치 2.0 라이센스로 제한없이 사용 가능