12P by xguru 3달전 | favorite | 댓글과 토론
  • 10만 시간의 음성으로 학습된 12억개 파라미터의 TTS(텍스트-음성-변환) 모델
  • 감정적인 말하기 리듬과 어조(영어)
  • 미세 조정을 통한 보이스 클로닝 지원(인도 스피커의 경우 1분 정도의 음성 데이터 만으로 성공했음)
  • 미국/영국 음성에 대해서는 30초의 레퍼런스 오디오 만으로 Zero-Shot 클로닝 가능
  • 긴 음성 합성 지원
  • 아파치 2.0 라이센스로 제한없이 사용 가능