23P by xguru 11일전 | ★ favorite | 댓글 2개
  • 200,000시간 이상의 다국어 음성 데이터로 학습된 Open Weight Text-To-Speech 모델
  • 상용 TTS 서비스와 "동등하거나 뛰어난 음성 품질" 및 "자연스러운 표현력 제공"
  • 44kHz 샘플링 속도로 고음질 음성 출력
  • 음성 클로닝 지원: 단 몇 초의 참조 음성으로 특정 화자의 스타일을 정밀하게 복제 가능
  • 다양한 조절 기능: 말하기 속도, 음높이, 음질 및 감정(기쁨, 두려움, 슬픔, 분노 등) 제어 가능

주요 기능

  • Zero-shot TTS 및 음성 클로닝
    • 텍스트와 10~30초 길이의 화자 샘플을 입력하면 즉시 고품질 음성 합성 가능
  • 오디오 프리픽스 입력 지원
    • 텍스트와 함께 오디오 프리픽스를 추가하면 보다 정밀한 화자 매칭 가능
    • 속삭이는 음성과 같은 특정 음성 스타일을 구현하는 데 효과적
  • 다국어 지원
    • 영어, 일본어, 중국어, 프랑스어, 독일어 지원
  • 감정 및 음성 품질 제어
    • 감정 조절: 기쁨, 분노, 슬픔, 두려움 등 표현 가능
    • 세부 음성 조절: 속도, 음높이, 최대 주파수, 오디오 품질 조정 가능
  • 고속 성능
    • RTX 4090에서 실시간의 약 2배 속도로 실행 가능
  • Gradio WebUI 지원
    • 간편한 웹 인터페이스 제공으로 누구나 쉽게 음성 생성 가능
  • 간단한 설치 및 배포
    • Docker를 이용해 손쉽게 설치 및 배포 가능

한국어가 없는 게 아쉽네요,,,

한국어도 잘 되긴 합니다. 약간 어색하긴 하지만요.