13P by neo 1달전 | favorite | 댓글 1개
  • 참조하는 화자의 짧은 오디오 클립만으로 그들의 목소리를 복제하고 여러 언어로 음성을 생성할 수 있는 다목적 즉각적 음성 복제 방법
  • 목소리 스타일에 대한 세밀한 조절이 가능하며, 감정, 억양, 리듬, 정지, 억양뿐만 아니라 참조 화자의 음색도 복제할 수 있음
  • 대규모 화자 훈련 세트에 포함되지 않은 언어에 대해서도 제로샷(zero-shot) 교차 언어 음성 복제 가능
  • 상업적으로 사용 가능한 API보다 수십 배 더 적은 계산 비용으로 우수한 성능을 제공
  • 참조 음색을 정확하게 복제하고 다양한 언어 및 억양으로 음성을 생성할 수 있음
  • 감정과 억양뿐만 아니라 리듬, 정지, 억양과 같은 다른 스타일 매개변수에 대한 세밀한 제어를 가능하게 함

Hacker News 의견

  • 한 해커뉴스 사용자는 자신의 경험을 공유하며, OpenVoice의 Gradio 데모를 로컬에서 실행하는 방법을 설명함. 이 사용자는 RTX 3090을 사용하여 XTTS2보다 빠른 속도로 음성을 생성하고, VRAM을 약 1.5GB 사용했다고 언급함. 데모는 자원 사용을 고려하여 200자로 제한되어 있지만, 실시간의 8배 속도로 작동한다고 함. 또한, 데모를 수정하여 더 긴 텍스트에 대해 테스트했을 때, 1분 분량의 음성을 약 4초 만에 렌더링했다고 함. 음성의 명료성은 XTTS2보다 좋지만, 약간 어색하고 로봇 같은 느낌이 있다고 평가함.

  • 다른 사용자는 음성 복제 기술의 윤리적인 사용 사례에 대해 의문을 제기함. 이 사용자는 포르노, 신분 도용, 사칭, 성우 대체, 성우의 목소리 도용, 고객 지원에서 봇 사용을 숨기는 것 등 부정적인 사용 사례들을 언급함. 그러나 목소리를 잃은 사람들에게 실제 목소리를 제공하는 것과 같은 긍정적인 사용 사례도 있을 수 있지만, 이러한 시장이 투자를 정당화하기에는 충분하지 않다고 주장함.

  • OpenVoice가 Huggingface TTS 경연 리더보드에서 두 번째로 낮은 순위에 있다는 정보를 공유한 사용자가 있음. 이 사용자는 styletts2와 xtts2와 같은 대안들이 OpenVoice보다 훨씬 높은 순위에 있다고 언급함.

  • 일론 머스크의 목소리를 모방하는 것이 품질의 증거로 사용되는 것에 대해 의아해하는 사용자가 있음. 실제로 머스크의 목소리가 어색하고 끊어지는 경향이 있기 때문에, 더 나은 목소리를 모방할 수 있다고 주장함.

  • Voicecraft가 그들의 모델 가중치를 공개했다는 소식을 전한 사용자가 있음.

  • 사이트에서 제공하는 클립과 비교하여 로컬에서 유사한 품질의 음성 복제를 달성하지 못했다고 언급하는 사용자가 있음. 잘못된 점이 있을 수도 있다고 추측함.

  • GitHub에서 로컬에서 실행 가능하다는 것을 확인한 사용자가 있으며, 품질이 좋다고 평가함.

  • 음성을 IPA와 유사한 표현으로 인코딩하고, 해당 표현을 대상 언어로 디코딩하는 과정에 대해 설명하는 사용자가 있음. 또한, '음색'을 추출하고 IPA와 유사한 표현에서 제거한 후, 대상 계층에 다시 추가하는 과정을 언급함. 이를 통해, 사용자는 자신의 목소리가 다른 언어로 유사한 음색을 가지고 말하는 것을 들을 수 있다고 함. 사용자는 자신이 중국어를 유창하게 배우게 된다면, 그 결과가 얼마나 비슷할지, 그리고 다른 언어로 음색을 번역하는 '음색 번역기'가 필요한지 궁금해함.

  • 다중 녹음에서 화자를 식별하여 화자 구분을 할 수 있는 '반대' 모델에 대해 알고 있는지 묻는 사용자가 있음.

  • 음성 복제 도구들이 모두 'vocal fry'라는 특징을 가지고 있으며, 이는 음성의 미묘한 부분을 정확하게 매치하지 못하는 '불가사의한 계곡'과 같다고 평가하는 사용자가 있음. 이 사용자는 이러한 도구들이 Microsoft Sam과 유사한 숨소리를 완전히 벗어나지 못한다고 설명함.