GN⁺: OpenVoice: 다재다능한 즉각적인 음성 복제 기술
(arxiv.org)OpenVoice: 다재다능한 즉각적인 음성 복제 기술
- OpenVoice는 참조 음성의 짧은 오디오 클립만으로 해당 음성을 복제하고 다양한 언어로 음성을 생성할 수 있는 다재다능한 음성 복제 접근법임.
- 이 기술은 음성 스타일 제어의 유연성, 참조 음성의 톤 색깔 복제뿐만 아니라 감정, 억양, 리듬, 정지, 억양 등 음성 스타일에 대한 세밀한 조절이 가능함.
- OpenVoice는 대규모 화자 훈련 데이터 세트에 포함되지 않은 언어에 대해서도 제로샷 크로스링귈 음성 복제를 달성함.
기술적 세부사항 및 연구 기여
- OpenVoice는 상업적으로 사용 가능한 API보다 수십 배 더 효율적인 계산 비용을 자랑하며, 성능도 우수함.
- 연구 분야의 추가적인 발전을 위해 소스 코드와 훈련된 모델을 공개적으로 접근 가능하게 함.
- 데모 웹사이트에서 질적 결과를 제공하며, 공개 전 내부 버전은 2023년 5월부터 10월까지 전 세계 사용자들에 의해 수천만 번 사용됨.
GN⁺의 의견
- OpenVoice는 음성 복제 기술에서 중요한 진보를 나타내며, 특히 다양한 언어와 스타일로 음성을 생성할 수 있는 능력은 매우 혁신적임.
- 이 기술은 교육, 엔터테인먼트, 개인화된 음성 서비스 등 다양한 분야에서 응용될 잠재력을 가지고 있음.
- 공개된 소스 코드와 모델은 음성 기술 연구를 가속화하는 데 기여할 것으로 기대됨.
Hacker News 의견
-
사용자는 이 프로젝트를 시도하기 쉽게 만든 저자들에게 칭찬을 보냄. 그러나 일반적인 목소리 복제에 대해서는 만족스럽지 못한 결과를 경험함. 위키피디아의 책에 관한 페이지 첫 단락을 읽고 다음 문장을 생성하게 했지만, 결과물이 컴퓨터가 생성한 것처럼 들림.
- 제공된 오디오 샘플과 복제된 목소리(mp3 변환) 링크를 참조함.
- 필요한 패키지를 pip으로 설치하고, 자신의 오디오 샘플을 사용해 "demo_part1.ipynb"를 실행함. 노트북에서 거의 즉시 실행됨.
-
사용자는 자신의 하드웨어에서 목소리 복제를 하고 싶을 때 사용할 수 있는 좋은 오픈 소스 프로젝트를 추천해달라고 요청함. 오픈 소스 목소리 복제의 최신 상태가 궁금함.
-
사용자는 이 기술(또는 Eleven Labs)을 사용하여 안드로이드 폰의 TTS에 플러그인할 수 있는 목소리 모델을 생성할 수 있는지 질문함.
- 사용자의 친구는 후두 마비로 인해 종종 휴대폰이나 작은 노트북으로 타이핑하여 의사소통을 함. 친구가 과거의 자신의 목소리 녹음을 사용하여 "자신의" 목소리를 어느 정도 되찾을 수 있다면 좋아할 것임.
-
사용자는 이 논문을 좋아함. "우리가 한 일과 다른 사람들이 그것을 할 수 있도록 돕고자 한다"는 느낌을 받음. 특히 "Remark on Novelty" 섹션을 긍정적으로 평가함: OpenVoice는 모델 구조의 하위 모듈을 발명하는 것이 아니라, 목소리 스타일과 언어 제어를 음색 복제로부터 분리하는 분리된 프레임워크를 제공하는 것이 기여점임.
-
GitHub 링크와 체크포인트(zip 파일) 링크를 제공함. 사용자는 아마존에서 호스팅되는 zip 파일에 대한 직접 링크에 알레르기가 있어서 체크포인트 링크를 수정하여 제공함.
-
제공된 예시 링크가 인상적이라고 평가함.
-
사용자는 YouTube가 이 기술의 사용을 금지하거나 적어도 이러한 비디오를 필터링할 수 있는 기능을 제공하기를 바람.
-
사용자는 영국의 주요 은행 중 하나에 전화했을 때, 은행이 여전히 "내 목소리가 내 비밀번호다"라는 프로그램에 등록하도록 권장하고 있음을 경험함. AI의 현재 발전 단계에서 이는 단순히 부주의한 것으로 느껴짐.
-
사용자는 목소리 복제의 부도덕하거나 범죄적인 사용이 합법적인 사용을 크게 초과한다고 생각하는 것이 첫 번째이자 지속적인 생각임.
-
오픈 소스 목소리 복제 분야의 현재 리더는 RVC이며, 이와 비교하여 어떻게 다른지 보고 싶어함.