OpenVoice: 다재다능한 즉각적인 음성 복제 기술

(arxiv.org)

5P by GN⁺ 2024-01-02 | ★ favorite | 댓글 1개

OpenVoice: 다재다능한 즉각적인 음성 복제 기술

OpenVoice는 참조 음성의 짧은 오디오 클립만으로 해당 음성을 복제하고 다양한 언어로 음성을 생성할 수 있는 다재다능한 음성 복제 접근법임.
이 기술은 음성 스타일 제어의 유연성, 참조 음성의 톤 색깔 복제뿐만 아니라 감정, 억양, 리듬, 정지, 억양 등 음성 스타일에 대한 세밀한 조절이 가능함.
OpenVoice는 대규모 화자 훈련 데이터 세트에 포함되지 않은 언어에 대해서도 제로샷 크로스링귈 음성 복제를 달성함.

기술적 세부사항 및 연구 기여

OpenVoice는 상업적으로 사용 가능한 API보다 수십 배 더 효율적인 계산 비용을 자랑하며, 성능도 우수함.
연구 분야의 추가적인 발전을 위해 소스 코드와 훈련된 모델을 공개적으로 접근 가능하게 함.
데모 웹사이트에서 질적 결과를 제공하며, 공개 전 내부 버전은 2023년 5월부터 10월까지 전 세계 사용자들에 의해 수천만 번 사용됨.

GN⁺의 의견

OpenVoice는 음성 복제 기술에서 중요한 진보를 나타내며, 특히 다양한 언어와 스타일로 음성을 생성할 수 있는 능력은 매우 혁신적임.
이 기술은 교육, 엔터테인먼트, 개인화된 음성 서비스 등 다양한 분야에서 응용될 잠재력을 가지고 있음.
공개된 소스 코드와 모델은 음성 기술 연구를 가속화하는 데 기여할 것으로 기대됨.

GN⁺ 2024-01-02 [-]

Hacker News 의견

사용자는 이 프로젝트를 시도하기 쉽게 만든 저자들에게 칭찬을 보냄. 그러나 일반적인 목소리 복제에 대해서는 만족스럽지 못한 결과를 경험함. 위키피디아의 책에 관한 페이지 첫 단락을 읽고 다음 문장을 생성하게 했지만, 결과물이 컴퓨터가 생성한 것처럼 들림.
- 제공된 오디오 샘플과 복제된 목소리(mp3 변환) 링크를 참조함.
- 필요한 패키지를 pip으로 설치하고, 자신의 오디오 샘플을 사용해 "demo_part1.ipynb"를 실행함. 노트북에서 거의 즉시 실행됨.
사용자는 자신의 하드웨어에서 목소리 복제를 하고 싶을 때 사용할 수 있는 좋은 오픈 소스 프로젝트를 추천해달라고 요청함. 오픈 소스 목소리 복제의 최신 상태가 궁금함.
사용자는 이 기술(또는 Eleven Labs)을 사용하여 안드로이드 폰의 TTS에 플러그인할 수 있는 목소리 모델을 생성할 수 있는지 질문함.
- 사용자의 친구는 후두 마비로 인해 종종 휴대폰이나 작은 노트북으로 타이핑하여 의사소통을 함. 친구가 과거의 자신의 목소리 녹음을 사용하여 "자신의" 목소리를 어느 정도 되찾을 수 있다면 좋아할 것임.
사용자는 이 논문을 좋아함. "우리가 한 일과 다른 사람들이 그것을 할 수 있도록 돕고자 한다"는 느낌을 받음. 특히 "Remark on Novelty" 섹션을 긍정적으로 평가함: OpenVoice는 모델 구조의 하위 모듈을 발명하는 것이 아니라, 목소리 스타일과 언어 제어를 음색 복제로부터 분리하는 분리된 프레임워크를 제공하는 것이 기여점임.
GitHub 링크와 체크포인트(zip 파일) 링크를 제공함. 사용자는 아마존에서 호스팅되는 zip 파일에 대한 직접 링크에 알레르기가 있어서 체크포인트 링크를 수정하여 제공함.
제공된 예시 링크가 인상적이라고 평가함.
사용자는 YouTube가 이 기술의 사용을 금지하거나 적어도 이러한 비디오를 필터링할 수 있는 기능을 제공하기를 바람.
사용자는 영국의 주요 은행 중 하나에 전화했을 때, 은행이 여전히 "내 목소리가 내 비밀번호다"라는 프로그램에 등록하도록 권장하고 있음을 경험함. AI의 현재 발전 단계에서 이는 단순히 부주의한 것으로 느껴짐.
사용자는 목소리 복제의 부도덕하거나 범죄적인 사용이 합법적인 사용을 크게 초과한다고 생각하는 것이 첫 번째이자 지속적인 생각임.
오픈 소스 목소리 복제 분야의 현재 리더는 RVC이며, 이와 비교하여 어떻게 다른지 보고 싶어함.

답변달기

OpenVoice: 다재다능한 즉각적인 음성 복제 기술

OpenVoice: 다재다능한 즉각적인 음성 복제 기술

기술적 세부사항 및 연구 기여

GN⁺의 의견

함께 보면 좋은 글 β

댓글과 토론

Hacker News 의견