# OpenVoice: 다재다능한 즉각적인 음성 복제 기술

> Clean Markdown view of GeekNews topic #12650. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=12650](https://news.hada.io/topic?id=12650)
- GeekNews Markdown: [https://news.hada.io/topic/12650.md](https://news.hada.io/topic/12650.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2024-01-02T11:36:09+09:00
- Updated: 2024-01-02T11:36:09+09:00
- Original source: [arxiv.org](https://arxiv.org/abs/2312.01479)
- Points: 5
- Comments: 1

## Topic Body

### OpenVoice: 다재다능한 즉각적인 음성 복제 기술

- OpenVoice는 참조 음성의 짧은 오디오 클립만으로 해당 음성을 복제하고 다양한 언어로 음성을 생성할 수 있는 다재다능한 음성 복제 접근법임.
- 이 기술은 음성 스타일 제어의 유연성, 참조 음성의 톤 색깔 복제뿐만 아니라 감정, 억양, 리듬, 정지, 억양 등 음성 스타일에 대한 세밀한 조절이 가능함.
- OpenVoice는 대규모 화자 훈련 데이터 세트에 포함되지 않은 언어에 대해서도 제로샷 크로스링귈 음성 복제를 달성함.

### 기술적 세부사항 및 연구 기여

- OpenVoice는 상업적으로 사용 가능한 API보다 수십 배 더 효율적인 계산 비용을 자랑하며, 성능도 우수함.
- 연구 분야의 추가적인 발전을 위해 소스 코드와 훈련된 모델을 공개적으로 접근 가능하게 함.
- 데모 웹사이트에서 질적 결과를 제공하며, 공개 전 내부 버전은 2023년 5월부터 10월까지 전 세계 사용자들에 의해 수천만 번 사용됨.

### GN⁺의 의견

- OpenVoice는 음성 복제 기술에서 중요한 진보를 나타내며, 특히 다양한 언어와 스타일로 음성을 생성할 수 있는 능력은 매우 혁신적임.
- 이 기술은 교육, 엔터테인먼트, 개인화된 음성 서비스 등 다양한 분야에서 응용될 잠재력을 가지고 있음.
- 공개된 소스 코드와 모델은 음성 기술 연구를 가속화하는 데 기여할 것으로 기대됨.

## Comments


### Comment 21890

- Author: neo
- Created: 2024-01-02T11:36:09+09:00
- Points: 1

###### [Hacker News 의견](https://news.ycombinator.com/item?id=38832317) 
- 사용자는 이 프로젝트를 시도하기 쉽게 만든 저자들에게 칭찬을 보냄. 그러나 일반적인 목소리 복제에 대해서는 만족스럽지 못한 결과를 경험함. 위키피디아의 책에 관한 페이지 첫 단락을 읽고 다음 문장을 생성하게 했지만, 결과물이 컴퓨터가 생성한 것처럼 들림.
  - 제공된 오디오 샘플과 복제된 목소리(mp3 변환) 링크를 참조함.
  - 필요한 패키지를 pip으로 설치하고, 자신의 오디오 샘플을 사용해 "demo_part1.ipynb"를 실행함. 노트북에서 거의 즉시 실행됨.

- 사용자는 자신의 하드웨어에서 목소리 복제를 하고 싶을 때 사용할 수 있는 좋은 오픈 소스 프로젝트를 추천해달라고 요청함. 오픈 소스 목소리 복제의 최신 상태가 궁금함.

- 사용자는 이 기술(또는 Eleven Labs)을 사용하여 안드로이드 폰의 TTS에 플러그인할 수 있는 목소리 모델을 생성할 수 있는지 질문함.
  - 사용자의 친구는 후두 마비로 인해 종종 휴대폰이나 작은 노트북으로 타이핑하여 의사소통을 함. 친구가 과거의 자신의 목소리 녹음을 사용하여 "자신의" 목소리를 어느 정도 되찾을 수 있다면 좋아할 것임.

- 사용자는 이 논문을 좋아함. "우리가 한 일과 다른 사람들이 그것을 할 수 있도록 돕고자 한다"는 느낌을 받음. 특히 "Remark on Novelty" 섹션을 긍정적으로 평가함: OpenVoice는 모델 구조의 하위 모듈을 발명하는 것이 아니라, 목소리 스타일과 언어 제어를 음색 복제로부터 분리하는 분리된 프레임워크를 제공하는 것이 기여점임.

- GitHub 링크와 체크포인트(zip 파일) 링크를 제공함. 사용자는 아마존에서 호스팅되는 zip 파일에 대한 직접 링크에 알레르기가 있어서 체크포인트 링크를 수정하여 제공함.

- 제공된 예시 링크가 인상적이라고 평가함.

- 사용자는 YouTube가 이 기술의 사용을 금지하거나 적어도 이러한 비디오를 필터링할 수 있는 기능을 제공하기를 바람.

- 사용자는 영국의 주요 은행 중 하나에 전화했을 때, 은행이 여전히 "내 목소리가 내 비밀번호다"라는 프로그램에 등록하도록 권장하고 있음을 경험함. AI의 현재 발전 단계에서 이는 단순히 부주의한 것으로 느껴짐.

- 사용자는 목소리 복제의 부도덕하거나 범죄적인 사용이 합법적인 사용을 크게 초과한다고 생각하는 것이 첫 번째이자 지속적인 생각임.

- 오픈 소스 목소리 복제 분야의 현재 리더는 RVC이며, 이와 비교하여 어떻게 다른지 보고 싶어함.