GN⁺: OpenVoice: 즉각적인 음성 복제 기술

(github.com/myshell-ai)

5P by neo 19일전 | favorite | 댓글 1개

OpenVoice V1 소개

OpenVoice의 장점은 다음과 같음:
- 정확한 음색 복제: OpenVoice는 참조 음색을 정확하게 복제하고 여러 언어와 억양으로 음성을 생성할 수 있음.
- 유연한 음성 스타일 제어: OpenVoice는 감정과 억양 같은 음성 스타일과 리듬, 휴지, 억양 등 다른 스타일 파라미터를 세부적으로 제어할 수 있음.
- Zero-shot 다국어 음성 복제: 생성된 음성의 언어와 참조 음성의 언어 모두 대규모 화자 다국어 학습 데이터셋에 제시될 필요가 없음.

OpenVoice V2 소개

2024년 4월 OpenVoice V2가 출시되었으며, V1의 모든 기능을 포함하고 다음과 같은 기능이 추가됨:
- 더 나은 오디오 품질: OpenVoice V2는 더 나은 오디오 품질을 제공하는 다른 학습 전략을 채택함.
- 기본 다국어 지원: 영어, 스페인어, 프랑스어, 중국어, 일본어, 한국어가 OpenVoice V2에서 기본적으로 지원됨.
- 무료 상업적 사용: 2024년 4월부터 V2와 V1은 MIT 라이선스에 따라 출시되었으며, 상업적 사용이 무료임.

OpenVoice 사용 현황

OpenVoice는 2023년 5월부터 myshell.ai의 즉각적인 음성 복제 기능을 제공해 왔음.
2023년 11월까지 음성 복제 모델은 전 세계 사용자가 수천만 번 사용했으며, 플랫폼에서 폭발적인 사용자 증가를 목격함.

주요 기여자

Zengyi Qin (MIT, MyShell)
Wenliang Zhao (Tsinghua University)
Xumin Yu (Tsinghua University)
Ethan Sun (MyShell)

사용법

자세한 사용 방법은 usage를 참조.

일반적인 이슈

일반적인 질문과 답변은 QA를 참조.
질문과 답변 목록은 정기적으로 업데이트 될 예정.

커뮤니티 참여

Discord 커뮤니티에 가입하고 가입 시 'Developer' 역할을 선택하면 개발자 전용 채널에 대한 독점적 액세스 권한을 얻을 수 있음.
유익한 토론과 협업 기회를 놓치지 말 것.

인용

해당 구현은 TTS, VITS, VITS2와 같은 몇 가지 우수한 프로젝트를 기반으로 함.
그들의 훌륭한 작업에 감사.

라이선스

OpenVoice V1과 V2는 MIT 라이선스이며, 상업적 사용과 연구 사용 모두 무료임.

GN⁺의 의견

OpenVoice는 다양한 언어와 감정을 가진 목소리를 쉽게 생성할 수 있는 강력한 도구임. 이는 영화, 애니메이션, 게임 등 다양한 분야에서 활용될 수 있을 것으로 보임.
다만 목소리를 너무 쉽게 복제할 수 있다는 점에서 악용의 소지가 있음. 예를 들어 허락 없이 유명인의 목소리를 사용하여 deepfake 영상을 만드는 등의 문제가 발생할 수 있음. 이에 대한 대책 마련이 필요해 보임.
OpenVoice와 유사한 기능을 가진 상용 제품으로는 Lyrebird, Resemble.ai, Descript 등이 있음. 이들은 주로 고객 지원, 콜센터, 영상 더빙 등에 활용되고 있음.
오픈소스로 공개된 만큼 다양한 개발자들의 참여로 지속적인 성능 향상이 기대됨. 상용 제품 수준의 음질과 기능을 제공할 수 있을지 귀추가 주목됨.

▲

neo 19일전 [-]

Hacker News 의견

최근 운동부 감독이 AI를 이용해 교장의 인종차별 발언을 조작한 오디오 클립을 만들어 모함한 사건이 발생함. 이는 법과 법 집행이 AI 기술의 발전 속도를 따라잡기 위해 노력해야 함을 시사함.
가짜 역사 증거, 가짜 유출, 가짜 지지, 가짜 광고 등의 문제가 심각해질 것으로 예상됨. 단순한 텍스트 기사도 제대로 확인하지 않는 상황에서 AI 기술로 인한 피해는 더욱 클 것임.
해당 기술은 목소리의 톤만 모방할 뿐 실제 목소리를 복제하는 것은 아님. 문서에는 이를 명시하고 있으나 여전히 '음성 복제'라고 부르고 있어 혼란을 야기함.
이 기술의 정당한 사용 사례를 찾기 어려움. 타인을 기만하는 데 악용될 소지가 많음.
AI 기술을 활용해 흥미로운 것들을 만들고 싶은 사람들을 위해, 관련 정보를 얻을 수 있는 좋은 곳을 찾는 것이 중요함. 단순히 AI 기술 자체보다는 이를 활용하는 흥미로운 워크플로우와 사람들에 더 관심이 있음.
기존에 공개된 음성 복제 AI 기술과 비교했을 때 이번 릴리스가 특별히 나쁜 점은 없어 보임. 지나친 비관론과 과장된 반응이 많음.
음성 복제 기술을 통해 작가 본인의 목소리로 오디오북을 만들 수 있게 되기를 기대함. 직접 읽는 것만큼 좋진 않겠지만 성우보다는 작가의 목소리가 더 매력적일 것임.
README에 예제 코드가 포함되면 좋겠음.
직접 자신의 목소리를 "복제"해 봤으나 결과물이 전혀 비슷하지 않았음. 프랑스어로 말하는 자신의 목소리를 들을 줄 알았는데 그렇지 않았음. "즉각적인 음성 복제"라는 제목이 다소 오해의 소지가 있음.

답변달기