5P by neo 19일전 | favorite | 댓글 1개

OpenVoice V1 소개

  • OpenVoice의 장점은 다음과 같음:
    • 정확한 음색 복제: OpenVoice는 참조 음색을 정확하게 복제하고 여러 언어와 억양으로 음성을 생성할 수 있음.
    • 유연한 음성 스타일 제어: OpenVoice는 감정과 억양 같은 음성 스타일과 리듬, 휴지, 억양 등 다른 스타일 파라미터를 세부적으로 제어할 수 있음.
    • Zero-shot 다국어 음성 복제: 생성된 음성의 언어와 참조 음성의 언어 모두 대규모 화자 다국어 학습 데이터셋에 제시될 필요가 없음.

OpenVoice V2 소개

  • 2024년 4월 OpenVoice V2가 출시되었으며, V1의 모든 기능을 포함하고 다음과 같은 기능이 추가됨:
    • 더 나은 오디오 품질: OpenVoice V2는 더 나은 오디오 품질을 제공하는 다른 학습 전략을 채택함.
    • 기본 다국어 지원: 영어, 스페인어, 프랑스어, 중국어, 일본어, 한국어가 OpenVoice V2에서 기본적으로 지원됨.
    • 무료 상업적 사용: 2024년 4월부터 V2와 V1은 MIT 라이선스에 따라 출시되었으며, 상업적 사용이 무료임.

OpenVoice 사용 현황

  • OpenVoice는 2023년 5월부터 myshell.ai의 즉각적인 음성 복제 기능을 제공해 왔음.
  • 2023년 11월까지 음성 복제 모델은 전 세계 사용자가 수천만 번 사용했으며, 플랫폼에서 폭발적인 사용자 증가를 목격함.

주요 기여자

  • Zengyi Qin (MIT, MyShell)
  • Wenliang Zhao (Tsinghua University)
  • Xumin Yu (Tsinghua University)
  • Ethan Sun (MyShell)

사용법

  • 자세한 사용 방법은 usage를 참조.

일반적인 이슈

  • 일반적인 질문과 답변은 QA를 참조.
  • 질문과 답변 목록은 정기적으로 업데이트 될 예정.

커뮤니티 참여

  • Discord 커뮤니티에 가입하고 가입 시 'Developer' 역할을 선택하면 개발자 전용 채널에 대한 독점적 액세스 권한을 얻을 수 있음.
  • 유익한 토론과 협업 기회를 놓치지 말 것.

인용

  • 해당 구현은 TTS, VITS, VITS2와 같은 몇 가지 우수한 프로젝트를 기반으로 함.
  • 그들의 훌륭한 작업에 감사.

라이선스

  • OpenVoice V1과 V2는 MIT 라이선스이며, 상업적 사용과 연구 사용 모두 무료임.

GN⁺의 의견

  • OpenVoice는 다양한 언어와 감정을 가진 목소리를 쉽게 생성할 수 있는 강력한 도구임. 이는 영화, 애니메이션, 게임 등 다양한 분야에서 활용될 수 있을 것으로 보임.

  • 다만 목소리를 너무 쉽게 복제할 수 있다는 점에서 악용의 소지가 있음. 예를 들어 허락 없이 유명인의 목소리를 사용하여 deepfake 영상을 만드는 등의 문제가 발생할 수 있음. 이에 대한 대책 마련이 필요해 보임.

  • OpenVoice와 유사한 기능을 가진 상용 제품으로는 Lyrebird, Resemble.ai, Descript 등이 있음. 이들은 주로 고객 지원, 콜센터, 영상 더빙 등에 활용되고 있음.

  • OpenVoice를 도입할 때는 데이터 보안과 저작권 문제에 유의해야 함. 또한 생성된 음성의 자연스러움과 발음의 정확성도 꼭 확인이 필요함.

  • 오픈소스로 공개된 만큼 다양한 개발자들의 참여로 지속적인 성능 향상이 기대됨. 상용 제품 수준의 음질과 기능을 제공할 수 있을지 귀추가 주목됨.

Hacker News 의견
  • 최근 운동부 감독이 AI를 이용해 교장의 인종차별 발언을 조작한 오디오 클립을 만들어 모함한 사건이 발생함. 이는 법과 법 집행이 AI 기술의 발전 속도를 따라잡기 위해 노력해야 함을 시사함.
  • 가짜 역사 증거, 가짜 유출, 가짜 지지, 가짜 광고 등의 문제가 심각해질 것으로 예상됨. 단순한 텍스트 기사도 제대로 확인하지 않는 상황에서 AI 기술로 인한 피해는 더욱 클 것임.
  • 해당 기술은 목소리의 톤만 모방할 뿐 실제 목소리를 복제하는 것은 아님. 문서에는 이를 명시하고 있으나 여전히 '음성 복제'라고 부르고 있어 혼란을 야기함.
  • 이 기술의 정당한 사용 사례를 찾기 어려움. 타인을 기만하는 데 악용될 소지가 많음.
  • AI 기술을 활용해 흥미로운 것들을 만들고 싶은 사람들을 위해, 관련 정보를 얻을 수 있는 좋은 곳을 찾는 것이 중요함. 단순히 AI 기술 자체보다는 이를 활용하는 흥미로운 워크플로우와 사람들에 더 관심이 있음.
  • 기존에 공개된 음성 복제 AI 기술과 비교했을 때 이번 릴리스가 특별히 나쁜 점은 없어 보임. 지나친 비관론과 과장된 반응이 많음.
  • 음성 복제 기술을 통해 작가 본인의 목소리로 오디오북을 만들 수 있게 되기를 기대함. 직접 읽는 것만큼 좋진 않겠지만 성우보다는 작가의 목소리가 더 매력적일 것임.
  • README에 예제 코드가 포함되면 좋겠음.
  • 직접 자신의 목소리를 "복제"해 봤으나 결과물이 전혀 비슷하지 않았음. 프랑스어로 말하는 자신의 목소리를 들을 줄 알았는데 그렇지 않았음. "즉각적인 음성 복제"라는 제목이 다소 오해의 소지가 있음.