5P by GN⁺ | ★ favorite | 댓글 1개
  • OpenVoice는 참조 음색을 복제해 여러 언어와 억양으로 음성을 생성하는 즉각적 음성 복제 프로젝트이며, V1과 V2 기능을 공개함
  • V1은 정확한 음색 복제, 감정·억양·리듬·멈춤·억양 변화 같은 음성 스타일 제어, 제로샷 교차 언어 음성 복제를 지원함
  • OpenVoice V2는 2024년 4월 공개됐으며, V1 기능을 포함하면서 다른 학습 전략으로 더 나은 오디오 품질을 제공함
  • V2는 영어, 스페인어, 프랑스어, 중국어, 일본어, 한국어를 네이티브 다국어로 지원하며, V1과 V2 모두 MIT License로 상업·연구 용도에 무료 사용 가능함
  • OpenVoice는 2023년 5월부터 myshell.ai의 즉각 음성 복제 기능에 사용됐고, 2023년 11월까지 전 세계 사용자에게 수천만 회 사용됨

OpenVoice가 제공하는 음성 복제 기능

  • OpenVoice는 즉각적인 음성 복제를 위한 프로젝트임
  • 관련 논문은 arXiv 논문으로 공개돼 있음

OpenVoice V1의 핵심 기능

  • 정확한 음색 복제

    • 참조 음색을 정확하게 복제할 수 있음
    • 여러 언어와 억양으로 음성을 생성할 수 있음
  • 유연한 음성 스타일 제어

    • 감정과 억양을 세밀하게 제어할 수 있음
    • 리듬, 멈춤, 억양 변화 같은 스타일 파라미터도 제어 대상임
  • 제로샷 교차 언어 음성 복제

    • 생성 음성의 언어와 참조 음성의 언어가 대규모 다화자 다국어 학습 데이터셋에 포함돼 있지 않아도 됨

OpenVoice V2의 변경점

  • OpenVoice V2는 2024년 4월 공개됨
  • V2는 V1의 모든 기능을 포함함
  • 다른 학습 전략을 채택해 더 나은 오디오 품질을 제공함
  • 영어, 스페인어, 프랑스어, 중국어, 일본어, 한국어를 네이티브로 지원함
  • 2024년 4월부터 V2와 V1 모두 MIT License로 공개돼 상업적 사용이 무료임

실제 사용과 공개 범위

  • OpenVoice는 2023년 5월부터 myshell.ai의 즉각 음성 복제 기능을 구동해 왔음
  • 2023년 11월까지 음성 복제 모델이 전 세계 사용자에게 수천만 회 사용됨
  • README에는 데모 Video가 포함돼 있음

사용, 라이선스, 기반 프로젝트

  • 자세한 사용법은 저장소의 usage 문서에서 안내함
  • 일반적인 질문과 답변은 저장소의 QA 문서에서 다룸
  • OpenVoice V1과 V2는 MIT License이며, 상업적 사용과 연구 목적 사용이 모두 무료임
  • 구현은 TTS, VITS, VITS2를 기반으로 함

댓글과 토론

Hacker News 의견들
  • 최근 며칠 사이에도 이런 일이 있었음: 운동부장이 교장을 인종차별 발언으로 몰기 위해 가짜 음성 클립을 AI로 만들었다고 경찰이 밝힘
    https://apnews.com/article/ai-artificial-intelligence-principal-audio-maryland-baltimore-county-pikesville-853ed171369bcbb888eb54f55195cb9c

    • 그래서 이 기술을 널리 쓰이고 잘 알려지게 만들어야 함. 사람들이 더 경계하고, 아무거나 믿지 않고, 출처를 확인하게 해야 함
      물론 대부분은 여전히 팩트체크를 안 하겠지만
  • 법과 집행이 아주 빠르게 따라잡아야 하는 시대에 들어섰음
    가짜 역사 증거, 가짜 유출, 가짜 지지 선언, 가짜 광고까지 가능해짐
    Facetok의 아무 텍스트 글도 확인하기 귀찮아하던 사람들이었으니, 앞으로는 훨씬 더 나빠질 듯함

    • 초정상화에서 초현실로 가는 흐름처럼 보임
      친구들에게 5~10년 뒤에는 눈앞에서 바로 일어나는 일만 거의 100% 믿을 수 있을 거라고 말해왔음
      신뢰할 만한 언론사가 검증해주길 선택할 수는 있지만, 양극화 때문에 세상의 큰 일부는 이미 속았다고 보고 전부 가짜로 치부할 것임
      Sora나 새 음성 모델들을 보면 됨. 며칠 전에도 고등학교 운동부 코치가 교장 목소리를 복제해 끔찍한 말을 하게 만든 일로 체포됐고, 자기 이메일을 써서 잡혔음
      여기에 Microsoft의 새 Phi-mini 모델이 38억 매개변수로 GPT-3.5 성능에 접근한다는 점을 합치면 더 무서움. GPT-3.5는 1,750억 매개변수였고, 이 기술 최적화는 이제 겨우 5년쯤 됐음
      Mr Bones의 미친 놀이기구에서 내리고 싶음
    • 신뢰는 인간 존재의 의존성임. 문명뿐 아니라 아주 작은 공동체, 생각·상품·서비스의 기본 교환에도 필요함
      생성형 AI가 신뢰를 파괴할 위험이 어떻게 펼쳐질지는 예측할 수 없지만, 결국 인간의 창의성이 이길 거라고 낙관함
    • 디지털 오디오 파일은 어떤 것의 증거라고 보기 어렵다. 음성 복제가 없어도 오디오를 잘라 붙이고 편집해서 거의 원하는 대로 만들 수 있음
      연습하면 다른 사람의 말투를 흉내 내는 것도 어렵지 않고, 아마추어와 전문 배우가 흔히 하는 일임
      달라지는 건 그 일이 쉬워졌다는 점뿐이고, 오히려 그런 “증거”가 얼마나 믿기 어려운지 모두가 이해하는 데 도움이 되어야 함
    • 이런 것도 큰 문제지만, 더 큰 문제는 스팸 전화가 10초 정도 내 목소리를 확보한 뒤 은행이나 가족에게 내 목소리로 전화하는 상황임
      Android와 iOS는 실시간 음성 변조기를 기본처럼 지원하고, 다이얼러에서 빠르게 끄는 버튼과 지인 연락처에는 꺼두는 옵션을 제공해야 함
    • AI의 범죄적·악의적 사용을 둘러싼 과장은 다른 AI 활용 과장과 비슷하다고 보게 됐음
      실제로 흔들림을 줄 활용은 나오겠지만, 기술이 새로 가능하게 만든 것과 원래도 가능했던 것의 차이는 사람들이 말하는 것보다 훨씬 작음
  • 이건 복제가 아니라 음색을 복사하는 것에 가까움. 문서에도 그렇게 적혀 있는데도 여전히 voice cloning이라고 부름
    직접 써봤더니 내 평소 부드러운 Lancashire 억양이 아니라 미국식으로 들렸고, 나와는 전혀 달랐음

    • https://voiceshopai.github.io를 쓰면 원래 억양에 더 가깝게 되돌릴 수 있을 듯함
      VoiceShopAi는 젊은 목소리를 늙은 목소리로, 남성을 여성으로, 또는 어떤 나라 억양으로도 바꿀 수 있음
      음성 분야의 새 항목을 추적하는 https://github.com/metame-ai/awesome-audio-plaza에서 찾았음
    • 나도 내 목소리로 해봤는데, 다행히 전혀 내 목소리처럼 들리지 않았음
    • 제목이나 이름이 썩 좋지는 않음. 더 메타하게 보면, 요즘 HN 댓글이 원문이나 기술 자체를 살펴보기보다 Reddit식 제목 반응처럼 점점 변하는 느낌이 들 때가 있음
  • 이 기술의 정당한 사용 사례가 뭘까? 남을 속이는 용도는 백 가지도 떠올릴 수 있는데, 자기 목소리를 복제하거나 재현하고 싶은 상황은 잘 생각나지 않음

    • 팟캐스트를 녹음한 뒤 일부 단어만 고치고 싶을 때, 다시 녹음하는 번거로움 없이 쓸 수 있음
      인디 게임 개발자가 대형 언어 모델로 대화가 구동되는, 각자 고유한 목소리를 가진 생생한 NPC를 만들 수도 있음
      영화 제작 중 배우의 동의를 받아 특정 대사를 조정할 수도 있음
      건강 문제로 점차 목소리를 잃어가지만 계속 소통하고 싶은 사람에게도 필요함
      이 기술에는 분명 정당한 사용 사례가 있음. 개인적으로는 부정한 사용이 정당한 사용을 압도한다고 보지만, 정당한 응용이 없다고 말하는 건 공정하지 않음
      남용을 범죄화해 엄격히 규제해야지, 전면 금지할 일은 아님. 소프트웨어와 작은 모델의 경우 금지는 꽤 어렵기도 함
    • Alexa 같은 에이전트가 더 나은 맞춤형 목소리를 쓰게 되는 건 시간문제임
      오디오북도 한 명의 낭독자가 억지로 연기하는 대신 등장인물별 목소리로 읽을 수 있음
      감기에 걸렸지만 기침 없이 연설하고 싶을 때도 가능함
      오디오는 저대역폭 전송에서 텍스트만 보내고 로컬 음성 모델로 재생할 수 있음
      세상을 떠난 사랑하는 사람과 대화하는 데 쓸 수도 있음
      웃기거나 코미디 용도로도 가능함
    • 별로 열심히 생각하지 않은 듯함. 가장 먼저 떠오른 건 실시간 번역에 자기 목소리 복제를 쓰는 것임
      완벽한 번역이 악의적으로 쓰이지 않는다고 가정하면, 항상 유용하고 전혀 사악하지 않은 응용이라고 봄
    • 후두가 마비된 친구가 있어서 소통하려고 휴대폰이나 작은 노트북에 자주 타이핑함
      예전 말소리 녹음을 바탕으로 적어도 어느 정도라도 “자기” 목소리를 되돌려줄 수 있다면 정말 좋아할 것임
      아쉽게도 그가 쓰는 Android TTS나 Windows에 꽂아 넣을 수 있는 음성 모델을 만들어주는 도구는 아직 보지 못했음
    • Counter-Strike를 많이 하는데, 사람들이 Joe Biden 목소리로 상대 팀을 욕하면 꽤 웃김
  • 이 분야를 계속 따라가려면 어디가 좋을까? 이런 도구로 창작하고 싶은데 내 목소리가 그런 용도에 그리 좋지 않아서 관심이 큼
    더 자연스럽게 만들려면 텍스트 음성 변환보다 음성-음성 변환이 나을 것 같음. RVC 같은 도구를 조금 써봤지만, AI 소음 속에서 놓치고 있는 훌륭한 작업 흐름이 많을 것 같음
    특히 흥미로운 작업 흐름과 AI로 재미있는 것을 만드는 사람들이 더 궁금함

    • 확실히 Twitter임. 모든 것이 거기서 발표되고 논의됨
  • 여기 종말론과 과장된 드라마가 꽤 많음. 이미 약 1년 전부터 공개적으로 쓸 수 있던 기존 음성 복제 AI 방식들과 비교해, 이번 공개가 그렇게 더 나쁜 이유가 뭘까?

  • 음성 복제로 저자 목소리로 읽는 오디오북이 나오기를 정말 기대함
    물론 저자가 직접 읽는 것만큼 좋지는 않겠지만, 저자의 목소리에는 성우가 줄 수 없는 무언가가 있음. 성우들은 발음이 너무 일반적이고 과장되어서 개인적으로는 연결감이 덜함

    • 저자가 훈련된 낭독자가 아니라도 더해주는 건, 책의 문장이 어떻게 말해지고 이해되길 의도했는지에 억양이 정확히 맞는다는 점임
      AI는 그걸 할 수 없을 것임. 아무리 좋아져도 저자의 마음을 읽을 수는 없음. 인간 낭독자보다도 더 일반적인 결과가 될 것임
    • 오히려 그 점이 걱정됨. 책을 왜 저자가 읽어야 하는지 모르겠음
      훈련된 성우가 훨씬 잘하고, 분위기에 맞춰 목소리를 조절할 수도 있음
      자서전이라면 괜찮지만, 그런 경우는 대개 이미 저자가 직접 읽음
    • 오디오북 성우가 너무 일반적이라고 느낀다면, 저자 목소리로 훈련한 AI 낭독에 대해서는 더 안 좋은 소식이 있음
    • 내 책을 저자가 읽어주길 바라는 마음은 거의 없음. 저자는 글을 잘 쓰는 사람이고, 오디오북은 단순히 페이지의 단어를 “읽는” 일이 아님
      Descript처럼 내레이션 후 저자가 발음을 조정하는 도구라면 몰라도, 저자의 목소리를 원하지는 않음
      Allyson Johnson의 목소리로 모델을 훈련해 Honor Harrington 책들을 낭독하게 하고, 스핀오프 중 다른 낭독자를 쓴 1~2권을 다시 녹음하는 데는 관심이 있음. 그 낭독자는 끔찍했음
      Wheel of Time 시리즈에서 같은 두 낭독자가 나오지만 책마다 여러 이름과 단어의 발음을 바꾸는 부분을 정리하는 데도 쓸 수 있을 듯함. 특히 “Moghedien”이 두드러짐
      적어도 세 가지 방식으로 발음함: Mo-gid-e-on, Mo-ga-dean, Mog-a-din
    • 각 오디오북마다 낭독자 선택지가 있으면 좋겠음. 좋아하는 낭독자가 있고, 도저히 못 듣겠는 낭독자도 있음
      또 AI를 쓰지 않으면 오디오 형식으로 절대 나오지 않을 책이 수천수만 권 있음
  • 관련: https://github.com/topics/voice-clone

    • 여기 있는 것들 중 실제로 동작하는 걸 아는지 궁금함
      지금까지 시도할 때마다 대상인 내 목소리도 아니고 원본 목소리도 아닌, 그냥 무작위 새 목소리처럼 들렸음
  • Python 노트북은 몇 개 보이지만, README에 예제 코드가 있었으면 더 좋았을 듯함