OpenVoice: 즉각적인 음성 복제 기술

(github.com/myshell-ai)

5P by GN⁺ 2024-04-28 | ★ favorite | 댓글 1개

OpenVoice는 참조 음색을 복제해 여러 언어와 억양으로 음성을 생성하는 즉각적 음성 복제 프로젝트이며, V1과 V2 기능을 공개함
V1은 정확한 음색 복제, 감정·억양·리듬·멈춤·억양 변화 같은 음성 스타일 제어, 제로샷 교차 언어 음성 복제를 지원함
OpenVoice V2는 2024년 4월 공개됐으며, V1 기능을 포함하면서 다른 학습 전략으로 더 나은 오디오 품질을 제공함
V2는 영어, 스페인어, 프랑스어, 중국어, 일본어, 한국어를 네이티브 다국어로 지원하며, V1과 V2 모두 MIT License로 상업·연구 용도에 무료 사용 가능함
OpenVoice는 2023년 5월부터 myshell.ai의 즉각 음성 복제 기능에 사용됐고, 2023년 11월까지 전 세계 사용자에게 수천만 회 사용됨

OpenVoice가 제공하는 음성 복제 기능

OpenVoice는 즉각적인 음성 복제를 위한 프로젝트임
관련 논문은 arXiv 논문으로 공개돼 있음

OpenVoice V1의 핵심 기능

정확한 음색 복제
- 참조 음색을 정확하게 복제할 수 있음
- 여러 언어와 억양으로 음성을 생성할 수 있음
유연한 음성 스타일 제어
- 감정과 억양을 세밀하게 제어할 수 있음
- 리듬, 멈춤, 억양 변화 같은 스타일 파라미터도 제어 대상임
제로샷 교차 언어 음성 복제
- 생성 음성의 언어와 참조 음성의 언어가 대규모 다화자 다국어 학습 데이터셋에 포함돼 있지 않아도 됨

OpenVoice V2의 변경점

OpenVoice V2는 2024년 4월 공개됨
V2는 V1의 모든 기능을 포함함
다른 학습 전략을 채택해 더 나은 오디오 품질을 제공함
영어, 스페인어, 프랑스어, 중국어, 일본어, 한국어를 네이티브로 지원함
2024년 4월부터 V2와 V1 모두 MIT License로 공개돼 상업적 사용이 무료임

실제 사용과 공개 범위

OpenVoice는 2023년 5월부터 myshell.ai의 즉각 음성 복제 기능을 구동해 왔음
2023년 11월까지 음성 복제 모델이 전 세계 사용자에게 수천만 회 사용됨
README에는 데모 Video가 포함돼 있음

사용, 라이선스, 기반 프로젝트

자세한 사용법은 저장소의 usage 문서에서 안내함
일반적인 질문과 답변은 저장소의 QA 문서에서 다룸
OpenVoice V1과 V2는 MIT License이며, 상업적 사용과 연구 목적 사용이 모두 무료임
구현은 TTS, VITS, VITS2를 기반으로 함

GN⁺ 2024-04-28 [-]

Hacker News 의견들

최근 며칠 사이에도 이런 일이 있었음: 운동부장이 교장을 인종차별 발언으로 몰기 위해 가짜 음성 클립을 AI로 만들었다고 경찰이 밝힘
https://apnews.com/article/ai-artificial-intelligence-principal-audio-maryland-baltimore-county-pikesville-853ed171369bcbb888eb54f55195cb9c
- 그래서 이 기술을 널리 쓰이고 잘 알려지게 만들어야 함. 사람들이 더 경계하고, 아무거나 믿지 않고, 출처를 확인하게 해야 함
  물론 대부분은 여전히 팩트체크를 안 하겠지만
법과 집행이 아주 빠르게 따라잡아야 하는 시대에 들어섰음
가짜 역사 증거, 가짜 유출, 가짜 지지 선언, 가짜 광고까지 가능해짐
Facetok의 아무 텍스트 글도 확인하기 귀찮아하던 사람들이었으니, 앞으로는 훨씬 더 나빠질 듯함
- 초정상화에서 초현실로 가는 흐름처럼 보임
  친구들에게 5~10년 뒤에는 눈앞에서 바로 일어나는 일만 거의 100% 믿을 수 있을 거라고 말해왔음
  신뢰할 만한 언론사가 검증해주길 선택할 수는 있지만, 양극화 때문에 세상의 큰 일부는 이미 속았다고 보고 전부 가짜로 치부할 것임
  Sora나 새 음성 모델들을 보면 됨. 며칠 전에도 고등학교 운동부 코치가 교장 목소리를 복제해 끔찍한 말을 하게 만든 일로 체포됐고, 자기 이메일을 써서 잡혔음
  여기에 Microsoft의 새 Phi-mini 모델이 38억 매개변수로 GPT-3.5 성능에 접근한다는 점을 합치면 더 무서움. GPT-3.5는 1,750억 매개변수였고, 이 기술 최적화는 이제 겨우 5년쯤 됐음
  Mr Bones의 미친 놀이기구에서 내리고 싶음
- 신뢰는 인간 존재의 의존성임. 문명뿐 아니라 아주 작은 공동체, 생각·상품·서비스의 기본 교환에도 필요함
  생성형 AI가 신뢰를 파괴할 위험이 어떻게 펼쳐질지는 예측할 수 없지만, 결국 인간의 창의성이 이길 거라고 낙관함
- 디지털 오디오 파일은 어떤 것의 증거라고 보기 어렵다. 음성 복제가 없어도 오디오를 잘라 붙이고 편집해서 거의 원하는 대로 만들 수 있음
  연습하면 다른 사람의 말투를 흉내 내는 것도 어렵지 않고, 아마추어와 전문 배우가 흔히 하는 일임
  달라지는 건 그 일이 쉬워졌다는 점뿐이고, 오히려 그런 “증거”가 얼마나 믿기 어려운지 모두가 이해하는 데 도움이 되어야 함
- 이런 것도 큰 문제지만, 더 큰 문제는 스팸 전화가 10초 정도 내 목소리를 확보한 뒤 은행이나 가족에게 내 목소리로 전화하는 상황임
  Android와 iOS는 실시간 음성 변조기를 기본처럼 지원하고, 다이얼러에서 빠르게 끄는 버튼과 지인 연락처에는 꺼두는 옵션을 제공해야 함
- AI의 범죄적·악의적 사용을 둘러싼 과장은 다른 AI 활용 과장과 비슷하다고 보게 됐음
  실제로 흔들림을 줄 활용은 나오겠지만, 기술이 새로 가능하게 만든 것과 원래도 가능했던 것의 차이는 사람들이 말하는 것보다 훨씬 작음
이건 복제가 아니라 음색을 복사하는 것에 가까움. 문서에도 그렇게 적혀 있는데도 여전히 voice cloning이라고 부름
직접 써봤더니 내 평소 부드러운 Lancashire 억양이 아니라 미국식으로 들렸고, 나와는 전혀 달랐음
- https://voiceshopai.github.io를 쓰면 원래 억양에 더 가깝게 되돌릴 수 있을 듯함
  VoiceShopAi는 젊은 목소리를 늙은 목소리로, 남성을 여성으로, 또는 어떤 나라 억양으로도 바꿀 수 있음
  음성 분야의 새 항목을 추적하는 https://github.com/metame-ai/awesome-audio-plaza에서 찾았음
- 나도 내 목소리로 해봤는데, 다행히 전혀 내 목소리처럼 들리지 않았음
- 제목이나 이름이 썩 좋지는 않음. 더 메타하게 보면, 요즘 HN 댓글이 원문이나 기술 자체를 살펴보기보다 Reddit식 제목 반응처럼 점점 변하는 느낌이 들 때가 있음
이 기술의 정당한 사용 사례가 뭘까? 남을 속이는 용도는 백 가지도 떠올릴 수 있는데, 자기 목소리를 복제하거나 재현하고 싶은 상황은 잘 생각나지 않음
- 팟캐스트를 녹음한 뒤 일부 단어만 고치고 싶을 때, 다시 녹음하는 번거로움 없이 쓸 수 있음
  인디 게임 개발자가 대형 언어 모델로 대화가 구동되는, 각자 고유한 목소리를 가진 생생한 NPC를 만들 수도 있음
  영화 제작 중 배우의 동의를 받아 특정 대사를 조정할 수도 있음
  건강 문제로 점차 목소리를 잃어가지만 계속 소통하고 싶은 사람에게도 필요함
  이 기술에는 분명 정당한 사용 사례가 있음. 개인적으로는 부정한 사용이 정당한 사용을 압도한다고 보지만, 정당한 응용이 없다고 말하는 건 공정하지 않음
  남용을 범죄화해 엄격히 규제해야지, 전면 금지할 일은 아님. 소프트웨어와 작은 모델의 경우 금지는 꽤 어렵기도 함
- Alexa 같은 에이전트가 더 나은 맞춤형 목소리를 쓰게 되는 건 시간문제임
  오디오북도 한 명의 낭독자가 억지로 연기하는 대신 등장인물별 목소리로 읽을 수 있음
  감기에 걸렸지만 기침 없이 연설하고 싶을 때도 가능함
  오디오는 저대역폭 전송에서 텍스트만 보내고 로컬 음성 모델로 재생할 수 있음
  세상을 떠난 사랑하는 사람과 대화하는 데 쓸 수도 있음
  웃기거나 코미디 용도로도 가능함
- 별로 열심히 생각하지 않은 듯함. 가장 먼저 떠오른 건 실시간 번역에 자기 목소리 복제를 쓰는 것임
  완벽한 번역이 악의적으로 쓰이지 않는다고 가정하면, 항상 유용하고 전혀 사악하지 않은 응용이라고 봄
- 후두가 마비된 친구가 있어서 소통하려고 휴대폰이나 작은 노트북에 자주 타이핑함
  예전 말소리 녹음을 바탕으로 적어도 어느 정도라도 “자기” 목소리를 되돌려줄 수 있다면 정말 좋아할 것임
  아쉽게도 그가 쓰는 Android TTS나 Windows에 꽂아 넣을 수 있는 음성 모델을 만들어주는 도구는 아직 보지 못했음
- Counter-Strike를 많이 하는데, 사람들이 Joe Biden 목소리로 상대 팀을 욕하면 꽤 웃김
이 분야를 계속 따라가려면 어디가 좋을까? 이런 도구로 창작하고 싶은데 내 목소리가 그런 용도에 그리 좋지 않아서 관심이 큼
더 자연스럽게 만들려면 텍스트 음성 변환보다 음성-음성 변환이 나을 것 같음. RVC 같은 도구를 조금 써봤지만, AI 소음 속에서 놓치고 있는 훌륭한 작업 흐름이 많을 것 같음
특히 흥미로운 작업 흐름과 AI로 재미있는 것을 만드는 사람들이 더 궁금함
- 확실히 Twitter임. 모든 것이 거기서 발표되고 논의됨
여기 종말론과 과장된 드라마가 꽤 많음. 이미 약 1년 전부터 공개적으로 쓸 수 있던 기존 음성 복제 AI 방식들과 비교해, 이번 공개가 그렇게 더 나쁜 이유가 뭘까?
음성 복제로 저자 목소리로 읽는 오디오북이 나오기를 정말 기대함
물론 저자가 직접 읽는 것만큼 좋지는 않겠지만, 저자의 목소리에는 성우가 줄 수 없는 무언가가 있음. 성우들은 발음이 너무 일반적이고 과장되어서 개인적으로는 연결감이 덜함
- 저자가 훈련된 낭독자가 아니라도 더해주는 건, 책의 문장이 어떻게 말해지고 이해되길 의도했는지에 억양이 정확히 맞는다는 점임
  AI는 그걸 할 수 없을 것임. 아무리 좋아져도 저자의 마음을 읽을 수는 없음. 인간 낭독자보다도 더 일반적인 결과가 될 것임
- 오히려 그 점이 걱정됨. 책을 왜 저자가 읽어야 하는지 모르겠음
  훈련된 성우가 훨씬 잘하고, 분위기에 맞춰 목소리를 조절할 수도 있음
  자서전이라면 괜찮지만, 그런 경우는 대개 이미 저자가 직접 읽음
- 오디오북 성우가 너무 일반적이라고 느낀다면, 저자 목소리로 훈련한 AI 낭독에 대해서는 더 안 좋은 소식이 있음
- 내 책을 저자가 읽어주길 바라는 마음은 거의 없음. 저자는 글을 잘 쓰는 사람이고, 오디오북은 단순히 페이지의 단어를 “읽는” 일이 아님
  Descript처럼 내레이션 후 저자가 발음을 조정하는 도구라면 몰라도, 저자의 목소리를 원하지는 않음
  Allyson Johnson의 목소리로 모델을 훈련해 Honor Harrington 책들을 낭독하게 하고, 스핀오프 중 다른 낭독자를 쓴 1~2권을 다시 녹음하는 데는 관심이 있음. 그 낭독자는 끔찍했음
  Wheel of Time 시리즈에서 같은 두 낭독자가 나오지만 책마다 여러 이름과 단어의 발음을 바꾸는 부분을 정리하는 데도 쓸 수 있을 듯함. 특히 “Moghedien”이 두드러짐
  적어도 세 가지 방식으로 발음함: Mo-gid-e-on, Mo-ga-dean, Mog-a-din
- 각 오디오북마다 낭독자 선택지가 있으면 좋겠음. 좋아하는 낭독자가 있고, 도저히 못 듣겠는 낭독자도 있음
  또 AI를 쓰지 않으면 오디오 형식으로 절대 나오지 않을 책이 수천수만 권 있음
관련: https://github.com/topics/voice-clone
- 여기 있는 것들 중 실제로 동작하는 걸 아는지 궁금함
  지금까지 시도할 때마다 대상인 내 목소리도 아니고 원본 목소리도 아닌, 그냥 무작위 새 목소리처럼 들렸음
Python 노트북은 몇 개 보이지만, README에 예제 코드가 있었으면 더 좋았을 듯함

답변달기

OpenVoice: 즉각적인 음성 복제 기술

OpenVoice가 제공하는 음성 복제 기능

OpenVoice V1의 핵심 기능

정확한 음색 복제

유연한 음성 스타일 제어

제로샷 교차 언어 음성 복제

OpenVoice V2의 변경점

실제 사용과 공개 범위

사용, 라이선스, 기반 프로젝트

함께 보면 좋은 글 β

댓글과 토론

Hacker News 의견들