4P by GN⁺ 2일전 | ★ favorite | 댓글 1개
  • 텍스트로부터 장시간의 자연스러운 다화자 대화 음성을 생성할 수 있도록 설계된 새로운 TTS 음성합성 모델
  • 기존 시스템의 한계였던 확장성, 화자 일관성, 자연스러운 턴 전환 문제를 해결하도록 고안됨
  • 최대 90분 길이의 음성, 최대 4명의 화자를 동시에 합성할 수 있어 기존 1~2명 한계 모델을 넘어섬
  • 핵심은 7.5Hz 초저 프레임레이트 연속 음성 토크나이저(Acoustic/ Semantic)를 활용해 긴 오디오 시퀀스를 효율적으로 처리하면서 음질을 유지함
  • Next-Token Diffusion 방식을 활용해 연속 데이터를 효율적으로 모델링하하고, 이를 위해 기존 Encodec 대비 80배 높은 압축률을 제공하는 새로운 연속형 음성 토크나이저를 도입

소개

  • 최근 TTS 기술은 단일 화자의 짧은 발화를 고품질로 합성하는 데 성공했지만, 장시간·다중 화자 대화 합성은 여전히 도전 과제임
    • 기존 방식은 발화를 단순 연결해 부자연스러운 전환 발생
    • 자연스러운 턴테이킹과 맥락 인식 생성이 어려움
  • 목표: 팟캐스트와 같은 장편·다화자 대화 음성 합성 지원
  • VibeVoice는 이를 해결하기 위해 초저프레임율(7.5Hz) 음성 토크나이저LLM 기반 Diffusion 구조를 결합
  • 결과적으로 최대 90분 길이의 다중 화자 오디오를 안정적으로 합성 가능

기술적 혁신

  • 연속 음성 토크나이저 (7.5Hz):
    • Acoustic + Semantic 토크나이저를 병행 사용
    • 긴 시퀀스 처리 효율성 확보와 동시에 오디오 충실도 유지
  • Next-token diffusion framework:
    • LLM이 텍스트 맥락과 대화 흐름을 이해
    • Diffusion head가 고해상도 음향 디테일 생성
  • 결과: 기존보다 훨씬 자연스럽고 사람 같은 음성 합성

성능

  • 최대 90분 길이 음성 합성 가능
  • 최대 4명 화자 지원 (기존 모델의 1~2명 한계 초월)
  • 다양한 대화 상황에서 표현력 있고 일관성 있는 음성 제공

실험 결과

장시간 대화 합성 (Podcast)

  • 1시간 분량 대화 데이터셋으로 평가
  • WER(단어 오류율) , SIM(화자 유사도) , 주관적 평가(MOS) 측정
  • VIBEVOICE-7B는 Realism 3.71, Richness 3.81, Preference 3.75로 최고 성능 기록
  • Gemini 2.5 Pro, ElevenLabs v3 등 최신 모델보다 우수

결론 및 한계

  • VibeVoice는 최대 90분, 4명 화자의 자연스러운 대화 합성을 지원하는 차세대 TTS 프레임워크
  • 기존 오픈소스 및 상용 모델 대비 주관적·객관적 품질 모두 우수
  • 한계점:
    • 영어·중국어 외 언어는 예기치 못한 결과 가능
    • 비음성 오디오(배경음, 음악) 미지원
    • 동시 발화(Overlapping Speech) 미지원
    • 딥페이크·허위정보 악용 위험 존재
  • 따라서 현재는 연구·개발 목적 전용, 상업적 사용은 권장되지 않음
Hacker News 의견
  • 여러 댓글에서 이 음성 모델을 정말 사실적이라고 칭찬하는 것을 보고 기대감 가득하게 페이지를 방문했음, 하지만 실제로 들어보니 완전히 다른 인상을 받았음. 음질 자체는 괜찮았지만, 대부분의 문장에서 억양이 어색했고, 명확하게 기계적인 느낌이 들었음. 몇 년 전의 TTS와 비교하면 꽤 인상적이지만, 요즘 AI 음성들에 비하면 별로 감동적이지 않음. 특히 YouTube Shorts에서 자주 들을 수 있는 AI 음성들도 이 사이트의 대부분 샘플만큼 충분히 훌륭하다고 느낌. 딱 하나 인상적이었던 건 영어와 중국어(아마도 만다린) 샘플로, 두 언어를 매우 자연스럽게 전환하는 점이었음. 하지만 내가 중국어에 익숙하지 않아서 발음을 제대로 평가하지 못했고, 한자인지 알파벳인지 명확하게 구분되기 때문에 전환이 더 쉬웠던 걸 수도 있음. 만약 같은 문자 체계를 가진 두 언어였다면 이렇게 자연스럽지 않았을 수도 있겠다고 추측함. 마지막으로, 노래 샘플은 상당히 듣기 힘들었고, 왜 이런 샘플을 추가했는지 매우 궁금함
    • 노래와 배경음악에 대한 개발팀의 언급이 다소 이상하게 느껴짐. 논문 마감에 맞춰서 배경음악 제거 방법을 찾지 못해 그냥 “특징”이라고 주장하는 뉘앙스를 강하게 받았음. 실제로 차별점이라 생각해서 추가한 건 아니라는 인상
    • 혹시 이 모델보다 더 나은 TTS 모델이 있다면 추천해줬으면 함. 과장하며 진전을 말하는 사람도, 반대로 깎아내리는 사람도 항상 존재하는데, 어느 쪽도 발전을 방해하는 건 아니라고 생각함. 지금까지 들어본 모델 중엔 이게 제일 나았지만, 혹시 내가 모르는 더 좋은 게 있을 수도 있음
    • 이 모델이 꽤 좋긴 하지만, 무료 모델 중에서는 최고는 아님. Chatterbox가 더 사실적이고 기계적인 느낌도 훨씬 적으며 억양도 더 자연스러움(완벽하진 않음)
    • 여성 음성이 남성 음성보다 훨씬 더 자연스럽고 설득력 있다고 느낌. 그에 비해 남성 음성은 10년 전 TTS보다 그리 낫지 않은 수준
    • 이 모델의 진짜 강점은 음성 클로닝임. 자신의 음성 샘플을 voices 폴더에 넣으면 정말 잘 작동함
  • Microsoft 내부에서 Open Source 코딩 에이전트의 이름을 Microsoft VibeCode로 꼭 짓고 있길 바람. 아니면 “Lo”라고 짓고, Phi와 함께 사용할 수도 있을 듯. 그렇게 해서 “Lo Phi”와 vibe code 할 수도 있음. 마이크로소프트의 Phi 4 언어모델 정보
    • Microsoft의 마케팅 역사를 봤을 때, 결국 "Microsoft Copilot Code Generator for VSCode" 같은 직관적 이름이거나 뜬금없이 "Zunega" 같은 이름이 될 거라고 생각함
    • 천재적인 발상임
  • VibeVoice-Large가 핀란드어 발음을 거의 억양 없이 정말 자연스럽게 지원하는 첫 로컬 TTS임. 어제 직접 만져봤는데, 음성 클로닝과 감정까지 복제해내는 점에 특히 감탄했음
  • 기술적으로 상당히 고품질이긴 하지만, 특히 남성 음성 쪽은 딱 들었을 때 바로 AI가 만든 음성이라는 인상이 있음. 내 오디오 지식이 부족해서 그 이유를 잘 표현하진 못하겠음
    • 나도 오디오 엔지니어는 아니지만, 이 AI 음성이 “쏘우스(Saw-tooth)” 파형 소리처럼 느껴짐. 기본적인 모델이나 저사양 기술이 샘플링을 덜 하다 보니 일종의 오디오 펄스(진동음)가 많아서 울컥거리는 기계음 느낌이 남. 더 좋은 모델로 갈수록 파형이 부드럽게 변함. 파형에 대한 참고자료
    • 내가 느끼기엔 음색이 블록처럼 잘려있고, 소리를 시각화하면 파형에 뾰족함이 없고 메탈박스 같은 울림이 생긴다고 설명할 수 있을 듯함
    • 직접 들어보니 어떤 느낌인지 이해할 수 있었음. 음성이 흔들리거나 mp3 압축을 심하게 한 것처럼 들리는 부분도 있음
  • 남성 음성이 여성 음성에 비해 훨씬 더 인공적인 느낌이 들어서 거의 로봇처럼 들림. 공식 샘플 대부분이 여성 음성으로 시작하는 것을 보면, 개발팀도 이 문제를 인지하고 있음
    • 나도 비슷하게 느꼈음. 남성 음성이 확실히 더 인위적으로 들림
  • 오픈웨이트 TTS 모델 중 최신 인기 순위나 리스트가 있는지 궁금함. 실제로는 STT(ASR) 쪽에 더 관심이 많지만, 선택지가 너무 적은 상황임
    • huggingface TTS 모델 리스트에서 볼 수 있음. 트렌딩에 오르는 모델들이 그만큼 쓸만한 가치가 있다는 뜻임. 평가 기준이 매우 주관적이기 때문에, 가장 중요한 건 직접 들어보는 것임. HF에서 트렌드에 오르지 않는 모델의 경우, 그다지 좋을 확률이 낮음
    • 최고라고 할 수 있는 TTS: VibeVoice, Chatterbox, Dia, Higgs, F5 TTS, Kokoro, Cosy Voice, XTTS-2임
    • 햄버거 메뉴에서 leaderboard 클릭하면 랭킹 페이지가 나옴 TTS-AGI/TTS-Arena-V2
    • 최고임
  • GPU 성능이 약한 사용자라면 이 모델을 쓰기 어려움. 구형 1080 GPU로는 제대로 실행할 수 없었고, CPU에서 torch.float32로 실행하면 66초 길이의 오디오를 만드는 데 832초나 걸렸음. torch.bfloat16으로 바꿨더니 오디오에 이상한 잡음 현상이 생김. GPU가 부족한 상황에서 지금까지 가장 쓸만했던 TTS 모델은 Kokoro였음. 또, 이 스레드에서 누가 언급했듯이, 텍스트에 별도의 주석(annotation)을 추가해 TTS 출력을 세밀하게 제어하는 기능이 현재는 없음. 텍스트에 중간처리 과정을 추가해 주석을 생성하고, 이를 TTS에 입력하는 방법이 앞으로 모델이 더 발전할 수 있는 방향이라고 생각함. 그렇게 하면 유저가 더 미세하게 결과물을 컨트롤할 수 있음
    • 이건 너무 과장이라고 생각함. macOS는 이미 오래전부터 즉각적이고 상당히 품질 좋은 TTS를 지원해왔고, 이런 무거운 모델이 필요하지 않았음. 대기 시간이 전혀 없음. 이 “AI”라는 열풍이 정말 과하다고 생각함
  • 오픈소스라더니, 학습 데이터는 왜 공개하지 않는지 궁금함
    • 대부분의 크롤링 데이터는 저작권, 이용 약관, 개인정보 보호 등 여러가지 법적 위험이 많기 때문에 상업적 회사 입장에선 완전히 “오픈”하는 건 현명하지 않음
  • Spontaneous Emotion 샘플 대화는 개발팀이 LLM으로 감정을 푸는 듯한 느낌을 주는 음성임. 노래 샘플은 생략했으면 더 나았을 듯함. 모델이 아직 노래에는 전혀 적합하지 않음
  • 현재 최고라고 꼽히는 TTS 모델은 HiggsAudio와 VibeVoice, 두 가지임. 개인적으로 Higgs가 속도나 음질 모두 Vibe보다 월등히 뛰어났음. 표현력까지는 잘 모르지만, 놓치지 말고 꼭 써보길 추천함