# VibeVoice - Microsoft의 차세대 오픈소스 음성 합성 모델

> Clean Markdown view of GeekNews topic #22890. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=22890](https://news.hada.io/topic?id=22890)
- GeekNews Markdown: [https://news.hada.io/topic/22890.md](https://news.hada.io/topic/22890.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2025-09-04T09:59:12+09:00
- Updated: 2025-09-04T09:59:12+09:00
- Original source: [microsoft.github.io](https://microsoft.github.io/VibeVoice/)
- Points: 5
- Comments: 1

## Summary

마이크로소프트가 공개한 **VibeVoice**는 **최대 90분 길이**와 **4명까지의 다화자 대화**를 자연스럽게 합성할 수 있는 차세대 **TTS 음성 합성 모델**입니다. 핵심은 **7.5Hz 초저프레임율 음성 토크나이저**와 **Next-token Diffusion** 구조로, 긴 대화의 **맥락 일관성** 및 **자연스러운 턴 전환**을 유지하면서 기존 모델 한계를 뛰어넘는 음질과 확장성을 제공합니다. 최근 실험에서 **Gemini 2.5 Pro, ElevenLabs v3** 등 상용 솔루션보다도 높은 **사람 같은 음성 품질**을 입증했으며, 현재는 연구 및 개발 목적으로만 오픈소스 제공 중입니다.

## Topic Body

- 텍스트로부터 **장시간의 자연스러운 다화자 대화 음성**을 생성할 수 있도록 설계된 새로운 TTS 음성합성 모델  
- 기존 시스템의 한계였던 **확장성, 화자 일관성, 자연스러운 턴 전환** 문제를 해결하도록 고안됨  
- 최대 **90분 길이의 음성**, **최대 4명의 화자**를 동시에 합성할 수 있어 기존 1~2명 한계 모델을 넘어섬  
- 핵심은 **7.5Hz 초저 프레임레이트 연속 음성 토크나이저**(Acoustic/ Semantic)를 활용해 긴 오디오 시퀀스를 효율적으로 처리하면서 음질을 유지함  
- **Next-Token Diffusion** 방식을 활용해 연속 데이터를 효율적으로 모델링하하고, 이를 위해 기존 Encodec 대비 **80배 높은 압축률**을 제공하는 새로운 연속형 음성 토크나이저를 도입  
  
---  
  
### 소개  
- 최근 TTS 기술은 단일 화자의 짧은 발화를 고품질로 합성하는 데 성공했지만, **장시간·다중 화자 대화 합성**은 여전히 도전 과제임  
  - 기존 방식은 발화를 단순 연결해 부자연스러운 전환 발생  
  - 자연스러운 턴테이킹과 맥락 인식 생성이 어려움  
- **목표**: 팟캐스트와 같은 **장편·다화자 대화 음성 합성** 지원  
- VibeVoice는 이를 해결하기 위해 **초저프레임율(7.5Hz) 음성 토크나이저**와 **LLM 기반 Diffusion 구조**를 결합  
- 결과적으로 최대 90분 길이의 다중 화자 오디오를 안정적으로 합성 가능  
  
### 기술적 혁신  
- **연속 음성 토크나이저** (7.5Hz):  
  - Acoustic + Semantic 토크나이저를 병행 사용  
  - 긴 시퀀스 처리 효율성 확보와 동시에 오디오 충실도 유지  
- **Next-token diffusion framework**:  
  - LLM이 **텍스트 맥락과 대화 흐름**을 이해  
  - Diffusion head가 **고해상도 음향 디테일** 생성  
- 결과: 기존보다 훨씬 자연스럽고 **사람 같은 음성 합성**  
  
### 성능  
- 최대 **90분 길이 음성 합성** 가능  
- **최대 4명 화자** 지원 (기존 모델의 1~2명 한계 초월)  
- 다양한 대화 상황에서 **표현력 있고 일관성 있는 음성** 제공  
  
### 실험 결과  
#### 장시간 대화 합성 (Podcast)  
- 1시간 분량 대화 데이터셋으로 평가  
- **WER(단어 오류율)** , **SIM(화자 유사도)** , **주관적 평가(MOS)** 측정  
- VIBEVOICE-7B는 **Realism 3.71, Richness 3.81, Preference 3.75**로 최고 성능 기록  
- Gemini 2.5 Pro, ElevenLabs v3 등 최신 모델보다 우수   
  
### 결론 및 한계  
- VibeVoice는 **최대 90분, 4명 화자**의 자연스러운 대화 합성을 지원하는 **차세대 TTS 프레임워크**  
- 기존 오픈소스 및 상용 모델 대비 **주관적·객관적 품질 모두 우수**  
- 한계점:  
  - 영어·중국어 외 언어는 예기치 못한 결과 가능  
  - **비음성 오디오(배경음, 음악)** 미지원  
  - **동시 발화(Overlapping Speech)** 미지원  
  - **딥페이크·허위정보 악용 위험** 존재  
- 따라서 현재는 **연구·개발 목적 전용**, 상업적 사용은 권장되지 않음

## Comments


### Comment 43332

- Author: neo
- Created: 2025-09-04T09:59:13+09:00
- Points: 1

###### [Hacker News 의견](https://news.ycombinator.com/item?id=45114245) 
* 여러 댓글에서 이 음성 모델을 정말 사실적이라고 칭찬하는 것을 보고 기대감 가득하게 페이지를 방문했음, 하지만 실제로 들어보니 완전히 다른 인상을 받았음. 음질 자체는 괜찮았지만, 대부분의 문장에서 억양이 어색했고, 명확하게 기계적인 느낌이 들었음. 몇 년 전의 TTS와 비교하면 꽤 인상적이지만, 요즘 AI 음성들에 비하면 별로 감동적이지 않음. 특히 YouTube Shorts에서 자주 들을 수 있는 AI 음성들도 이 사이트의 대부분 샘플만큼 충분히 훌륭하다고 느낌. 딱 하나 인상적이었던 건 영어와 중국어(아마도 만다린) 샘플로, 두 언어를 매우 자연스럽게 전환하는 점이었음. 하지만 내가 중국어에 익숙하지 않아서 발음을 제대로 평가하지 못했고, 한자인지 알파벳인지 명확하게 구분되기 때문에 전환이 더 쉬웠던 걸 수도 있음. 만약 같은 문자 체계를 가진 두 언어였다면 이렇게 자연스럽지 않았을 수도 있겠다고 추측함. 마지막으로, 노래 샘플은 상당히 듣기 힘들었고, 왜 이런 샘플을 추가했는지 매우 궁금함
  * 노래와 배경음악에 대한 개발팀의 언급이 다소 이상하게 느껴짐. 논문 마감에 맞춰서 배경음악 제거 방법을 찾지 못해 그냥 “특징”이라고 주장하는 뉘앙스를 강하게 받았음. 실제로 차별점이라 생각해서 추가한 건 아니라는 인상
  * 혹시 이 모델보다 더 나은 TTS 모델이 있다면 추천해줬으면 함. 과장하며 진전을 말하는 사람도, 반대로 깎아내리는 사람도 항상 존재하는데, 어느 쪽도 발전을 방해하는 건 아니라고 생각함. 지금까지 들어본 모델 중엔 이게 제일 나았지만, 혹시 내가 모르는 더 좋은 게 있을 수도 있음
  * 이 모델이 꽤 좋긴 하지만, 무료 모델 중에서는 최고는 아님. Chatterbox가 더 사실적이고 기계적인 느낌도 훨씬 적으며 억양도 더 자연스러움(완벽하진 않음)
  * 여성 음성이 남성 음성보다 훨씬 더 자연스럽고 설득력 있다고 느낌. 그에 비해 남성 음성은 10년 전 TTS보다 그리 낫지 않은 수준
  * 이 모델의 진짜 강점은 음성 클로닝임. 자신의 음성 샘플을 voices 폴더에 넣으면 정말 잘 작동함
* Microsoft 내부에서 Open Source 코딩 에이전트의 이름을 Microsoft VibeCode로 꼭 짓고 있길 바람. 아니면 “Lo”라고 짓고, Phi와 함께 사용할 수도 있을 듯. 그렇게 해서 “Lo Phi”와 vibe code 할 수도 있음. [마이크로소프트의 Phi 4 언어모델 정보](https://techcommunity.microsoft.com/blog/azure-ai-foundry-blog/introducing-phi-4-microsoft%E2%80%99s-newest-small-language-model-specializing-in-comple/4357090)
  * Microsoft의 마케팅 역사를 봤을 때, 결국 "Microsoft Copilot Code Generator for VSCode" 같은 직관적 이름이거나 뜬금없이 "Zunega" 같은 이름이 될 거라고 생각함
  * 천재적인 발상임
* VibeVoice-Large가 핀란드어 발음을 거의 억양 없이 정말 자연스럽게 지원하는 첫 로컬 TTS임. 어제 직접 만져봤는데, 음성 클로닝과 감정까지 복제해내는 점에 특히 감탄했음
* 기술적으로 상당히 고품질이긴 하지만, 특히 남성 음성 쪽은 딱 들었을 때 바로 AI가 만든 음성이라는 인상이 있음. 내 오디오 지식이 부족해서 그 이유를 잘 표현하진 못하겠음
  * 나도 오디오 엔지니어는 아니지만, 이 AI 음성이 “쏘우스(Saw-tooth)” 파형 소리처럼 느껴짐. 기본적인 모델이나 저사양 기술이 샘플링을 덜 하다 보니 일종의 오디오 펄스(진동음)가 많아서 울컥거리는 기계음 느낌이 남. 더 좋은 모델로 갈수록 파형이 부드럽게 변함. [파형에 대한 참고자료](https://www.perfectcircuit.com/signal/difference-between-waveforms)
  * 내가 느끼기엔 음색이 블록처럼 잘려있고, 소리를 시각화하면 파형에 뾰족함이 없고 메탈박스 같은 울림이 생긴다고 설명할 수 있을 듯함
  * 직접 들어보니 어떤 느낌인지 이해할 수 있었음. 음성이 흔들리거나 mp3 압축을 심하게 한 것처럼 들리는 부분도 있음
* 남성 음성이 여성 음성에 비해 훨씬 더 인공적인 느낌이 들어서 거의 로봇처럼 들림. 공식 샘플 대부분이 여성 음성으로 시작하는 것을 보면, 개발팀도 이 문제를 인지하고 있음
  * 나도 비슷하게 느꼈음. 남성 음성이 확실히 더 인위적으로 들림
* 오픈웨이트 TTS 모델 중 최신 인기 순위나 리스트가 있는지 궁금함. 실제로는 STT(ASR) 쪽에 더 관심이 많지만, 선택지가 너무 적은 상황임
  * [huggingface TTS 모델 리스트](https://huggingface.co/models?pipeline_tag=text-to-speech)에서 볼 수 있음. 트렌딩에 오르는 모델들이 그만큼 쓸만한 가치가 있다는 뜻임. 평가 기준이 매우 주관적이기 때문에, 가장 중요한 건 직접 들어보는 것임. HF에서 트렌드에 오르지 않는 모델의 경우, 그다지 좋을 확률이 낮음
  * 최고라고 할 수 있는 TTS: VibeVoice, Chatterbox, Dia, Higgs, F5 TTS, Kokoro, Cosy Voice, XTTS-2임
  * 햄버거 메뉴에서 leaderboard 클릭하면 랭킹 페이지가 나옴 [TTS-AGI/TTS-Arena-V2](https://huggingface.co/spaces/TTS-AGI/TTS-Arena-V2)
  * 최고임
* GPU 성능이 약한 사용자라면 이 모델을 쓰기 어려움. 구형 1080 GPU로는 제대로 실행할 수 없었고, CPU에서 torch.float32로 실행하면 66초 길이의 오디오를 만드는 데 832초나 걸렸음. torch.bfloat16으로 바꿨더니 오디오에 이상한 잡음 현상이 생김. GPU가 부족한 상황에서 지금까지 가장 쓸만했던 TTS 모델은 Kokoro였음. 또, 이 스레드에서 누가 언급했듯이, 텍스트에 별도의 주석(annotation)을 추가해 TTS 출력을 세밀하게 제어하는 기능이 현재는 없음. 텍스트에 중간처리 과정을 추가해 주석을 생성하고, 이를 TTS에 입력하는 방법이 앞으로 모델이 더 발전할 수 있는 방향이라고 생각함. 그렇게 하면 유저가 더 미세하게 결과물을 컨트롤할 수 있음
  * 이건 너무 과장이라고 생각함. macOS는 이미 오래전부터 즉각적이고 상당히 품질 좋은 TTS를 지원해왔고, 이런 무거운 모델이 필요하지 않았음. 대기 시간이 전혀 없음. 이 “AI”라는 열풍이 정말 과하다고 생각함
* 오픈소스라더니, 학습 데이터는 왜 공개하지 않는지 궁금함
  * 대부분의 크롤링 데이터는 저작권, 이용 약관, 개인정보 보호 등 여러가지 법적 위험이 많기 때문에 상업적 회사 입장에선 완전히 “오픈”하는 건 현명하지 않음
* Spontaneous Emotion 샘플 대화는 개발팀이 LLM으로 감정을 푸는 듯한 느낌을 주는 음성임. 노래 샘플은 생략했으면 더 나았을 듯함. 모델이 아직 노래에는 전혀 적합하지 않음
  * 이 노래 덕분에 [다시 찾아서 들어보게 되었음](https://music.youtube.com/watch?v=xl8thVrlvjI&si=dU6aIJIPWSsb_pOv). 감정 자극에는 정말 탁월한 곡임. 로봇의 노래는 아직 갈 길이 멂
* 현재 최고라고 꼽히는 TTS 모델은 HiggsAudio와 VibeVoice, 두 가지임. 개인적으로 Higgs가 속도나 음질 모두 Vibe보다 월등히 뛰어났음. 표현력까지는 잘 모르지만, 놓치지 말고 꼭 써보길 추천함