# VibeVoice - 오픈소스 프론티어 음성 AI 모델

> Clean Markdown view of GeekNews topic #28971. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=28971](https://news.hada.io/topic?id=28971)
- GeekNews Markdown: [https://news.hada.io/topic/28971.md](https://news.hada.io/topic/28971.md)
- Type: news
- Author: [xguru](https://news.hada.io/@xguru)
- Published: 2026-04-28T13:09:54+09:00
- Updated: 2026-04-28T13:09:54+09:00
- Original source: [github.com/microsoft](https://github.com/microsoft/VibeVoice)
- Points: 12
- Comments: 1

## Topic Body

- Microsoft가 공개한 **오픈소스 음성 AI 모델 패밀리**로, TTS(텍스트→음성)와 ASR(음성→텍스트)을 모두 포함  
- ASR은 Open AI Whisper와 비슷하지만 **화자 분리(speaker diarization)** 기능이 모델 자체에 내장  
- 핵심 혁신은 **7.5Hz 초저 프레임 레이트** 연속 음성 토크나이저로, 오디오 품질을 유지하면서 긴 시퀀스의 연산 효율성을 대폭 향상  
- **next-token diffusion** 프레임워크 채택 - LLM이 텍스트 맥락을 이해하고, diffusion head가 고품질 음향 디테일 생성  
- **VibeVoice-ASR (7B)**: 최대 **60분 오디오를 단일 패스**로 처리, 화자(Who)·타임스탬프(When)·내용(What)을 구조화 출력  
  - **사용자 맞춤 핫워드** 기능으로 도메인 특화 용어의 인식 정확도 향상  
  - **50개 이상 언어**를 네이티브로 지원하는 다국어 모델  
  - 2026년 3월부터 **Hugging Face Transformers**에 통합  
  - **vLLM 추론** 지원으로 더 빠른 인퍼런스 가능 및 **파인튜닝 코드** 공개  
- **VibeVoice-TTS (1.5B)**: 최대 **90분** 대화형 음성을 단일 패스로 생성, 한 번에 **최대 4명 화자** 지원  
  - **감정적 뉘앙스와 대화 역학**을 포착하는 표현력 높은 자연스러운 음성 생성 및 다국어 지원  
  - 2025년 8월 25일 공개되었으나, 이후 의도와 다른 방식으로 사용된 사례가 발견되어 2025년 9월 5일 **TTS 코드가 리포지토리에서 제거**됨  
- **VibeVoice-Realtime (0.5B)**: 최대 **10분**, 첫 음성 출력까지 약 **300밀리초** 만에 가능한 실시간 TTS  
  - **0.5B 파라미터**의 경량 실시간 텍스트-음성 변환 모델로 배포 친화적  
  - **스트리밍 텍스트 입력** 지원  
  - 2025년 12월 3일 공개, 이후 12월 16일에 **9개 언어**(DE, FR, IT, JP, KR, NL, PL, PT, ES)의 다국어 음성과 **11개의 영어 스타일 음성**이 실험적으로 추가  
  - **Apple Silicon(MPS)** 지원이 Gradio ASR 데모에 추가되어 Mac에서의 사용성 개선  
- 베이스 모델(**Qwen2.5 1.5B**) 기반으로 편향·오류를 상속할 수 있으며, 딥페이크 악용 가능성에 대한 주의 필요  
- MIT 라이선스

## Comments


### Comment 56476

- Author: xguru
- Created: 2026-04-28T13:10:06+09:00
- Points: 1

[VibeVoice - Microsoft의 차세대 오픈소스 음성 합성 모델](https://news.hada.io/topic?id=22890)  
긱뉴스에는 초반에 바로 공개되었는데, 이슈가 있어서 VibeVoice-TTS코드는 제거되었네요.  
TTS는 VibeVoice-Realtime 만 이용가능한 상태인듯.  
요 몇일 VibeVoice-ASR 때문에 다시 인기를 끄는지 여기저기서 보이네요  
  
https://simonwillison.net/2026/Apr/27/vibevoice/  
Simon Willison이 ASR을 테스트 했는데, 맥에서 `uv`와 **mlx-audio**를 활용해 한 줄 명령으로 실행 가능하고  
1시간 분량의 오디오를 128GB M5 Max MacBook Pro에서 약 **8분 45초**만에 처리했다네요.   
`화자 분리 잘되는 Whisper` 라고 보면 된다고