VibeVoice - 오픈소스 프론티어 음성 AI 모델

xguru · 2026-04-28T13:09:54+09:00

Microsoft가 공개한 오픈소스 음성 AI 모델 패밀리로, TTS(텍스트→음성)와 ASR(음성→텍스트)을 모두 포함 ASR은 Open AI Whisper와 비슷하지만 화자 분리(speaker diarization) 기능이 모델 자체에 내장 핵심 혁신은 7.5Hz 초저 프레임 레이트 연속 음성 토크나이저로, 오디오 품질을 유지하면서 긴 시퀀스의 연산 효율성을 대폭 향상 next-token diffusion 프레임워크 채택 - LLM이 텍스트 맥락을 이해하고, diffusion head가 고품질 음향 디테일 생성 VibeVoice-ASR (7B): 최대 60분 오디오를 단일 패스로 처리, 화자(Who)·타임스탬프(When)·내용(What)을 구조화 출력 사용자 맞춤 핫워드 기능으로 도메인 특화 용어의 인식 정확도 향상 50개 이상 언어를 네이티브로 지원하는 다국어 모델 2026년 3월부터 Hugging Face Transformers에 통합 vLLM 추론 지원으로 더 빠른 인퍼런스 가능 및 파인튜닝 코드 공개 VibeVoice-TTS (1.5B): 최대 90분 대화형 음성을 단일 패스로 생성, 한 번에 최대 4명 화자 지원 감정적 뉘앙스와 대화 역학을 포착하는 표현력 높은 자연스러운 음성 생성 및 다국어 지원 2025년 8월 25일 공개되었으나, 이후 의도와 다른 방식으로 사용된 사례가 발견되어 2025년 9월 5일 TTS 코드가 리포지토리에서 제거됨 VibeVoice-Realtime (0.5B): 최대 10분, 첫 음성 출력까지 약 300밀리초 만에 가능한 실시간 TTS 0.5B 파라미터의 경량 실시간 텍스트-음성 변환 모델로 배포 친화적 스트리밍 텍스트 입력 지원 2025년 12월 3일 공개, 이후 12월 16일에 9개 언어(DE, FR, IT, JP, KR, NL, PL, PT, ES)의 다국어 음성과 11개의 영어 스타일 음성이 실험적으로 추가 Apple Silicon(MPS) 지원이 Gradio ASR 데모에 추가되어 Mac에서의 사용성 개선 베이스 모델(Qwen2.5 1.5B) 기반으로 편향·오류를 상속할 수 있으며, 딥페이크 악용 가능성에 대한 주의 필요 MIT 라이선스

Microsoft가 공개한 오픈소스 음성 AI 모델 패밀리로, TTS(텍스트→음성)와 ASR(음성→텍스트)을 모두 포함
ASR은 Open AI Whisper와 비슷하지만 화자 분리(speaker diarization) 기능이 모델 자체에 내장
핵심 혁신은 7.5Hz 초저 프레임 레이트 연속 음성 토크나이저로, 오디오 품질을 유지하면서 긴 시퀀스의 연산 효율성을 대폭 향상
next-token diffusion 프레임워크 채택 - LLM이 텍스트 맥락을 이해하고, diffusion head가 고품질 음향 디테일 생성
VibeVoice-ASR (7B): 최대 60분 오디오를 단일 패스로 처리, 화자(Who)·타임스탬프(When)·내용(What)을 구조화 출력
- 사용자 맞춤 핫워드 기능으로 도메인 특화 용어의 인식 정확도 향상
- 50개 이상 언어를 네이티브로 지원하는 다국어 모델
- 2026년 3월부터 Hugging Face Transformers에 통합
- vLLM 추론 지원으로 더 빠른 인퍼런스 가능 및 파인튜닝 코드 공개
VibeVoice-TTS (1.5B): 최대 90분 대화형 음성을 단일 패스로 생성, 한 번에 최대 4명 화자 지원
- 감정적 뉘앙스와 대화 역학을 포착하는 표현력 높은 자연스러운 음성 생성 및 다국어 지원
- 2025년 8월 25일 공개되었으나, 이후 의도와 다른 방식으로 사용된 사례가 발견되어 2025년 9월 5일 TTS 코드가 리포지토리에서 제거됨
VibeVoice-Realtime (0.5B): 최대 10분, 첫 음성 출력까지 약 300밀리초 만에 가능한 실시간 TTS
- 0.5B 파라미터의 경량 실시간 텍스트-음성 변환 모델로 배포 친화적
- 스트리밍 텍스트 입력 지원
- 2025년 12월 3일 공개, 이후 12월 16일에 9개 언어(DE, FR, IT, JP, KR, NL, PL, PT, ES)의 다국어 음성과 11개의 영어 스타일 음성이 실험적으로 추가
- Apple Silicon(MPS) 지원이 Gradio ASR 데모에 추가되어 Mac에서의 사용성 개선
베이스 모델(Qwen2.5 1.5B) 기반으로 편향·오류를 상속할 수 있으며, 딥페이크 악용 가능성에 대한 주의 필요
MIT 라이선스

VibeVoice - 오픈소스 프론티어 음성 AI 모델

함께 보면 좋은 글 β

댓글과 토론