10P by xguru 9시간전 | ★ favorite | 댓글 1개
  • Microsoft가 공개한 오픈소스 음성 AI 모델 패밀리로, TTS(텍스트→음성)와 ASR(음성→텍스트)을 모두 포함
  • ASR은 Open AI Whisper와 비슷하지만 화자 분리(speaker diarization) 기능이 모델 자체에 내장
  • 핵심 혁신은 7.5Hz 초저 프레임 레이트 연속 음성 토크나이저로, 오디오 품질을 유지하면서 긴 시퀀스의 연산 효율성을 대폭 향상
  • next-token diffusion 프레임워크 채택 - LLM이 텍스트 맥락을 이해하고, diffusion head가 고품질 음향 디테일 생성
  • VibeVoice-ASR (7B): 최대 60분 오디오를 단일 패스로 처리, 화자(Who)·타임스탬프(When)·내용(What)을 구조화 출력
    • 사용자 맞춤 핫워드 기능으로 도메인 특화 용어의 인식 정확도 향상
    • 50개 이상 언어를 네이티브로 지원하는 다국어 모델
    • 2026년 3월부터 Hugging Face Transformers에 통합
    • vLLM 추론 지원으로 더 빠른 인퍼런스 가능 및 파인튜닝 코드 공개
  • VibeVoice-TTS (1.5B): 최대 90분 대화형 음성을 단일 패스로 생성, 한 번에 최대 4명 화자 지원
    • 감정적 뉘앙스와 대화 역학을 포착하는 표현력 높은 자연스러운 음성 생성 및 다국어 지원
    • 2025년 8월 25일 공개되었으나, 이후 의도와 다른 방식으로 사용된 사례가 발견되어 2025년 9월 5일 TTS 코드가 리포지토리에서 제거
  • VibeVoice-Realtime (0.5B): 최대 10분, 첫 음성 출력까지 약 300밀리초 만에 가능한 실시간 TTS
    • 0.5B 파라미터의 경량 실시간 텍스트-음성 변환 모델로 배포 친화적
    • 스트리밍 텍스트 입력 지원
    • 2025년 12월 3일 공개, 이후 12월 16일에 9개 언어(DE, FR, IT, JP, KR, NL, PL, PT, ES)의 다국어 음성과 11개의 영어 스타일 음성이 실험적으로 추가
    • Apple Silicon(MPS) 지원이 Gradio ASR 데모에 추가되어 Mac에서의 사용성 개선
  • 베이스 모델(Qwen2.5 1.5B) 기반으로 편향·오류를 상속할 수 있으며, 딥페이크 악용 가능성에 대한 주의 필요
  • MIT 라이선스

VibeVoice - Microsoft의 차세대 오픈소스 음성 합성 모델
긱뉴스에는 초반에 바로 공개되었는데, 이슈가 있어서 VibeVoice-TTS코드는 제거되었네요.
TTS는 VibeVoice-Realtime 만 이용가능한 상태인듯.
요 몇일 VibeVoice-ASR 때문에 다시 인기를 끄는지 여기저기서 보이네요

https://simonwillison.net/2026/Apr/27/vibevoice/
Simon Willison이 ASR을 테스트 했는데, 맥에서 uvmlx-audio를 활용해 한 줄 명령으로 실행 가능하고
1시간 분량의 오디오를 128GB M5 Max MacBook Pro에서 약 8분 45초만에 처리했다네요.
화자 분리 잘되는 Whisper 라고 보면 된다고