VibeVoice - 오픈소스 프런티어 음성 AI

(github.com/microsoft)

1P by GN⁺ 1달전 | ★ favorite | 댓글 1개

TTS와 ASR를 함께 포함한 음성 AI 모델군으로 구성되며, 장문 음성 생성과 장문 음성 인식을 모두 다룸
핵심 구조는 7.5 Hz 초저프레임 연속 음성 토크나이저와 next-token diffusion 조합으로, 긴 시퀀스를 처리하면서 오디오 품질과 계산 효율을 함께 노림
텍스트 문맥과 대화 흐름 이해에는 LLM을 쓰고, 고충실도 음향 세부 생성에는 diffusion head를 붙인 구조임
VibeVoice-ASR은 최대 60분 오디오를 단일 패스로 처리하며, 화자 정보와 타임스탬프, 발화 내용을 함께 담은 구조화 전사를 생성함
ASR 모델은 50개 이상 언어를 지원하고, 사용자 지정 hotword 또는 문맥 정보를 받아 도메인 특화 인식 정확도 개선을 노릴 수 있음
ASR 쪽에는 finetuning 코드와 vLLM 추론 지원이 공개돼 있으며, Hugging Face Transformers 라이브러리에서도 직접 사용할 수 있음
VibeVoice-TTS는 최대 90분 길이 음성을 단일 패스로 합성하고, 한 대화 안에서 최대 4명의 화자를 지원함
TTS는 표현력 있는 대화형 음성과 화자 일관성을 강조하며, 영어와 중국어 및 기타 언어를 지원함
저장소 공지 기준으로 VibeVoice-TTS 코드는 제거된 상태이며, 공개 뒤 stated intent와 맞지 않는 사용이 확인돼 저장소에서 삭제됐다고 명시함
VibeVoice-Realtime-0.5B는 0.5B 규모의 실시간 TTS 모델로, 스트리밍 텍스트 입력과 약 300ms 첫 가청 지연, 약 10분 길이의 장문 음성 생성을 지원함
Realtime 모델에는 9개 언어의 다국어 실험 화자와 11개의 영어 스타일 음성이 추가돼 있으며, 더 많은 화자 유형을 계속 늘릴 예정이라고 적혀 있음
배포 경로는 주로 Hugging Face 가중치, Playground, Colab으로 정리돼 있어 빠른 시험이 가능함
이 저장소는 연구 및 개발 목적 전용으로 안내되며, 추가 테스트와 개발 없이 상용 또는 실제 환경에 쓰는 것은 권장되지 않음
모델은 base model인 Qwen2.5 1.5b의 편향과 오류를 물려받을 수 있고, 딥페이크·사칭·허위정보 유포 위험이 있어 합법적이고 책임 있는 사용과 AI 생성물 공개가 권장됨

GN⁺ 1달전 [-]

Hacker News 의견들

이건 새 모델도 아니고, STT 기준으로 환각이 많고 추론도 무겁고 느리며 다국어 성능도 별로임
다른 기능은 모르겠고, 여기서는 순수하게 speech to text만 두고 말하는 것임
- 장점이 아예 없는 건 아니고 몇몇 경우엔 표현력이 조금 더 좋기도 함
  하지만 전체적으로 노이즈 많은 데이터로 학습된 느낌이고 메모리를 더 쓰며 속도도 빠르지 않음
  예전에 잠깐 공개됐다가 곧 내려간 7B 버전인 vibevoice-community를 말하는 중이고, 지금은 chatterbox turbo와 가끔 qwen TTS를 계속 씀
- 왜 오늘 갑자기 이렇게 주목받는지 모르겠음
  트위터에서도 온통 이 얘기뿐임
- TTS도 좋지 않았음
  며칠 써봤는데 우선 1.5B 모델 문서가 없고, 0.5B realtime 모델은 형편없었음
  텍스트를 줄 단위로 변환하는데 랜덤하게 음악을 끼워 넣었고 … 같은 특수문자도 제대로 처리하지 못했음
  솔직히 꽤 실망스러움
- 지금 SOTA는 이보다 훨씬 앞서 있음
- 이 얘기 덕분에 시간 많이 아꼈음
  repo 스타도 바로 취소했고 그냥 넘어가겠음
이런 종류의 모델을 오픈소스라고 부르는 건 이제 그만해야 한다고 봄
실제로는 open weight일 뿐이고, 학습 코드는 독점이며 공개된 적이 없음
https://github.com/microsoft/VibeVoice/issues/102
- 이제는 freeware를 오픈소스라고 부르는 세상에 살고 있음
  미안합니다, Stallman
- 내가 이 불만을 아껴두는 대상은 비오픈소스 라이선스로 배포되면서도 오픈소스라고 부르는 모델들임
  프로젝트가 오픈소스라고 적혀 있을 때 내가 실제로 무엇을 할 수 있는지가 더 중요함
- 이 배는 이미 떠났음
  open source vs open weight 구분은 이제 hacker/cracker나 GIF 발음 논쟁 같은 범주로 들어간 듯함
- 반대로 생각해보면, 내가 MIT 코드를 바이너리만 건네고 소스는 끝내 보내지 않아도 그 코드는 여전히 오픈소스일 수 있음
  접근권이 없을 뿐 라이선스 자체는 MIT라는 뜻임
  그래도 Microsoft가 여기서 개방성을 과장하고 있다는 데는 완전히 동의하고, 놀라운 일도 아님
- 적어도 MIT 라이선스인 건 다행임
  비공개 학습 데이터도 거슬리지만, 내겐 제한적인 라이선스가 더 거슬림
이 범주에서는 Voxtral이 훨씬 낫다고 봄
게다가 webGPU에서 돌릴 수 있을 만큼 작기도 함
https://huggingface.co/spaces/mistralai/Voxtral-Realtime-WebGPU
이 repo/product/author에 대해 Kevin Beaumont가 흥미로운 이야기를 올렸음
https://cyberplace.social/@GossiTheDog/116454846703138243
- 링크를 숨기려고 애쓰는 모습이 참 인상적임
이거 Microsoft가 공개했다가 곧 보안/안전성 이유로 내렸던 그 프로젝트 아닌가 싶음
그 뒤로 뭐가 바뀐 건지 궁금함
- readme의 News 섹션을 보면 됨
  원래 TTS 모델은 이 repo에서 사라졌고 다른 곳에서는 아직 찾을 수 있음
  대신 SST/ASR, long form TTS, streaming TTS 모델은 더 새로운 것들임
- 적어도 내겐 꽤 헷갈림
  이 프로젝트가 방금 말한 것들을 포함해서 여러 영역을 한꺼번에 다루기 때문임
Microsoft 같은 곳이 vibe를 AI 제품 용어로 공식화하는 걸 보니 흥미롭긴 함
- 특히 vibe coded는 이해 없이 급하게 짜 맞춘다는 부정적 뉘앙스가 있을 수 있어서 더 그럼
- 혹시 90년대 IBM의 저주받은 STT인 Via Voice를 비튼 말장난이었나 싶기도 함
- 오히려 Copilot이라고 부르고 싶은 유혹을 참았다는 게 더 놀라움
내가 만든 speech-swift도 VibeVoice처럼 온디바이스 음성 처리에 초점을 둠
다만 클라우드 의존 없이 Apple Silicon 능력을 활용해 ASR, TTS, VAD를 돌리도록 만들었음
ASR은 52개 언어를 지원하고 real-time factor는 0.06임
https://soniqo.audio/benchmarks
Simon의 어젯밤 글이 좋았음
https://simonwillison.net/2026/Apr/27/vibevoice/
- 참고로 저 글은 Speech-to-Text / Speech-Recognition 쪽만 다룸
  whisper 비슷한 영역이고, 이외에도 long-form TTS와 streaming TTS 모델이 따로 있음
- VibeVoice가 최대 1시간 오디오만 처리할 수 있다는데
  왜 그런지 궁금함
컴퓨터의 기본 음성으로 Microsoft Sam을 선택했습니다
- 친구들이랑 컴퓨터실에서 Microsoft Sam으로 긴 문자열을 넣어 웃긴 효과음을 만들며 놀던 기억이 남
  Sususususususu
와, 드디어 Copilot이 아닌 이름의 Microsoft AI 제품이 나왔네
- Vopilot이라고 불렀으면 딱이었을 듯함

답변달기

VibeVoice - 오픈소스 프런티어 음성 AI

함께 보면 좋은 글 β

댓글과 토론

Hacker News 의견들