VibeVoice - 오픈소스 프런티어 음성 AI

▲

GN⁺ 5시간전 | parent | ★ favorite | on: VibeVoice - 오픈소스 프런티어 음성 AI(github.com/microsoft)

Hacker News 의견들

이건 새 모델도 아니고, STT 기준으로 환각이 많고 추론도 무겁고 느리며 다국어 성능도 별로임
다른 기능은 모르겠고, 여기서는 순수하게 speech to text만 두고 말하는 것임
- 장점이 아예 없는 건 아니고 몇몇 경우엔 표현력이 조금 더 좋기도 함
  하지만 전체적으로 노이즈 많은 데이터로 학습된 느낌이고 메모리를 더 쓰며 속도도 빠르지 않음
  예전에 잠깐 공개됐다가 곧 내려간 7B 버전인 vibevoice-community를 말하는 중이고, 지금은 chatterbox turbo와 가끔 qwen TTS를 계속 씀
- 왜 오늘 갑자기 이렇게 주목받는지 모르겠음
  트위터에서도 온통 이 얘기뿐임
- TTS도 좋지 않았음
  며칠 써봤는데 우선 1.5B 모델 문서가 없고, 0.5B realtime 모델은 형편없었음
  텍스트를 줄 단위로 변환하는데 랜덤하게 음악을 끼워 넣었고 … 같은 특수문자도 제대로 처리하지 못했음
  솔직히 꽤 실망스러움
- 지금 SOTA는 이보다 훨씬 앞서 있음
- 이 얘기 덕분에 시간 많이 아꼈음
  repo 스타도 바로 취소했고 그냥 넘어가겠음
이런 종류의 모델을 오픈소스라고 부르는 건 이제 그만해야 한다고 봄
실제로는 open weight일 뿐이고, 학습 코드는 독점이며 공개된 적이 없음
https://github.com/microsoft/VibeVoice/issues/102
- 이제는 freeware를 오픈소스라고 부르는 세상에 살고 있음
  미안합니다, Stallman
- 내가 이 불만을 아껴두는 대상은 비오픈소스 라이선스로 배포되면서도 오픈소스라고 부르는 모델들임
  프로젝트가 오픈소스라고 적혀 있을 때 내가 실제로 무엇을 할 수 있는지가 더 중요함
- 이 배는 이미 떠났음
  open source vs open weight 구분은 이제 hacker/cracker나 GIF 발음 논쟁 같은 범주로 들어간 듯함
- 반대로 생각해보면, 내가 MIT 코드를 바이너리만 건네고 소스는 끝내 보내지 않아도 그 코드는 여전히 오픈소스일 수 있음
  접근권이 없을 뿐 라이선스 자체는 MIT라는 뜻임
  그래도 Microsoft가 여기서 개방성을 과장하고 있다는 데는 완전히 동의하고, 놀라운 일도 아님
- 적어도 MIT 라이선스인 건 다행임
  비공개 학습 데이터도 거슬리지만, 내겐 제한적인 라이선스가 더 거슬림
이 범주에서는 Voxtral이 훨씬 낫다고 봄
게다가 webGPU에서 돌릴 수 있을 만큼 작기도 함
https://huggingface.co/spaces/mistralai/Voxtral-Realtime-WebGPU
이 repo/product/author에 대해 Kevin Beaumont가 흥미로운 이야기를 올렸음
https://cyberplace.social/@GossiTheDog/116454846703138243
- 링크를 숨기려고 애쓰는 모습이 참 인상적임
이거 Microsoft가 공개했다가 곧 보안/안전성 이유로 내렸던 그 프로젝트 아닌가 싶음
그 뒤로 뭐가 바뀐 건지 궁금함
- readme의 News 섹션을 보면 됨
  원래 TTS 모델은 이 repo에서 사라졌고 다른 곳에서는 아직 찾을 수 있음
  대신 SST/ASR, long form TTS, streaming TTS 모델은 더 새로운 것들임
- 적어도 내겐 꽤 헷갈림
  이 프로젝트가 방금 말한 것들을 포함해서 여러 영역을 한꺼번에 다루기 때문임
Microsoft 같은 곳이 vibe를 AI 제품 용어로 공식화하는 걸 보니 흥미롭긴 함
- 특히 vibe coded는 이해 없이 급하게 짜 맞춘다는 부정적 뉘앙스가 있을 수 있어서 더 그럼
- 혹시 90년대 IBM의 저주받은 STT인 Via Voice를 비튼 말장난이었나 싶기도 함
- 오히려 Copilot이라고 부르고 싶은 유혹을 참았다는 게 더 놀라움
내가 만든 speech-swift도 VibeVoice처럼 온디바이스 음성 처리에 초점을 둠
다만 클라우드 의존 없이 Apple Silicon 능력을 활용해 ASR, TTS, VAD를 돌리도록 만들었음
ASR은 52개 언어를 지원하고 real-time factor는 0.06임
https://soniqo.audio/benchmarks
Simon의 어젯밤 글이 좋았음
https://simonwillison.net/2026/Apr/27/vibevoice/
- 참고로 저 글은 Speech-to-Text / Speech-Recognition 쪽만 다룸
  whisper 비슷한 영역이고, 이외에도 long-form TTS와 streaming TTS 모델이 따로 있음
- VibeVoice가 최대 1시간 오디오만 처리할 수 있다는데
  왜 그런지 궁금함
컴퓨터의 기본 음성으로 Microsoft Sam을 선택했습니다
- 친구들이랑 컴퓨터실에서 Microsoft Sam으로 긴 문자열을 넣어 웃긴 효과음을 만들며 놀던 기억이 남
  Sususususususu
와, 드디어 Copilot이 아닌 이름의 Microsoft AI 제품이 나왔네
- Vopilot이라고 불렀으면 딱이었을 듯함