# VibeVoice - 오픈소스 프런티어 음성 AI

> Clean Markdown view of GeekNews topic #29018. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=29018](https://news.hada.io/topic?id=29018)
- GeekNews Markdown: [https://news.hada.io/topic/29018.md](https://news.hada.io/topic/29018.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2026-04-29T22:32:46+09:00
- Updated: 2026-04-29T22:32:46+09:00
- Original source: [github.com/microsoft](https://github.com/microsoft/VibeVoice)
- Points: 1
- Comments: 1

## Topic Body

- **TTS와 ASR를 함께 포함한 음성 AI 모델군**으로 구성되며, 장문 음성 생성과 장문 음성 인식을 모두 다룸
- 핵심 구조는 **7.5 Hz 초저프레임 연속 음성 토크나이저**와 **next-token diffusion** 조합으로, 긴 시퀀스를 처리하면서 오디오 품질과 계산 효율을 함께 노림
- 텍스트 문맥과 대화 흐름 이해에는 **LLM**을 쓰고, 고충실도 음향 세부 생성에는 diffusion head를 붙인 구조임
- **VibeVoice-ASR**은 최대 60분 오디오를 단일 패스로 처리하며, 화자 정보와 타임스탬프, 발화 내용을 함께 담은 구조화 전사를 생성함
- ASR 모델은 **50개 이상 언어**를 지원하고, 사용자 지정 hotword 또는 문맥 정보를 받아 도메인 특화 인식 정확도 개선을 노릴 수 있음
- ASR 쪽에는 **finetuning 코드**와 **vLLM 추론 지원**이 공개돼 있으며, Hugging Face Transformers 라이브러리에서도 직접 사용할 수 있음
- **VibeVoice-TTS**는 최대 90분 길이 음성을 단일 패스로 합성하고, 한 대화 안에서 최대 4명의 화자를 지원함
- TTS는 **표현력 있는 대화형 음성**과 화자 일관성을 강조하며, 영어와 중국어 및 기타 언어를 지원함
- 저장소 공지 기준으로 **VibeVoice-TTS 코드는 제거된 상태**이며, 공개 뒤 stated intent와 맞지 않는 사용이 확인돼 저장소에서 삭제됐다고 명시함
- **VibeVoice-Realtime-0.5B**는 0.5B 규모의 실시간 TTS 모델로, 스트리밍 텍스트 입력과 약 300ms 첫 가청 지연, 약 10분 길이의 장문 음성 생성을 지원함
- Realtime 모델에는 **9개 언어의 다국어 실험 화자**와 **11개의 영어 스타일 음성**이 추가돼 있으며, 더 많은 화자 유형을 계속 늘릴 예정이라고 적혀 있음
- 배포 경로는 주로 **Hugging Face 가중치**, Playground, Colab으로 정리돼 있어 빠른 시험이 가능함
- 이 저장소는 **연구 및 개발 목적 전용**으로 안내되며, 추가 테스트와 개발 없이 상용 또는 실제 환경에 쓰는 것은 권장되지 않음
- 모델은 base model인 **Qwen2.5 1.5b의 편향과 오류**를 물려받을 수 있고, 딥페이크·사칭·허위정보 유포 위험이 있어 합법적이고 책임 있는 사용과 AI 생성물 공개가 권장됨

## Comments


### Comment 56564

- Author: neo
- Created: 2026-04-29T22:32:52+09:00
- Points: 1

###### [Hacker News 의견들](https://news.ycombinator.com/item?id=47933236) 
- 이건 **새 모델**도 아니고, **STT** 기준으로 환각이 많고 추론도 무겁고 느리며 다국어 성능도 별로임  
  다른 기능은 모르겠고, 여기서는 순수하게 speech to text만 두고 말하는 것임
  - 장점이 아예 없는 건 아니고 몇몇 경우엔 표현력이 조금 더 좋기도 함  
    하지만 전체적으로 **노이즈 많은 데이터**로 학습된 느낌이고 메모리를 더 쓰며 속도도 빠르지 않음  
    예전에 잠깐 공개됐다가 곧 내려간 **7B 버전**인 vibevoice-community를 말하는 중이고, 지금은 chatterbox turbo와 가끔 qwen TTS를 계속 씀
  - 왜 오늘 갑자기 이렇게 주목받는지 모르겠음  
    트위터에서도 온통 이 얘기뿐임
  - **TTS**도 좋지 않았음  
    며칠 써봤는데 우선 **1.5B 모델 문서**가 없고, 0.5B realtime 모델은 형편없었음  
    텍스트를 줄 단위로 변환하는데 랜덤하게 음악을 끼워 넣었고 `…` 같은 특수문자도 제대로 처리하지 못했음  
    솔직히 꽤 실망스러움
  - 지금 **SOTA**는 이보다 훨씬 앞서 있음
  - 이 얘기 덕분에 시간 많이 아꼈음  
    repo 스타도 바로 취소했고 그냥 넘어가겠음

- 이런 종류의 모델을 **오픈소스**라고 부르는 건 이제 그만해야 한다고 봄  
  실제로는 **open weight**일 뿐이고, 학습 코드는 독점이며 공개된 적이 없음  
  [https://github.com/microsoft/VibeVoice/issues/102](<https://github.com/microsoft/VibeVoice/issues/102>)
  - 이제는 **freeware**를 오픈소스라고 부르는 세상에 살고 있음  
    미안합니다, Stallman
  - 내가 이 불만을 아껴두는 대상은 **비오픈소스 라이선스**로 배포되면서도 오픈소스라고 부르는 모델들임  
    프로젝트가 오픈소스라고 적혀 있을 때 내가 실제로 무엇을 할 수 있는지가 더 중요함
  - 이 배는 이미 떠났음  
    **open source vs open weight** 구분은 이제 hacker/cracker나 GIF 발음 논쟁 같은 범주로 들어간 듯함
  - 반대로 생각해보면, 내가 **MIT 코드**를 바이너리만 건네고 소스는 끝내 보내지 않아도 그 코드는 여전히 오픈소스일 수 있음  
    접근권이 없을 뿐 라이선스 자체는 MIT라는 뜻임  
    그래도 Microsoft가 여기서 개방성을 과장하고 있다는 데는 완전히 동의하고, 놀라운 일도 아님
  - 적어도 **MIT 라이선스**인 건 다행임  
    비공개 학습 데이터도 거슬리지만, 내겐 제한적인 라이선스가 더 거슬림

- 이 범주에서는 **Voxtral**이 훨씬 낫다고 봄  
  게다가 **webGPU**에서 돌릴 수 있을 만큼 작기도 함  
  [https://huggingface.co/spaces/mistralai/Voxtral-Realtime-WebGPU](<https://huggingface.co/spaces/mistralai/Voxtral-Realtime-WebGPU>)

- 이 repo/product/author에 대해 **Kevin Beaumont**가 흥미로운 이야기를 올렸음  
  [https://cyberplace.social/@GossiTheDog/116454846703138243](<https://cyberplace.social/@GossiTheDog/116454846703138243>)
  - 링크를 숨기려고 애쓰는 모습이 참 인상적임

- 이거 Microsoft가 공개했다가 곧 **보안/안전성** 이유로 내렸던 그 프로젝트 아닌가 싶음  
  그 뒤로 뭐가 바뀐 건지 궁금함
  - readme의 **News 섹션**을 보면 됨  
    원래 TTS 모델은 이 repo에서 사라졌고 다른 곳에서는 아직 찾을 수 있음  
    대신 **SST/ASR**, long form TTS, streaming TTS 모델은 더 새로운 것들임
  - 적어도 내겐 꽤 헷갈림  
    이 프로젝트가 방금 말한 것들을 포함해서 여러 영역을 한꺼번에 다루기 때문임

- Microsoft 같은 곳이 **vibe**를 AI 제품 용어로 공식화하는 걸 보니 흥미롭긴 함
  - 특히 **vibe coded**는 이해 없이 급하게 짜 맞춘다는 부정적 뉘앙스가 있을 수 있어서 더 그럼
  - 혹시 90년대 IBM의 저주받은 STT인 **Via Voice**를 비튼 말장난이었나 싶기도 함
  - 오히려 **Copilot**이라고 부르고 싶은 유혹을 참았다는 게 더 놀라움

- 내가 만든 **speech-swift**도 VibeVoice처럼 온디바이스 음성 처리에 초점을 둠  
  다만 클라우드 의존 없이 Apple Silicon 능력을 활용해 **ASR, TTS, VAD**를 돌리도록 만들었음  
  ASR은 52개 언어를 지원하고 real-time factor는 0.06임  
  [https://soniqo.audio/benchmarks](<https://soniqo.audio/benchmarks>)

- Simon의 어젯밤 글이 좋았음  
  [https://simonwillison.net/2026/Apr/27/vibevoice/](<https://simonwillison.net/2026/Apr/27/vibevoice/>)
  - 참고로 저 글은 **Speech-to-Text / Speech-Recognition** 쪽만 다룸  
    whisper 비슷한 영역이고, 이외에도 long-form TTS와 streaming TTS 모델이 따로 있음
  - **VibeVoice가 최대 1시간 오디오**만 처리할 수 있다는데  
    왜 그런지 궁금함

- 컴퓨터의 기본 음성으로 **Microsoft Sam**을 선택했습니다
  - 친구들이랑 컴퓨터실에서 **Microsoft Sam**으로 긴 문자열을 넣어 웃긴 효과음을 만들며 놀던 기억이 남  
    Sususususususu

- 와, 드디어 **Copilot**이 아닌 이름의 Microsoft AI 제품이 나왔네
  - **Vopilot**이라고 불렀으면 딱이었을 듯함