# VoxCPM2 - 실제 음성과 비슷한 음성 복제 가능한 다국어 음성 합성 오픈소스

> Clean Markdown view of GeekNews topic #28527. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=28527](https://news.hada.io/topic?id=28527)
- GeekNews Markdown: [https://news.hada.io/topic/28527.md](https://news.hada.io/topic/28527.md)
- Type: news
- Author: [xguru](https://news.hada.io/@xguru)
- Published: 2026-04-15T09:31:02+09:00
- Updated: 2026-04-15T09:31:02+09:00
- Original source: [github.com/OpenBMB](https://github.com/OpenBMB/VoxCPM)
- Points: 43
- Comments: 2

## Summary

**한국어 포함 30개 언어**를 지원하는 오픈소스 음성 합성 모델인데, 언어 태그 없이 텍스트만 넣으면 합성되고, `(Young female voice, warm and gentle)` 같은 **자연어 설명만으로 음성 캐릭터를 생성**할 수 있는 점이 눈에 띕니다. VRAM 8GB면 구동 가능하고 Apache-2.0 라이선스라 상용 제한도 없습니다. 5~10분 분량의 오디오만 있으면 **LoRA 파인튜닝**으로 특정 화자 적응도 가능하니, 팟캐스트나 사내 콘텐츠 제작에 로컬 TTS를 고민하던 분들은 한번 살펴보시길 권합니다.

## Topic Body

- **한국어 포함 30개 언어** 지원, 언어 태그 지정 없이 텍스트만 넣으면 바로 합성 가능  
- 성우 샘플 없이 `(Young female voice, warm and gentle)` 같은 **자연어 설명(성별·나이·톤·감정·속도)만 텍스트 앞에 붙이면** 원하는 음성 캐릭터 바로 생성  
- 이산 토큰화를 거치지 않고 **연속적 음성 표현을 직접 생성**하는 디퓨전 오토리그레시브 기반 TTS 시스템, **2B 파라미터** 모델이 200만 시간 이상의 다국어 데이터로 학습됨  
- 짧은 참조 클립에서 음색을 복제하면서 감정·속도·스타일을 별도로 조절할 수 있는 **Controllable Voice Cloning** 지원 `(slightly faster, cheerful tone)`  
- 참조 오디오 + 대본까지 함께 넣으면 음색·리듬·감정·스타일 **전부 재현**하는 Ultimate Cloning 모드, 별도 후처리 필요없음  
- 16kHz 참조 입력해도 **48kHz 스튜디오급 출력을 AudioVAE V2 비대칭 인코드/디코드로 직접 생성**. 외부 업샘플러나 후처리 파이프라인 구축 불필요  
- RTX 4090 기준 RTF(Real-Time Factor) 약 0.3, **Nano-vLLM 가속 시 약 0.13**으로 실시간 스트리밍에 사용 가능  
- VRAM **약 8GB**면 구동 가능하므로 RTX 3070~4060급 GPU에서도 운용 가능  
- Seed-TTS-eval에서 오픈소스 모델 중 **화자 유사도(SIM) 최상위권**, 30개 언어 내부 ASR 벤치마크 평균 오류율 **1.68%**  
- **5~10분 분량 오디오**만 있으면 LoRA 파인튜닝으로 특정 화자·도메인 적응 가능, `lora_ft_webui.py`로 **WebUI 기반 학습·추론**도 지원  
- MiniCPM-4 백본 기반, **LocEnc → TSLM → RALM → LocDiT** 4단계 파이프라인으로 구성  
- GGML/GGUF CPU 추론(VoxCPM.cpp), ONNX 변환, Apple Neural Engine 백엔드, Rust 재구현, ComfyUI 노드 등 등 **GPU 없는 환경에서도 추론 가능한 옵션** 다수  
- Apache-2.0 라이선스로 **상용 이용 제한 없음**, Python 구현

## Comments


### Comment 55508

- Author: cr543l
- Created: 2026-04-15T21:30:36+09:00
- Points: 1

3060에서도 사용해볼 수 있었습니다 퀄리티는 훌륭했어요

### Comment 55381

- Author: crawler
- Created: 2026-04-15T12:39:42+09:00
- Points: 1

와 OpenBMB 어디서 들었나 했는데 MiniCPM-o 모델 만든 곳이었네요.  
MiniCPM-o 모델은 GPT 4o 같은 옴니 모델인데, 성능이 되게 괜찮았습니다.  
  
[MiniCPM-o 데모 영상](https://www.youtube.com/watch?v=6UzC-O1Q-1U) 한번 확인해 보시구요,  
  
상당히 만족했던 모델이라서 새로운 음성 복제 모델도 기대가 되네요.