VoxCPM2 - 실제 음성과 비슷한 음성 복제 가능한 다국어 음성 합성 오픈소스

xguru · 2026-04-15T09:31:02+09:00

한국어 포함 30개 언어 지원, 언어 태그 지정 없이 텍스트만 넣으면 바로 합성 가능 성우 샘플 없이 (Young female voice, warm and gentle) 같은 자연어 설명(성별·나이·톤·감정·속도)만 텍스트 앞에 붙이면 원하는 음성 캐릭터 바로 생성 이산 토큰화를 거치지 않고 연속적 음성 표현을 직접 생성하는 디퓨전 오토리그레시브 기반 TTS 시스템, 2B 파라미터 모델이 200만 시간 이상의 다국어 데이터로 학습됨 짧은 참조 클립에서 음색을 복제하면서 감정·속도·스타일을 별도로 조절할 수 있는 Controllable Voice Cloning 지원 (slightly faster, cheerful tone) 참조 오디오 + 대본까지 함께 넣으면 음색·리듬·감정·스타일 전부 재현하는 Ultimate Cloning 모드, 별도 후처리 필요없음 16kHz 참조 입력해도 48kHz 스튜디오급 출력을 AudioVAE V2 비대칭 인코드/디코드로 직접 생성. 외부 업샘플러나 후처리 파이프라인 구축 불필요 RTX 4090 기준 RTF(Real-Time Factor) 약 0.3, Nano-vLLM 가속 시 약 0.13으로 실시간 스트리밍에 사용 가능 VRAM 약 8GB면 구동 가능하므로 RTX 3070~4060급 GPU에서도 운용 가능 Seed-TTS-eval에서 오픈소스 모델 중 화자 유사도(SIM) 최상위권, 30개 언어 내부 ASR 벤치마크 평균 오류율 1.68% 5~10분 분량 오디오만 있으면 LoRA 파인튜닝으로 특정 화자·도메인 적응 가능, lora_ft_webui.py로 WebUI 기반 학습·추론도 지원 MiniCPM-4 백본 기반, LocEnc → TSLM → RALM → LocDiT 4단계 파이프라인으로 구성 GGML/GGUF CPU 추론(VoxCPM.cpp), ONNX 변환, Apple Neural Engine 백엔드, Rust 재구현, ComfyUI 노드 등 등 GPU 없는 환경에서도 추론 가능한 옵션 다수 Apache-2.0 라이선스로 상용 이용 제한 없음, Python 구현

(github.com/OpenBMB)

43P by xguru 3달전 | ★ favorite | 댓글 2개

한국어 포함 30개 언어 지원, 언어 태그 지정 없이 텍스트만 넣으면 바로 합성 가능
성우 샘플 없이 (Young female voice, warm and gentle) 같은 자연어 설명(성별·나이·톤·감정·속도)만 텍스트 앞에 붙이면 원하는 음성 캐릭터 바로 생성
이산 토큰화를 거치지 않고 연속적 음성 표현을 직접 생성하는 디퓨전 오토리그레시브 기반 TTS 시스템, 2B 파라미터 모델이 200만 시간 이상의 다국어 데이터로 학습됨
짧은 참조 클립에서 음색을 복제하면서 감정·속도·스타일을 별도로 조절할 수 있는 Controllable Voice Cloning 지원 (slightly faster, cheerful tone)
참조 오디오 + 대본까지 함께 넣으면 음색·리듬·감정·스타일 전부 재현하는 Ultimate Cloning 모드, 별도 후처리 필요없음
16kHz 참조 입력해도 48kHz 스튜디오급 출력을 AudioVAE V2 비대칭 인코드/디코드로 직접 생성. 외부 업샘플러나 후처리 파이프라인 구축 불필요
RTX 4090 기준 RTF(Real-Time Factor) 약 0.3, Nano-vLLM 가속 시 약 0.13으로 실시간 스트리밍에 사용 가능
VRAM 약 8GB면 구동 가능하므로 RTX 3070~4060급 GPU에서도 운용 가능
Seed-TTS-eval에서 오픈소스 모델 중 화자 유사도(SIM) 최상위권, 30개 언어 내부 ASR 벤치마크 평균 오류율 1.68%
5~10분 분량 오디오만 있으면 LoRA 파인튜닝으로 특정 화자·도메인 적응 가능, lora_ft_webui.py로 WebUI 기반 학습·추론도 지원
MiniCPM-4 백본 기반, LocEnc → TSLM → RALM → LocDiT 4단계 파이프라인으로 구성
GGML/GGUF CPU 추론(VoxCPM.cpp), ONNX 변환, Apple Neural Engine 백엔드, Rust 재구현, ComfyUI 노드 등 등 GPU 없는 환경에서도 추론 가능한 옵션 다수
Apache-2.0 라이선스로 상용 이용 제한 없음, Python 구현