- 한국어 포함 30개 언어 지원, 언어 태그 지정 없이 텍스트만 넣으면 바로 합성 가능
- 성우 샘플 없이
(Young female voice, warm and gentle) 같은 자연어 설명(성별·나이·톤·감정·속도)만 텍스트 앞에 붙이면 원하는 음성 캐릭터 바로 생성
- 이산 토큰화를 거치지 않고 연속적 음성 표현을 직접 생성하는 디퓨전 오토리그레시브 기반 TTS 시스템, 2B 파라미터 모델이 200만 시간 이상의 다국어 데이터로 학습됨
- 짧은 참조 클립에서 음색을 복제하면서 감정·속도·스타일을 별도로 조절할 수 있는 Controllable Voice Cloning 지원
(slightly faster, cheerful tone)
- 참조 오디오 + 대본까지 함께 넣으면 음색·리듬·감정·스타일 전부 재현하는 Ultimate Cloning 모드, 별도 후처리 필요없음
- 16kHz 참조 입력해도 48kHz 스튜디오급 출력을 AudioVAE V2 비대칭 인코드/디코드로 직접 생성. 외부 업샘플러나 후처리 파이프라인 구축 불필요
- RTX 4090 기준 RTF(Real-Time Factor) 약 0.3, Nano-vLLM 가속 시 약 0.13으로 실시간 스트리밍에 사용 가능
- VRAM 약 8GB면 구동 가능하므로 RTX 3070~4060급 GPU에서도 운용 가능
- Seed-TTS-eval에서 오픈소스 모델 중 화자 유사도(SIM) 최상위권, 30개 언어 내부 ASR 벤치마크 평균 오류율 1.68%
- 5~10분 분량 오디오만 있으면 LoRA 파인튜닝으로 특정 화자·도메인 적응 가능,
lora_ft_webui.py로 WebUI 기반 학습·추론도 지원
- MiniCPM-4 백본 기반, LocEnc → TSLM → RALM → LocDiT 4단계 파이프라인으로 구성
- GGML/GGUF CPU 추론(VoxCPM.cpp), ONNX 변환, Apple Neural Engine 백엔드, Rust 재구현, ComfyUI 노드 등 등 GPU 없는 환경에서도 추론 가능한 옵션 다수
- Apache-2.0 라이선스로 상용 이용 제한 없음, Python 구현