25P by xguru 9시간전 | ★ favorite | 댓글 1개
  • 한국어 포함 30개 언어 지원, 언어 태그 지정 없이 텍스트만 넣으면 바로 합성 가능
  • 성우 샘플 없이 (Young female voice, warm and gentle) 같은 자연어 설명(성별·나이·톤·감정·속도)만 텍스트 앞에 붙이면 원하는 음성 캐릭터 바로 생성
  • 이산 토큰화를 거치지 않고 연속적 음성 표현을 직접 생성하는 디퓨전 오토리그레시브 기반 TTS 시스템, 2B 파라미터 모델이 200만 시간 이상의 다국어 데이터로 학습됨
  • 짧은 참조 클립에서 음색을 복제하면서 감정·속도·스타일을 별도로 조절할 수 있는 Controllable Voice Cloning 지원 (slightly faster, cheerful tone)
  • 참조 오디오 + 대본까지 함께 넣으면 음색·리듬·감정·스타일 전부 재현하는 Ultimate Cloning 모드, 별도 후처리 필요없음
  • 16kHz 참조 입력해도 48kHz 스튜디오급 출력을 AudioVAE V2 비대칭 인코드/디코드로 직접 생성. 외부 업샘플러나 후처리 파이프라인 구축 불필요
  • RTX 4090 기준 RTF(Real-Time Factor) 약 0.3, Nano-vLLM 가속 시 약 0.13으로 실시간 스트리밍에 사용 가능
  • VRAM 약 8GB면 구동 가능하므로 RTX 3070~4060급 GPU에서도 운용 가능
  • Seed-TTS-eval에서 오픈소스 모델 중 화자 유사도(SIM) 최상위권, 30개 언어 내부 ASR 벤치마크 평균 오류율 1.68%
  • 5~10분 분량 오디오만 있으면 LoRA 파인튜닝으로 특정 화자·도메인 적응 가능, lora_ft_webui.pyWebUI 기반 학습·추론도 지원
  • MiniCPM-4 백본 기반, LocEnc → TSLM → RALM → LocDiT 4단계 파이프라인으로 구성
  • GGML/GGUF CPU 추론(VoxCPM.cpp), ONNX 변환, Apple Neural Engine 백엔드, Rust 재구현, ComfyUI 노드 등 등 GPU 없는 환경에서도 추론 가능한 옵션 다수
  • Apache-2.0 라이선스로 상용 이용 제한 없음, Python 구현

와 OpenBMB 어디서 들었나 했는데 MiniCPM-o 모델 만든 곳이었네요.
MiniCPM-o 모델은 GPT 4o 같은 옴니 모델인데, 성능이 되게 괜찮았습니다.

MiniCPM-o 데모 영상 한번 확인해 보시구요,

상당히 만족했던 모델이라서 새로운 음성 복제 모델도 기대가 되네요.