18P by xguru 8시간전 | ★ favorite | 댓글 1개
  • 음성 복제·텍스트 음성 변환·문서 낭독·오디오북 제작 기능을 통합 제공
  • MLX 기반 Metal 가속을 활용해 macOS 환경에서 네이티브 성능 구현(윈도우 지원예정)
  • 3초 샘플로 음성 복제가 가능한 Qwen3-TTSChatterbox 엔진을 통합
    • 한국어 포함 다국어(23개 언어) 음성 복제 및 감정 표현 지원
  • Kokoro TTSSupertonic-2, CosyVoice3 ONNX 등 최신 음성 합성 모델 포함
  • 문서 낭독 리더 기능: PDF, DOCX, EPUB, Markdown, TXT 파일을 문장 단위로 읽기 지원
  • 오디오북 생성기: 전체 문서를 WAV/MP3/M4B 형식으로 변환. 챕터 단위 큐 관리, 진행률 추적, 음성 프리셋 재사용
  • Agentic Voice Cloning Server로 동작하며, 고급 작업 큐 오케스트레이션을 통한 병렬 처리 지원
  • UI,API,CLI를 모두 제공해 로컬 자동화 및 외부 연동 가능하며, MCP 서버도 내장
  • 공유 음성 라이브러리가 있어서 업로드한 음성을 모든 엔진에서 재사용 가능
  • 모델 매니저 내장: HuggingFace 모델 다운로드 및 상태 확인 가능
  • Multi-LLM 연동(Claude, OpenAI, Ollama 등) 지원
  • FastAPI 백엔드Flutter 데스크톱 UI로 구성된 약 18,600라인 규모의 코드베이스
    • Python 백엔드 약 8,500라인, Dart UI 약 10,100라인
  • macOS 전용 바이너리 제공, Windows/Linux는 코드 호환만 지원(향후 빌드 예정)
  • Business Source License 1.1 (BSL-1.1) 기반 소스 공개, 바이너리는 별도 배포 라이선스 적용

써봤는데 개쩌네요 진짜