MimikaStudio - 맥용 음성 복제 및 TTS 오픈소스

xguru · 2026-03-19T09:31:02+09:00

음성 복제·텍스트 음성 변환·문서 낭독·오디오북 제작 기능을 통합 제공 MLX 기반 Metal 가속을 활용해 macOS 환경에서 네이티브 성능 구현(윈도우 지원예정) 3초 샘플로 음성 복제가 가능한 Qwen3-TTS와 Chatterbox 엔진을 통합 한국어 포함 다국어(23개 언어) 음성 복제 및 감정 표현 지원 Kokoro TTS와 Supertonic-2, CosyVoice3 ONNX 등 최신 음성 합성 모델 포함 문서 낭독 리더 기능: PDF, DOCX, EPUB, Markdown, TXT 파일을 문장 단위로 읽기 지원 오디오북 생성기: 전체 문서를 WAV/MP3/M4B 형식으로 변환. 챕터 단위 큐 관리, 진행률 추적, 음성 프리셋 재사용 Agentic Voice Cloning Server로 동작하며, 고급 작업 큐 오케스트레이션을 통한 병렬 처리 지원 UI,API,CLI를 모두 제공해 로컬 자동화 및 외부 연동 가능하며, MCP 서버도 내장 공유 음성 라이브러리가 있어서 업로드한 음성을 모든 엔진에서 재사용 가능 모델 매니저 내장: HuggingFace 모델 다운로드 및 상태 확인 가능 Multi-LLM 연동(Claude, OpenAI, Ollama 등) 지원 FastAPI 백엔드와 Flutter 데스크톱 UI로 구성된 약 18,600라인 규모의 코드베이스 Python 백엔드 약 8,500라인, Dart UI 약 10,100라인 macOS 전용 바이너리 제공, Windows/Linux는 코드 호환만 지원(향후 빌드 예정) Business Source License 1.1 (BSL-1.1) 기반 소스 공개, 바이너리는 별도 배포 라이선스 적용

(github.com/BoltzmannEntropy)

42P by xguru 3달전 | ★ favorite | 댓글 2개

음성 복제·텍스트 음성 변환·문서 낭독·오디오북 제작 기능을 통합 제공
MLX 기반 Metal 가속을 활용해 macOS 환경에서 네이티브 성능 구현(윈도우 지원예정)
3초 샘플로 음성 복제가 가능한 Qwen3-TTS와 Chatterbox 엔진을 통합
- 한국어 포함 다국어(23개 언어) 음성 복제 및 감정 표현 지원
Kokoro TTS와 Supertonic-2, CosyVoice3 ONNX 등 최신 음성 합성 모델 포함
문서 낭독 리더 기능: PDF, DOCX, EPUB, Markdown, TXT 파일을 문장 단위로 읽기 지원
오디오북 생성기: 전체 문서를 WAV/MP3/M4B 형식으로 변환. 챕터 단위 큐 관리, 진행률 추적, 음성 프리셋 재사용
Agentic Voice Cloning Server로 동작하며, 고급 작업 큐 오케스트레이션을 통한 병렬 처리 지원
UI,API,CLI를 모두 제공해 로컬 자동화 및 외부 연동 가능하며, MCP 서버도 내장
공유 음성 라이브러리가 있어서 업로드한 음성을 모든 엔진에서 재사용 가능
모델 매니저 내장: HuggingFace 모델 다운로드 및 상태 확인 가능
Multi-LLM 연동(Claude, OpenAI, Ollama 등) 지원
FastAPI 백엔드와 Flutter 데스크톱 UI로 구성된 약 18,600라인 규모의 코드베이스
- Python 백엔드 약 8,500라인, Dart UI 약 10,100라인
macOS 전용 바이너리 제공, Windows/Linux는 코드 호환만 지원(향후 빌드 예정)
Business Source License 1.1 (BSL-1.1) 기반 소스 공개, 바이너리는 별도 배포 라이선스 적용

GeekNews Weekly에 포함된 글입니다. 에디터 코멘트 보기

neocode24 3달전 [-]

mlx-audio GUI 버전 인가요? 품질은 확실히 좋네요.

답변달기

jhk0530 3달전 [-]

써봤는데 개쩌네요 진짜

답변달기

MimikaStudio - 맥용 음성 복제 및 TTS 오픈소스

함께 보면 좋은 글 β

댓글과 토론