Pocket TTS: CPU에 목소리를 부여하는 고품질

▲

GN⁺ 3달전 | parent | ★ favorite | on: Pocket TTS: CPU에 목소리를 부여하는 고품질 TTS(kyutai.org)

Hacker News 의견들

내 글에 이렇게 많은 관심이 생겨서 정말 기쁨임
나는 파리에서 Kyutai 연구를 기반으로 한 엔터프라이즈급 음성 솔루션을 개발하는 팀의 일원임
이 분야에서 무언가를 만들고 있는 사람이라면, 다가올 모델과 기능을 공유하고 싶음
내 프로필에 있는 이메일로 연락 주면 좋겠음
- 대단한 작업임. 일상적인 기기에서도 로컬로 실행 가능한 수준까지 한계를 밀어붙인 성과라고 생각함
긴 케이스 스터디를 읽다가 브라우저 확장이 필요하다는 걸 깨닫고, 직접 브라우저 인터페이스를 만들어봄
결과물은 Pocket Reader임
흥미로워서 바로 MCP 서버로 만들어 Claude가 작업 완료를 알려주도록 설정했음
speak_when_done
- macOS에는 이미 꽤 자연스러운 TTS 기능이 내장되어 있음
  나도 비슷한 도구를 만들어 say 명령어를 백그라운드 프로세스로 돌렸는데, 좋은 음성을 일관되게 설정하기가 어려웠음
  그 자연스러운 음성이 어딘가 숨겨져 있는 듯함
- 나도 최근에 piper-tts로 비슷한 걸 만들어봄
  speak-mcp
- 나도 같은 이유로 Pushover를 설정해서 휴대폰으로 알림을 받게 했음
  이제 당신의 서버도 시도해볼 예정임
이번엔 코드 품질이 정말 좋음
보통 새로운 모델들의 코드베이스는 불필요한 의존성 덤프로 가득한데, 이번엔 소프트웨어 엔지니어링적으로도 훌륭함
공유해줘서 고마움! 나는 Kokoro 팬이라 로컬 음성 비서를 직접 구축했음
ova 프로젝트
Pocket TTS도 꼭 써볼 예정임
- TTS 성능은 Kokoro가 훨씬 낫다고 느낌
  다만 Pocket TTS는 폐쇄적이라 음성 복제 기능은 확인 불가함
- 저장소 멋짐! 나도 시도해볼 예정임
  혹시 mlx 기반인지 아니면 Hugging Face transformers 기반인지 궁금함
이 프로젝트를 작은 정적 바이너리로 배포할 수 있을지 궁금함
현재 의존성이 꽤 큼
- 관련 이슈는 여기에서 추적 가능함
정말 마음에 듦
다만 MIT 라이선스라고 되어 있는데, README에 별도의 금지된 사용(Prohibited Use) 섹션이 있어서 비자유 소프트웨어가 되는 건 아닌지 헷갈림
- 내 이해로는 코드는 MIT, 하지만 모델은 별도 라이선스임
  이미지나 사운드처럼 ML 모델도 소프트웨어로 간주되지 않을 수 있음
  Hugging Face 모델 카드에도 같은 금지 조항이 있음
- MIT 라이선스에는 “제한 없이 사용할 수 있다”는 문구가 있음
  따라서 README의 금지 항목은 법적으로 상충될 가능성이 있음
- 금지 조항은 “범죄에 사용하지 말라” 수준이라 법적 효력은 미미할 듯함
- “사용해도 된다, 하지만 이런 용도로는 안 된다”면 실제로 라이선스를 위반한 건지 애매함
- 금지 조항은 불필요한 형식적 장식처럼 느껴짐
M1 Mac에서 uvx pocket-tts serve를 실행해봤음
테스트로 『두 도시 이야기』의 첫 문단을 읽게 했는데, Javert 음성이 문장을 중간중간 건너뛰는 문제가 있었음
예를 들어 “it was the age of foolishness” 같은 구절이 생략됨
신뢰가 떨어지는 부분임
관련 이슈는 여기에 올림
- 내 테스트에서도 “we had everything before us” 부분이 생략됨. 확실히 좋지 않은 신호임
- 나도 같은 현상을 봄. 문장을 건너뛰거나 단어 순서를 바꾸는 등 출력 왜곡이 있었음 (Win10 RTX 5070 Ti)
- Eponine 음성으로도 “we had nothing before us”를 생략하고 마지막 문장을 말하지 않음. 내부적으로 뭔가 잘못된 듯함
나는 그동안 음성 모델을 많이 써보지 않았는데, Pocket TTS를 통해 unmute.sh를 알게 됨
오픈소스이고 같은 회사에서 만든 것 같음
이 모델들은 홈랩 환경에서도 저비용으로 충분히 활용 가능해 보임
오픈소스 모델들이 상향 평준화되어 있어서 거의 모든 용도에 맞는 게 있음
진짜 진입장벽이 남아 있는 분야는 코딩 모델뿐인 듯함
Deepseek 4가 Claude Sonnet을 이길 수 있을지도 흥미로움
내 Codex 플러그인에 통합해서 각 턴이 끝날 때 요약을 읽어주게 했는데, 놀라울 정도로 잘 작동함
내 MacBook에서 Samantha보다 훨씬 부드럽게 실행됨
agentify-sh/speak