Hacker News 의견들
  • 내 글에 이렇게 많은 관심이 생겨서 정말 기쁨임
    나는 파리에서 Kyutai 연구를 기반으로 한 엔터프라이즈급 음성 솔루션을 개발하는 팀의 일원임
    이 분야에서 무언가를 만들고 있는 사람이라면, 다가올 모델과 기능을 공유하고 싶음
    내 프로필에 있는 이메일로 연락 주면 좋겠음

    • 대단한 작업임. 일상적인 기기에서도 로컬로 실행 가능한 수준까지 한계를 밀어붙인 성과라고 생각함
  • 긴 케이스 스터디를 읽다가 브라우저 확장이 필요하다는 걸 깨닫고, 직접 브라우저 인터페이스를 만들어봄
    결과물은 Pocket Reader

  • 흥미로워서 바로 MCP 서버로 만들어 Claude가 작업 완료를 알려주도록 설정했음
    speak_when_done

    • macOS에는 이미 꽤 자연스러운 TTS 기능이 내장되어 있음
      나도 비슷한 도구를 만들어 say 명령어를 백그라운드 프로세스로 돌렸는데, 좋은 음성을 일관되게 설정하기가 어려웠음
      그 자연스러운 음성이 어딘가 숨겨져 있는 듯함
    • 나도 최근에 piper-tts로 비슷한 걸 만들어봄
      speak-mcp
    • 나도 같은 이유로 Pushover를 설정해서 휴대폰으로 알림을 받게 했음
      이제 당신의 서버도 시도해볼 예정임
  • 이번엔 코드 품질이 정말 좋음
    보통 새로운 모델들의 코드베이스는 불필요한 의존성 덤프로 가득한데, 이번엔 소프트웨어 엔지니어링적으로도 훌륭함

  • 공유해줘서 고마움! 나는 Kokoro 팬이라 로컬 음성 비서를 직접 구축했음
    ova 프로젝트
    Pocket TTS도 꼭 써볼 예정임

    • TTS 성능은 Kokoro가 훨씬 낫다고 느낌
      다만 Pocket TTS는 폐쇄적이라 음성 복제 기능은 확인 불가함
    • 저장소 멋짐! 나도 시도해볼 예정임
      혹시 mlx 기반인지 아니면 Hugging Face transformers 기반인지 궁금함
  • 이 프로젝트를 작은 정적 바이너리로 배포할 수 있을지 궁금함
    현재 의존성이 꽤 큼

    • 관련 이슈는 여기에서 추적 가능함
  • 정말 마음에 듦
    다만 MIT 라이선스라고 되어 있는데, README에 별도의 금지된 사용(Prohibited Use) 섹션이 있어서 비자유 소프트웨어가 되는 건 아닌지 헷갈림

    • 내 이해로는 코드는 MIT, 하지만 모델은 별도 라이선스
      이미지나 사운드처럼 ML 모델도 소프트웨어로 간주되지 않을 수 있음
      Hugging Face 모델 카드에도 같은 금지 조항이 있음
    • MIT 라이선스에는 “제한 없이 사용할 수 있다”는 문구가 있음
      따라서 README의 금지 항목은 법적으로 상충될 가능성이 있음
    • 금지 조항은 “범죄에 사용하지 말라” 수준이라 법적 효력은 미미할 듯함
    • “사용해도 된다, 하지만 이런 용도로는 안 된다”면 실제로 라이선스를 위반한 건지 애매함
    • 금지 조항은 불필요한 형식적 장식처럼 느껴짐
  • M1 Mac에서 uvx pocket-tts serve를 실행해봤음
    테스트로 『두 도시 이야기』의 첫 문단을 읽게 했는데, Javert 음성이 문장을 중간중간 건너뛰는 문제가 있었음
    예를 들어 “it was the age of foolishness” 같은 구절이 생략됨
    신뢰가 떨어지는 부분임
    관련 이슈는 여기에 올림

    • 내 테스트에서도 “we had everything before us” 부분이 생략됨. 확실히 좋지 않은 신호임
    • 나도 같은 현상을 봄. 문장을 건너뛰거나 단어 순서를 바꾸는 등 출력 왜곡이 있었음 (Win10 RTX 5070 Ti)
    • Eponine 음성으로도 “we had nothing before us”를 생략하고 마지막 문장을 말하지 않음. 내부적으로 뭔가 잘못된 듯함
  • 나는 그동안 음성 모델을 많이 써보지 않았는데, Pocket TTS를 통해 unmute.sh를 알게 됨
    오픈소스이고 같은 회사에서 만든 것 같음
    이 모델들은 홈랩 환경에서도 저비용으로 충분히 활용 가능해 보임
    오픈소스 모델들이 상향 평준화되어 있어서 거의 모든 용도에 맞는 게 있음
    진짜 진입장벽이 남아 있는 분야는 코딩 모델뿐인 듯함
    Deepseek 4가 Claude Sonnet을 이길 수 있을지도 흥미로움

  • Codex 플러그인에 통합해서 각 턴이 끝날 때 요약을 읽어주게 했는데, 놀라울 정도로 잘 작동함
    내 MacBook에서 Samantha보다 훨씬 부드럽게 실행됨
    agentify-sh/speak