Hacker News 의견

기술적 감탄 및 칭찬

  • 단 두 명이 3개월 만에 만든 프로젝트임에도 매우 높은 퀄리티를 보여줌
  • 대형 기업에 비해 작은 팀이 오디오 모델 분야에서 경쟁력 있는 결과를 낸다는 점이 인상적임
  • "진짜 사람처럼 들린다", "TTS의 미래를 보는 듯하다", "예시가 놀랍다" 등의 반응
  • 여러 사용자가 The Office 장면을 기반으로 만든 오디오 예시를 특히 인상적으로 평가함

음성 품질 및 특징에 대한 평가

  • 대부분 "사람처럼 자연스럽다", "감정 표현이 잘된다", "웃음, 기침, 외침 등 디테일이 살아있다"는 긍정적인 반응
  • 일부는 과장된 감정, 광고같은 느낌, 초반 잡음 등의 단점도 언급
  • 특정 성우 스타일(예: NPR 톤)이나 과거 YouTube 플래시 애니 느낌과 유사하다는 의견도 있음

데모 사용 후기 및 직접 테스트

  • M2 MacBook 등 다양한 하드웨어에서 실행 성공 사례 공유
  • HuggingFace Spaces를 통해 온라인에서 바로 체험 가능하다는 점에 호평
  • Docker와 CUDA 컨테이너로도 쉽게 실행 가능하다는 피드백 공유

오디오북, 소설 활용 관련 논의

  • 다양한 사용자들이 오디오북 제작, 캐릭터별 성우 분리, 감정 풍부한 대사 구현 등에서 잠재력 탐색
  • 다만, 일부는 "그래도 인간 성우가 낫다"는 의견, "좋은 성우는 작품에 고유한 질감을 부여한다"는 주장도 있음
  • AI가 제대로 감정과 캐릭터를 해석한다면 오히려 더 낫다는 반론도 존재

음성 합성 관련 기능 요청 및 질문

  • 다음과 같은 기능/지원 요청이 나옴:
    • 다국어 지원 (중국어, 핀란드어 등)
    • 2인 이상 대화 지원
    • 음성 클로닝(본인 목소리)
    • 단어 단위 타이밍 정보
    • AMD GPU 지원
    • 스트리밍 출력 지원
  • 이에 대해 개발자 측에서는 기능별로 개발 중이거나 향후 지원 계획 공유

라이선스 및 오픈소스 관련

  • Apache 2.0으로 배포 중이며, 원래 문구(연구 목적 한정)는 “shady stuff 하지 말라”는 의미였음을 개발자가 직접 설명
  • 일부 사용자는 혼란을 줄 수 있으므로 더 명확히 해야 한다고 지적

학습 데이터 및 훈련 과정 관련 질문

  • 다수의 사용자가 "데이터셋은 어디서 왔나", "어떻게 훈련했나" 질문
  • 개발자 측에서는 기술 리포트에서 고수준 개요 제공 예정이라고 응답

이름 중복 논란

  • GNOME의 다이어그램 툴(Dia), diabrowser.com 등과의 이름 충돌 지적
  • "AI 프로젝트가 기존 오픈소스 이름을 일부러 차용한다"는 비판도 있음
  • 이에 개발자 측은 "몰랐다, 앞으로 명확히 구분할 것"이라고 답변

사용성과 개선 피드백

  • 데모 사이트가 Notion 기반이라 느리고 링크 공유 불편하다는 의견 → GitHub Pages 같은 가벼운 페이지 제안
  • "join waitlist" 문구 혼동, 불필요한 venv 명시 등 README 개선 제안
  • 서버 캐시 미사용으로 모델을 매번 다운로드하는 문제 등 설정 관련 피드백

개발/응용 및 통합 사례

  • E5-F2, Sesame-TTS 등 다른 TTS 모델들과 비교
  • 특정 도메인(의료 용어 등) 정확성 강조하는 사용자 존재
  • iOS 실행을 위한 codec 정보 요청 및 응용 가능성 제시
  • 실제 서비스 적용 시 스트리밍 및 초기 응답 속도 등 고려 요소 공유

기타

  • HuggingFace 링크 오류나 접근 문제에 대한 안내 및 수정 공유
  • 데모 인터페이스의 북마크 기능 등 부가적인 작은 기능 발견
  • 사용자의 하드웨어 제약, TTS 활용에 대한 일반적인 기대와 우려도 함께 언급됨