Hacker News 의견
  • 음성 모델을 작업하는 사람들은 시스템에서 나오는 소리가 생리학적 영향을 미치는지 궁금해함

    • 기존 오픈 소스 TTS 엔진보다 훨씬 뛰어난 모델임
    • 멀티모달 기능을 추가하여 텍스트도 수용할 수 있으면 좋겠음
    • Piper와 같은 출력을 더 자연스러운 억양으로 재생하도록 미세 조정할 수 있음
    • 텍스트 LLM이 Piper로, Piper가 Hertz-dev로 연결되면 유용할 것임
  • Hertz가 최초의 모델이라고 하지만, Moshi라는 유사한 모델이 있음

  • Tesla의 순수 비전 기반 자율 주행 접근 방식은 기술을 더 접근 가능하고 확장 가능하게 만듦

    • 대규모 데이터셋을 수집하여 빠른 반복을 가능하게 함
    • 성숙 단계에 도달하면 추가 센서 데이터를 재통합할 가능성이 있음
  • 음성 상호작용 시스템에 대한 아이디어를 탐구 중임

    • 현재 대부분의 음성 상호작용은 음성을 텍스트로 변환 후 다시 오디오로 변환함
    • 텍스트를 거치지 않고 직접 음성으로 응답하는 시스템을 개발할 수 있다면 자연스럽고 즉흥적인 응답을 생성할 수 있을 것임
    • 음성 상호작용 모델이 표준 음성-텍스트-음성 과정을 따르는지, 음성-음성 처리를 탐구 중인지 궁금함
  • 모델 가중치의 라이선스가 무엇인지 궁금함

  • 음성 샘플이 종종 무의미한 소리를 내지만, 음향적으로는 훌륭함

    • SD와 LLMs로는 작은 변화에 대한 반응을 연구하여 디버깅할 수 있음
    • Hertz-dev는 소리를 입력으로 사용하므로 어떤 토큰을 조정해야 할지 구별하기 어려움
    • 실시간 사용을 위해서는 fiddling이 불가능함
    • Hertz-dev의 행동을 체계적으로 연구하는 방법에 대해 궁금함
  • VUI(Voice User Interface)를 탐구 중이며 유용할 것 같음

    • VUI가 컴퓨터 상호작용의 미래라고 생각함
    • 아이들과 노인들을 새로운 사용자 그룹으로 추가할 수 있음
  • 코덱 매개변수가 2010년의 군사 음성 코덱을 떠올리게 함

    • 120ms 프레임을 사용하고 16KHz 오디오로 인코딩됨
    • IEEE 링크
  • 음성이 약간 왜곡되어 들리고 배경 소음이 있음

    • 모델의 한계인지, 훈련 데이터의 품질 문제인지 궁금함
  • Hertz-dev 저장소 링크