Hacker News 의견
  • pipecat을 사용해 본 적이 있고 좋았음. 하지만 네이티브로 컴파일되고 엣지 디바이스에서 실행할 수 있는 sherpa-onnx로 전환했음

    • 구글 번역기 앱을 사용할 때 긴 문장을 말하다가 잠시 멈추거나 속도를 늦추는 경우가 많아 대화 모드를 피함
    • 이 문제는 낮은 지연 시간의 턴 감지와 음성 중단 감지, 그리고 매우 빠른 로우 레이턴시 LLM이 필요함
    • 시스템이 이전 오디오를 버리지 않고 마지막 문장을 계속할 수 있도록 하는 좋은 복구 기능이 필요함
    • i/o 지연 시간 개선을 위해 낮은 지연 시간의 오디오 API, 매우 짧은 오디오 버퍼, 전용 오디오 카테고리 및 모드 사용 필요
    • 스트리밍 모드에서 TTS를 사용할 수 있는지 확실하지 않음
    • 잘 설계된 푸시 투 톡이 좋은 해결책일 수 있음
  • 오늘 몇 가지 흥미로운 업데이트가 있었음

    • CoreML을 사용한 100ms 추론
    • 데이터의 하위 집합으로 훈련된 LSTM 모델
  • README에서 대부분의 답을 얻었음. 잘 작성되었음

  • Wav2Vec2-BERT를 미세 조정하는 데 필요한 리소스와 양을 공유할 수 있는지 궁금함

  • 턴 감지가 무엇인지 궁금함

  • 이 기술이 더 발전하는 것을 보게 되어 기쁨

    • Siri와 같은 최악의 음성 시스템부터 ChatGPT 음성 모드까지, 컴퓨터가 이 작업을 잘 수행하지 못함
    • '에이전트'가 간단하지만 유용한 작업을 수행하는 데 가장 큰 장애물일 수 있음
    • AI가 여전히 어려움을 겪는 상황이 많고, 이러한 오류는 대화의 효율성을 파괴하거나 심각한 기능 오류를 초래할 수 있음
  • HF 자폐증 진단을 받은 사람으로서 이 기술을 이어피스에 적용하고 싶음

  • 몇 가지 턴 기반 모델을 검토한 결과, 구현이 매우 일치함. 이 기술이 어떻게 발전할지 기대됨

  • Vedal이 Neuro-sama의 모델에 이 기술을 통합했으면 좋겠음. osu 봇에서 AI Vtuber로 변신한 사례

  • 여러 화자를 지원하는지 궁금함

  • 포킹 중임