GN⁺ 2024-06-28 | parent | ★ favorite | on: Show HN: 500ms 응답 시간의 Voice bots(fastvoiceagent.cerebrium.ai)
Hacker News 의견
  • 속도: 고객 서비스 AI에서 응답 시간을 몇 초로 단축했음. 속도가 모든 것을 이김.
  • 음성 추론: OpenAI의 gpt4o 출시 전에 Websocket Faster Whisper 구현. VAD 신뢰성 문제로 Push to talk 사용.
  • 크로스 플랫폼 VAD: Silero의 VAD 네트워크를 ONNX로 포팅한 크로스 플랫폼 브라우저 VAD 모듈 소개. Firefox에서도 작동.
  • 브라우저 TTS: 브라우저 텍스트-음성 변환 엔진이 점점 빨라지고 품질이 좋아짐. GPT-4o는 저지연을 위해 자동 음성 인식, 이해, 응답 생성 모델을 하나로 통합.
  • 앱 잠재력: Cerebrium의 티저 앱으로 보임. iPad에서 테스트 시 지연 시간이 1400ms에서 400ms로 다양했음.
  • 대화형 경험: 빠른 응답이 대화형 경험을 더 좋게 만듦. 짧은 문맥을 유지하여 짧은 응답 시간을 달성.
  • Whisper-dictation: llama-70b와 함께 Whisper-dictation 사용. 웹사이트 로드 시간 동안 말하기 완료.
  • 자연스러운 대화: VAD와 인터럽션 조정이 매우 자연스러움. 가장 자연스러운 대화 경험.
  • 공유: 다른 사람들이 해결책을 공유하도록 장려. 주말에 다양한 구현 방법을 살펴볼 계획.
  • 마케팅과 수학: 마케팅에서는 500이라고 하지만 수학적으로는 759라고 지적.
  • 빠른 인터페이스: 인터페이스가 매우 빠르고 인간과 거의 구별되지 않음. Cerebrium.ai에 찬사.