Smart-turn - 오픈소스 오디오 턴 감지 모델

▲

GN⁺ 2025-03-10 | parent | ★ favorite | on: Smart-turn - 오픈소스 오디오 턴 감지 모델(github.com/pipecat-ai)

Hacker News 의견

pipecat을 사용해 본 적이 있고 좋았음. 하지만 네이티브로 컴파일되고 엣지 디바이스에서 실행할 수 있는 sherpa-onnx로 전환했음
- 구글 번역기 앱을 사용할 때 긴 문장을 말하다가 잠시 멈추거나 속도를 늦추는 경우가 많아 대화 모드를 피함
- 이 문제는 낮은 지연 시간의 턴 감지와 음성 중단 감지, 그리고 매우 빠른 로우 레이턴시 LLM이 필요함
- 시스템이 이전 오디오를 버리지 않고 마지막 문장을 계속할 수 있도록 하는 좋은 복구 기능이 필요함
- i/o 지연 시간 개선을 위해 낮은 지연 시간의 오디오 API, 매우 짧은 오디오 버퍼, 전용 오디오 카테고리 및 모드 사용 필요
- 스트리밍 모드에서 TTS를 사용할 수 있는지 확실하지 않음
- 잘 설계된 푸시 투 톡이 좋은 해결책일 수 있음
오늘 몇 가지 흥미로운 업데이트가 있었음
- CoreML을 사용한 100ms 추론
- 데이터의 하위 집합으로 훈련된 LSTM 모델
README에서 대부분의 답을 얻었음. 잘 작성되었음
Wav2Vec2-BERT를 미세 조정하는 데 필요한 리소스와 양을 공유할 수 있는지 궁금함
턴 감지가 무엇인지 궁금함
이 기술이 더 발전하는 것을 보게 되어 기쁨
- Siri와 같은 최악의 음성 시스템부터 ChatGPT 음성 모드까지, 컴퓨터가 이 작업을 잘 수행하지 못함
- '에이전트'가 간단하지만 유용한 작업을 수행하는 데 가장 큰 장애물일 수 있음
- AI가 여전히 어려움을 겪는 상황이 많고, 이러한 오류는 대화의 효율성을 파괴하거나 심각한 기능 오류를 초래할 수 있음
HF 자폐증 진단을 받은 사람으로서 이 기술을 이어피스에 적용하고 싶음
몇 가지 턴 기반 모델을 검토한 결과, 구현이 매우 일치함. 이 기술이 어떻게 발전할지 기대됨
Vedal이 Neuro-sama의 모델에 이 기술을 통합했으면 좋겠음. osu 봇에서 AI Vtuber로 변신한 사례
여러 화자를 지원하는지 궁금함
포킹 중임