Smart-turn - 오픈소스 오디오 턴 감지 모델
(github.com/pipecat-ai)- 턴 감지는 음성 AI 스택에서 가장 중요한 기능 중 하나로, 사람이 말할 때 음성 에이전트가 응답해야 할 타이밍을 결정하는 기술
- 대부분의 음성 에이전트는 VAD(Voice Activity Detection) 기반으로 오디오를 음성 및 비음성 세그먼트로 구분하여 음향적, 언어적 의미는 반영되지 않음
- 인간은 문법, 억양, 말의 속도 등 복잡한 신호를 통해 턴 감지를 수행함
- 목표: VAD 기반 접근 방식보다 인간의 기대치에 더 가까운 모델 구축
- 오픈 소스 기반의 커뮤니티 주도형 오디오 턴 감지 모델 개발 프로젝트
- BSD 2-clause 라이선스 → 누구나 사용, 포크, 기여 가능
- 프로젝트는 Pipecat 생태계에서 시작됨
- Pipecat: 오픈 소스, 공급업체 독립형 음성 및 멀티모달 AI 프레임워크
- 프로젝트 목표
- 고수준 목표
- 누구나 쉽게 사용 가능
- 프로덕션에서 쉽게 배포 가능
- 특정 애플리케이션에 맞춰 손쉽게 파인튜닝 가능
- 현재 모델 한계
- 영어만 지원
- 상대적으로 느린 추론 속도: GPU에서 약 150ms, CPU에서 약 1500ms
- 훈련 데이터는 주로 세그먼트 끝에서 발생하는 완성되지 않은 말(filler words) 중심
- 중기 목표
- 다양한 언어 지원
- 추론 시간: GPU에서 50ms 이하, CPU에서 500ms 이하
- 더 폭넓은 음성 뉘앙스 훈련 데이터 반영
- 완전 합성 데이터 생성 파이프라인 구축
- 텍스트 기반 컨디셔닝 지원 (예: 신용카드, 전화번호, 주소 입력 등)
- 고수준 목표
- 모델 아키텍처
- Meta AI의 Wav2Vec2-BERT 백본 기반 (매개변수 수: 580M)
- 143개 언어, 450만 시간의 비지도 학습 오디오 데이터 사용
- 현재 모델 구조:
- Wav2Vec2-BERT → 2-레이어 분류기(classification head)
- Hugging Face의 Wav2Vec2BertForSequenceClassification 사용
- 실험 진행 중인 아키텍처:
- 단순한 분류기가 데이터 세트 확장 시에도 효과적일지 테스트 중
- 보다 복잡한 구조 도입 가능성 검토 중
- Meta AI의 Wav2Vec2-BERT 백본 기반 (매개변수 수: 580M)
Hacker News 의견
-
pipecat을 사용해 본 적이 있고 좋았음. 하지만 네이티브로 컴파일되고 엣지 디바이스에서 실행할 수 있는 sherpa-onnx로 전환했음
- 구글 번역기 앱을 사용할 때 긴 문장을 말하다가 잠시 멈추거나 속도를 늦추는 경우가 많아 대화 모드를 피함
- 이 문제는 낮은 지연 시간의 턴 감지와 음성 중단 감지, 그리고 매우 빠른 로우 레이턴시 LLM이 필요함
- 시스템이 이전 오디오를 버리지 않고 마지막 문장을 계속할 수 있도록 하는 좋은 복구 기능이 필요함
- i/o 지연 시간 개선을 위해 낮은 지연 시간의 오디오 API, 매우 짧은 오디오 버퍼, 전용 오디오 카테고리 및 모드 사용 필요
- 스트리밍 모드에서 TTS를 사용할 수 있는지 확실하지 않음
- 잘 설계된 푸시 투 톡이 좋은 해결책일 수 있음
-
오늘 몇 가지 흥미로운 업데이트가 있었음
- CoreML을 사용한 100ms 추론
- 데이터의 하위 집합으로 훈련된 LSTM 모델
-
README에서 대부분의 답을 얻었음. 잘 작성되었음
-
Wav2Vec2-BERT를 미세 조정하는 데 필요한 리소스와 양을 공유할 수 있는지 궁금함
-
턴 감지가 무엇인지 궁금함
-
이 기술이 더 발전하는 것을 보게 되어 기쁨
- Siri와 같은 최악의 음성 시스템부터 ChatGPT 음성 모드까지, 컴퓨터가 이 작업을 잘 수행하지 못함
- '에이전트'가 간단하지만 유용한 작업을 수행하는 데 가장 큰 장애물일 수 있음
- AI가 여전히 어려움을 겪는 상황이 많고, 이러한 오류는 대화의 효율성을 파괴하거나 심각한 기능 오류를 초래할 수 있음
-
HF 자폐증 진단을 받은 사람으로서 이 기술을 이어피스에 적용하고 싶음
-
몇 가지 턴 기반 모델을 검토한 결과, 구현이 매우 일치함. 이 기술이 어떻게 발전할지 기대됨
-
Vedal이 Neuro-sama의 모델에 이 기술을 통합했으면 좋겠음. osu 봇에서 AI Vtuber로 변신한 사례
-
여러 화자를 지원하는지 궁금함
-
포킹 중임