대화형 오디오를 위한 최초의 오픈소스 기반 모델, He

▲

GN⁺ 2024-11-04 | parent | ★ favorite | on: 대화형 오디오를 위한 최초의 오픈소스 기반 모델, Hertz-dev(si.inc)

Hacker News 의견

음성 모델을 작업하는 사람들은 시스템에서 나오는 소리가 생리학적 영향을 미치는지 궁금해함
- 기존 오픈 소스 TTS 엔진보다 훨씬 뛰어난 모델임
- 멀티모달 기능을 추가하여 텍스트도 수용할 수 있으면 좋겠음
- Piper와 같은 출력을 더 자연스러운 억양으로 재생하도록 미세 조정할 수 있음
- 텍스트 LLM이 Piper로, Piper가 Hertz-dev로 연결되면 유용할 것임
Hertz가 최초의 모델이라고 하지만, Moshi라는 유사한 모델이 있음
- Moshi는 MacBook에서 실행 가능함
- Moshi 링크
Tesla의 순수 비전 기반 자율 주행 접근 방식은 기술을 더 접근 가능하고 확장 가능하게 만듦
- 대규모 데이터셋을 수집하여 빠른 반복을 가능하게 함
- 성숙 단계에 도달하면 추가 센서 데이터를 재통합할 가능성이 있음
음성 상호작용 시스템에 대한 아이디어를 탐구 중임
- 현재 대부분의 음성 상호작용은 음성을 텍스트로 변환 후 다시 오디오로 변환함
- 텍스트를 거치지 않고 직접 음성으로 응답하는 시스템을 개발할 수 있다면 자연스럽고 즉흥적인 응답을 생성할 수 있을 것임
- 음성 상호작용 모델이 표준 음성-텍스트-음성 과정을 따르는지, 음성-음성 처리를 탐구 중인지 궁금함
모델 가중치의 라이선스가 무엇인지 궁금함
음성 샘플이 종종 무의미한 소리를 내지만, 음향적으로는 훌륭함
- SD와 LLMs로는 작은 변화에 대한 반응을 연구하여 디버깅할 수 있음
- Hertz-dev는 소리를 입력으로 사용하므로 어떤 토큰을 조정해야 할지 구별하기 어려움
- 실시간 사용을 위해서는 fiddling이 불가능함
- Hertz-dev의 행동을 체계적으로 연구하는 방법에 대해 궁금함
VUI(Voice User Interface)를 탐구 중이며 유용할 것 같음
- VUI가 컴퓨터 상호작용의 미래라고 생각함
- 아이들과 노인들을 새로운 사용자 그룹으로 추가할 수 있음
코덱 매개변수가 2010년의 군사 음성 코덱을 떠올리게 함
- 120ms 프레임을 사용하고 16KHz 오디오로 인코딩됨
- IEEE 링크
음성이 약간 왜곡되어 들리고 배경 소음이 있음
- 모델의 한계인지, 훈련 데이터의 품질 문제인지 궁금함
Hertz-dev 저장소 링크