▲GN⁺ 2024-11-04 | parent | ★ favorite | on: 대화형 오디오를 위한 최초의 오픈소스 기반 모델, Hertz-dev(si.inc)Hacker News 의견 음성 모델을 작업하는 사람들은 시스템에서 나오는 소리가 생리학적 영향을 미치는지 궁금해함 기존 오픈 소스 TTS 엔진보다 훨씬 뛰어난 모델임 멀티모달 기능을 추가하여 텍스트도 수용할 수 있으면 좋겠음 Piper와 같은 출력을 더 자연스러운 억양으로 재생하도록 미세 조정할 수 있음 텍스트 LLM이 Piper로, Piper가 Hertz-dev로 연결되면 유용할 것임 Hertz가 최초의 모델이라고 하지만, Moshi라는 유사한 모델이 있음 Moshi는 MacBook에서 실행 가능함 Moshi 링크 Tesla의 순수 비전 기반 자율 주행 접근 방식은 기술을 더 접근 가능하고 확장 가능하게 만듦 대규모 데이터셋을 수집하여 빠른 반복을 가능하게 함 성숙 단계에 도달하면 추가 센서 데이터를 재통합할 가능성이 있음 음성 상호작용 시스템에 대한 아이디어를 탐구 중임 현재 대부분의 음성 상호작용은 음성을 텍스트로 변환 후 다시 오디오로 변환함 텍스트를 거치지 않고 직접 음성으로 응답하는 시스템을 개발할 수 있다면 자연스럽고 즉흥적인 응답을 생성할 수 있을 것임 음성 상호작용 모델이 표준 음성-텍스트-음성 과정을 따르는지, 음성-음성 처리를 탐구 중인지 궁금함 모델 가중치의 라이선스가 무엇인지 궁금함 음성 샘플이 종종 무의미한 소리를 내지만, 음향적으로는 훌륭함 SD와 LLMs로는 작은 변화에 대한 반응을 연구하여 디버깅할 수 있음 Hertz-dev는 소리를 입력으로 사용하므로 어떤 토큰을 조정해야 할지 구별하기 어려움 실시간 사용을 위해서는 fiddling이 불가능함 Hertz-dev의 행동을 체계적으로 연구하는 방법에 대해 궁금함 VUI(Voice User Interface)를 탐구 중이며 유용할 것 같음 VUI가 컴퓨터 상호작용의 미래라고 생각함 아이들과 노인들을 새로운 사용자 그룹으로 추가할 수 있음 코덱 매개변수가 2010년의 군사 음성 코덱을 떠올리게 함 120ms 프레임을 사용하고 16KHz 오디오로 인코딩됨 IEEE 링크 음성이 약간 왜곡되어 들리고 배경 소음이 있음 모델의 한계인지, 훈련 데이터의 품질 문제인지 궁금함 Hertz-dev 저장소 링크
Hacker News 의견
음성 모델을 작업하는 사람들은 시스템에서 나오는 소리가 생리학적 영향을 미치는지 궁금해함
Hertz가 최초의 모델이라고 하지만, Moshi라는 유사한 모델이 있음
Tesla의 순수 비전 기반 자율 주행 접근 방식은 기술을 더 접근 가능하고 확장 가능하게 만듦
음성 상호작용 시스템에 대한 아이디어를 탐구 중임
모델 가중치의 라이선스가 무엇인지 궁금함
음성 샘플이 종종 무의미한 소리를 내지만, 음향적으로는 훌륭함
VUI(Voice User Interface)를 탐구 중이며 유용할 것 같음
코덱 매개변수가 2010년의 군사 음성 코덱을 떠올리게 함
음성이 약간 왜곡되어 들리고 배경 소음이 있음
Hertz-dev 저장소 링크