-
Standard Intelligence는 확장 가능한 크로스 모달리티 학습을 연구 중이며, 오디오 전용 트랜스포머 베이스 모델인 hertz-dev를 오픈 소스로 공개함.
-
hertz-dev는 85억 개의 파라미터를 가지고 있으며, 오디오 모델링에 특화되어 있음.
-
hertz-codec
- 모노, 16kHz 음성을 8Hz 잠재 표현으로 변환하는 컨볼루션 오디오 오토인코더임.
- 1kbps 비트레이트에서 Soundstream과 Encodec보다 우수하며, DAC와 유사한 성능을 보임.
- 500만 개의 인코더 파라미터와 9500만 개의 디코더 파라미터를 가짐.
-
hertz-vae
- 18억 개의 파라미터를 가진 트랜스포머 디코더로, 오디오 VAE의 학습된 사전 역할을 함.
- 8192개의 샘플링된 잠재 표현을 사용하여 다음 인코딩된 오디오 프레임을 예측함.
-
hertz-dev
- 66억 개의 파라미터를 가진 트랜스포머 스택임.
- 사전 학습된 언어 모델의 가중치를 일부 초기화하여 5000억 개의 토큰으로 단일 에포크 동안 훈련됨.
- 이 모델은 연구자들이 다양한 작업에 맞게 미세 조정하기에 적합한 시작점임.
- RTX 4090에서 이론적 지연 시간은 65ms이며, 실제 평균 지연 시간은 120ms임.
-
미래 전망
- Hertz-dev는 실시간 음성 상호작용의 미래를 엿볼 수 있는 모델이며, 연구자들이 쉽게 미세 조정하고 확장할 수 있는 모델임.
- 더 큰 버전의 Hertz를 개발 중이며, 이는 강화 학습 튜닝을 통해 모델의 원시 능력과 최종 일관성을 크게 향상시킬 예정임.
-
샘플 생성
- hertz-dev의 오디오 모델링 능력을 보여주기 위해 단일 채널 및 이중 채널 생성과 모델과 인간 간의 실시간 대화를 샘플로 제공함.
-
Standard Intelligence의 목표
- 일반 인공지능을 구축하는 것을 목표로 하며, 현재 4명의 팀으로 구성되어 있음.
- AGI 구축에 관심이 있는 사람들을 채용 중이며, 투자에 관심 있는 사람들도 연락을 환영함.
Hacker News 의견
-
음성 모델을 작업하는 사람들은 시스템에서 나오는 소리가 생리학적 영향을 미치는지 궁금해함
- 기존 오픈 소스 TTS 엔진보다 훨씬 뛰어난 모델임
- 멀티모달 기능을 추가하여 텍스트도 수용할 수 있으면 좋겠음
- Piper와 같은 출력을 더 자연스러운 억양으로 재생하도록 미세 조정할 수 있음
- 텍스트 LLM이 Piper로, Piper가 Hertz-dev로 연결되면 유용할 것임
-
Hertz가 최초의 모델이라고 하지만, Moshi라는 유사한 모델이 있음
- Moshi는 MacBook에서 실행 가능함
- Moshi 링크
-
Tesla의 순수 비전 기반 자율 주행 접근 방식은 기술을 더 접근 가능하고 확장 가능하게 만듦
- 대규모 데이터셋을 수집하여 빠른 반복을 가능하게 함
- 성숙 단계에 도달하면 추가 센서 데이터를 재통합할 가능성이 있음
-
음성 상호작용 시스템에 대한 아이디어를 탐구 중임
- 현재 대부분의 음성 상호작용은 음성을 텍스트로 변환 후 다시 오디오로 변환함
- 텍스트를 거치지 않고 직접 음성으로 응답하는 시스템을 개발할 수 있다면 자연스럽고 즉흥적인 응답을 생성할 수 있을 것임
- 음성 상호작용 모델이 표준 음성-텍스트-음성 과정을 따르는지, 음성-음성 처리를 탐구 중인지 궁금함
-
모델 가중치의 라이선스가 무엇인지 궁금함
-
음성 샘플이 종종 무의미한 소리를 내지만, 음향적으로는 훌륭함
- SD와 LLMs로는 작은 변화에 대한 반응을 연구하여 디버깅할 수 있음
- Hertz-dev는 소리를 입력으로 사용하므로 어떤 토큰을 조정해야 할지 구별하기 어려움
- 실시간 사용을 위해서는 fiddling이 불가능함
- Hertz-dev의 행동을 체계적으로 연구하는 방법에 대해 궁금함
-
VUI(Voice User Interface)를 탐구 중이며 유용할 것 같음
- VUI가 컴퓨터 상호작용의 미래라고 생각함
- 아이들과 노인들을 새로운 사용자 그룹으로 추가할 수 있음
-
코덱 매개변수가 2010년의 군사 음성 코덱을 떠올리게 함
- 120ms 프레임을 사용하고 16KHz 오디오로 인코딩됨
- IEEE 링크
-
음성이 약간 왜곡되어 들리고 배경 소음이 있음
- 모델의 한계인지, 훈련 데이터의 품질 문제인지 궁금함