# 대화형 오디오를 위한 최초의 오픈소스 기반 모델, Hertz-dev

> Clean Markdown view of GeekNews topic #17588. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=17588](https://news.hada.io/topic?id=17588)
- GeekNews Markdown: [https://news.hada.io/topic/17588.md](https://news.hada.io/topic/17588.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2024-11-04T22:33:29+09:00
- Updated: 2024-11-04T22:33:29+09:00
- Original source: [si.inc](https://si.inc/hertz-dev/)
- Points: 2
- Comments: 1

## Topic Body

- Standard Intelligence는 확장 가능한 크로스 모달리티 학습을 연구 중이며, 오디오 전용 트랜스포머 베이스 모델인 hertz-dev를 오픈 소스로 공개함.  
- hertz-dev는 85억 개의 파라미터를 가지고 있으며, 오디오 모델링에 특화되어 있음.  
  
- **hertz-codec**  
  - 모노, 16kHz 음성을 8Hz 잠재 표현으로 변환하는 컨볼루션 오디오 오토인코더임.  
  - 1kbps 비트레이트에서 Soundstream과 Encodec보다 우수하며, DAC와 유사한 성능을 보임.  
  - 500만 개의 인코더 파라미터와 9500만 개의 디코더 파라미터를 가짐.  
  
- **hertz-vae**  
  - 18억 개의 파라미터를 가진 트랜스포머 디코더로, 오디오 VAE의 학습된 사전 역할을 함.  
  - 8192개의 샘플링된 잠재 표현을 사용하여 다음 인코딩된 오디오 프레임을 예측함.  
  
- **hertz-dev**  
  - 66억 개의 파라미터를 가진 트랜스포머 스택임.  
  - 사전 학습된 언어 모델의 가중치를 일부 초기화하여 5000억 개의 토큰으로 단일 에포크 동안 훈련됨.  
  - 이 모델은 연구자들이 다양한 작업에 맞게 미세 조정하기에 적합한 시작점임.  
  - RTX 4090에서 이론적 지연 시간은 65ms이며, 실제 평균 지연 시간은 120ms임.  
  
- **미래 전망**  
  - Hertz-dev는 실시간 음성 상호작용의 미래를 엿볼 수 있는 모델이며, 연구자들이 쉽게 미세 조정하고 확장할 수 있는 모델임.  
  - 더 큰 버전의 Hertz를 개발 중이며, 이는 강화 학습 튜닝을 통해 모델의 원시 능력과 최종 일관성을 크게 향상시킬 예정임.  
  
- **샘플 생성**  
  - hertz-dev의 오디오 모델링 능력을 보여주기 위해 단일 채널 및 이중 채널 생성과 모델과 인간 간의 실시간 대화를 샘플로 제공함.  
  
- **Standard Intelligence의 목표**  
  - 일반 인공지능을 구축하는 것을 목표로 하며, 현재 4명의 팀으로 구성되어 있음.  
  - AGI 구축에 관심이 있는 사람들을 채용 중이며, 투자에 관심 있는 사람들도 연락을 환영함.

## Comments



### Comment 30723

- Author: neo
- Created: 2024-11-04T22:33:30+09:00
- Points: 1

###### [Hacker News 의견](https://news.ycombinator.com/item?id=42036995) 
- 음성 모델을 작업하는 사람들은 시스템에서 나오는 소리가 생리학적 영향을 미치는지 궁금해함
  - 기존 오픈 소스 TTS 엔진보다 훨씬 뛰어난 모델임
  - 멀티모달 기능을 추가하여 텍스트도 수용할 수 있으면 좋겠음
  - Piper와 같은 출력을 더 자연스러운 억양으로 재생하도록 미세 조정할 수 있음
  - 텍스트 LLM이 Piper로, Piper가 Hertz-dev로 연결되면 유용할 것임

- Hertz가 최초의 모델이라고 하지만, Moshi라는 유사한 모델이 있음
  - Moshi는 MacBook에서 실행 가능함
  - [Moshi 링크](https://github.com/kyutai-labs/moshi)

- Tesla의 순수 비전 기반 자율 주행 접근 방식은 기술을 더 접근 가능하고 확장 가능하게 만듦
  - 대규모 데이터셋을 수집하여 빠른 반복을 가능하게 함
  - 성숙 단계에 도달하면 추가 센서 데이터를 재통합할 가능성이 있음

- 음성 상호작용 시스템에 대한 아이디어를 탐구 중임
  - 현재 대부분의 음성 상호작용은 음성을 텍스트로 변환 후 다시 오디오로 변환함
  - 텍스트를 거치지 않고 직접 음성으로 응답하는 시스템을 개발할 수 있다면 자연스럽고 즉흥적인 응답을 생성할 수 있을 것임
  - 음성 상호작용 모델이 표준 음성-텍스트-음성 과정을 따르는지, 음성-음성 처리를 탐구 중인지 궁금함

- 모델 가중치의 라이선스가 무엇인지 궁금함

- 음성 샘플이 종종 무의미한 소리를 내지만, 음향적으로는 훌륭함
  - SD와 LLMs로는 작은 변화에 대한 반응을 연구하여 디버깅할 수 있음
  - Hertz-dev는 소리를 입력으로 사용하므로 어떤 토큰을 조정해야 할지 구별하기 어려움
  - 실시간 사용을 위해서는 fiddling이 불가능함
  - Hertz-dev의 행동을 체계적으로 연구하는 방법에 대해 궁금함

- VUI(Voice User Interface)를 탐구 중이며 유용할 것 같음
  - VUI가 컴퓨터 상호작용의 미래라고 생각함
  - 아이들과 노인들을 새로운 사용자 그룹으로 추가할 수 있음

- 코덱 매개변수가 2010년의 군사 음성 코덱을 떠올리게 함
  - 120ms 프레임을 사용하고 16KHz 오디오로 인코딩됨
  - [IEEE 링크](https://ieeexplore.ieee.org/document/5680311)

- 음성이 약간 왜곡되어 들리고 배경 소음이 있음
  - 모델의 한계인지, 훈련 데이터의 품질 문제인지 궁금함

- [Hertz-dev 저장소 링크](https://github.com/Standard-Intelligence/hertz-dev)
