GN⁺: 사운드스톰: 효율적인 병렬 오디오 생성
(google-research.github.io)- 사운드스톰은 효율적이고 자동회귀가 아닌 오디오 생성을 위한 모델입니다.
- 이 모델은 양방향 어텐션과 신뢰도 기반 병렬 디코딩을 사용하여 오디오 토큰을 생성합니다.
- 다른 접근법과 비교했을 때, 사운드스톰은 동일한 오디오 품질과 일관성을 유지하면서 속도가 100배 빠릅니다.
- TPU-v4에서 사운드스톰은 단 0.5초 만에 30초의 오디오를 생성할 수 있습니다.
- 이 모델은 말하는 내용, 화자 목소리, 화자 전환을 제어하여 고품질의 자연스러운 대화를 합성할 수 있습니다.
- 사운드스톰은 음성 프롬프트와 함께 의미적 토큰에 기반한 오디오를 생성할 수 있습니다.
- 이 모델은 음성 프롬프트로부터 화자의 목소리를 유지하며 고음질의 오디오를 생성합니다.
- 사운드스톰은 다른 모델에 비해 더 높은 품질의 오디오를 생성합니다.
- 이 모델은 훈련 데이터의 편향에 영향을 받을 수 있으므로 오용을 방지하기 위해 주의가 필요합니다.
- 사운드스톰은 전용 분류기에 의해 감지될 수 있으므로 오용의 위험을 줄입니다.
- 이 모델은 오디오 생성 연구를 보다 넓은 커뮤니티에게 접근 가능하게 하기 위해 개발되었습니다.
Hacker News 의견
- CGI 산업은 현실적인 시각과 오디오를 만들기 위해 상당한 발전을 이루었습니다.
- 대화 합성 기술은 기계가 인간과 구별할 수 없는 소리를 내는 마일스톤에 도달했습니다.
- 과거에는 TTS 기술이 나쁘게 들리기도 했지만, 이제 고품질 옵션이 있습니다.
- 저자는 이 기술이 라즈베리 파이와 같은 장치에서 언제 접근 가능해질지 궁금해합니다.
- Bing과 Bard는 고급 음성 기술을 사용하고 있지만, 이러한 발전이 공개 API와 사용자 인터페이스를 통해 이용 가능하길 원합니다.
- 기술적 발전으로 창출된 새로운 작업은 종종 저임금이며 천한 일입니다.
- SoundStorm은 음성 변경을 나타내는 '|'를 표시한 트랜스크립트를 사용하여 대화를 생성하는 데 훈련되었습니다.
- Bark 모델도 대화를 생성하지만, 때로는 음성 변경을 놓치기도 합니다.
- 단 3초의 소스 자료로 30초의 TTS를 생성할 수 있는 능력은 인상적입니다.
- UpWork와 Fiverr 같은 작업 시장은 자체 서비스를 수행할 수 있는 소프트웨어의 이용 가능성에 대해 적응해야 할 수도 있습니다.
- Linux 사용자는 쉽게 설정할 수 있는 TTS 음성을 찾고 있습니다.
- 댓글 작성자는 AI가 생성한 게임에 관심이 없으며, 인간이 작성한 NPC 대화를 선호합니다.
- SoundStorm의 출력 예시는 인상적이지만, 일부 미세한 결함이 있습니다.
- 광고에 허가 없이 AI 생성 음성을 사용할 경우 법적 문제가 발생할 수 있습니다.
- SoundStorm PyTorch 저장소의 GitHub 링크가 제공됩니다.