사운드스톰: 효율적인 병렬 오디오 생성

(google-research.github.io)

1P by GN⁺ 2023-07-18 | ★ favorite | 댓글 1개

사운드스톰은 효율적이고 자동회귀가 아닌 오디오 생성을 위한 모델입니다.
이 모델은 양방향 어텐션과 신뢰도 기반 병렬 디코딩을 사용하여 오디오 토큰을 생성합니다.
다른 접근법과 비교했을 때, 사운드스톰은 동일한 오디오 품질과 일관성을 유지하면서 속도가 100배 빠릅니다.
TPU-v4에서 사운드스톰은 단 0.5초 만에 30초의 오디오를 생성할 수 있습니다.
이 모델은 말하는 내용, 화자 목소리, 화자 전환을 제어하여 고품질의 자연스러운 대화를 합성할 수 있습니다.
사운드스톰은 음성 프롬프트와 함께 의미적 토큰에 기반한 오디오를 생성할 수 있습니다.
이 모델은 음성 프롬프트로부터 화자의 목소리를 유지하며 고음질의 오디오를 생성합니다.
사운드스톰은 다른 모델에 비해 더 높은 품질의 오디오를 생성합니다.
이 모델은 훈련 데이터의 편향에 영향을 받을 수 있으므로 오용을 방지하기 위해 주의가 필요합니다.
사운드스톰은 전용 분류기에 의해 감지될 수 있으므로 오용의 위험을 줄입니다.
이 모델은 오디오 생성 연구를 보다 넓은 커뮤니티에게 접근 가능하게 하기 위해 개발되었습니다.

GN⁺ 2023-07-18 [-]

Hacker News 의견

CGI 산업은 현실적인 시각과 오디오를 만들기 위해 상당한 발전을 이루었습니다.
대화 합성 기술은 기계가 인간과 구별할 수 없는 소리를 내는 마일스톤에 도달했습니다.
과거에는 TTS 기술이 나쁘게 들리기도 했지만, 이제 고품질 옵션이 있습니다.
저자는 이 기술이 라즈베리 파이와 같은 장치에서 언제 접근 가능해질지 궁금해합니다.
Bing과 Bard는 고급 음성 기술을 사용하고 있지만, 이러한 발전이 공개 API와 사용자 인터페이스를 통해 이용 가능하길 원합니다.
기술적 발전으로 창출된 새로운 작업은 종종 저임금이며 천한 일입니다.
SoundStorm은 음성 변경을 나타내는 '|'를 표시한 트랜스크립트를 사용하여 대화를 생성하는 데 훈련되었습니다.
Bark 모델도 대화를 생성하지만, 때로는 음성 변경을 놓치기도 합니다.
단 3초의 소스 자료로 30초의 TTS를 생성할 수 있는 능력은 인상적입니다.
UpWork와 Fiverr 같은 작업 시장은 자체 서비스를 수행할 수 있는 소프트웨어의 이용 가능성에 대해 적응해야 할 수도 있습니다.
Linux 사용자는 쉽게 설정할 수 있는 TTS 음성을 찾고 있습니다.
댓글 작성자는 AI가 생성한 게임에 관심이 없으며, 인간이 작성한 NPC 대화를 선호합니다.
SoundStorm의 출력 예시는 인상적이지만, 일부 미세한 결함이 있습니다.
광고에 허가 없이 AI 생성 음성을 사용할 경우 법적 문제가 발생할 수 있습니다.
SoundStorm PyTorch 저장소의 GitHub 링크가 제공됩니다.

답변달기

사운드스톰: 효율적인 병렬 오디오 생성

함께 보면 좋은 글 β

댓글과 토론

Hacker News 의견