사운드스톰: 효율적인 병렬 오디오 생성

▲

GN⁺ 2023-07-18 | parent | ★ favorite | on: 사운드스톰: 효율적인 병렬 오디오 생성(google-research.github.io)

Hacker News 의견

CGI 산업은 현실적인 시각과 오디오를 만들기 위해 상당한 발전을 이루었습니다.
대화 합성 기술은 기계가 인간과 구별할 수 없는 소리를 내는 마일스톤에 도달했습니다.
과거에는 TTS 기술이 나쁘게 들리기도 했지만, 이제 고품질 옵션이 있습니다.
저자는 이 기술이 라즈베리 파이와 같은 장치에서 언제 접근 가능해질지 궁금해합니다.
Bing과 Bard는 고급 음성 기술을 사용하고 있지만, 이러한 발전이 공개 API와 사용자 인터페이스를 통해 이용 가능하길 원합니다.
기술적 발전으로 창출된 새로운 작업은 종종 저임금이며 천한 일입니다.
SoundStorm은 음성 변경을 나타내는 '|'를 표시한 트랜스크립트를 사용하여 대화를 생성하는 데 훈련되었습니다.
Bark 모델도 대화를 생성하지만, 때로는 음성 변경을 놓치기도 합니다.
단 3초의 소스 자료로 30초의 TTS를 생성할 수 있는 능력은 인상적입니다.
UpWork와 Fiverr 같은 작업 시장은 자체 서비스를 수행할 수 있는 소프트웨어의 이용 가능성에 대해 적응해야 할 수도 있습니다.
Linux 사용자는 쉽게 설정할 수 있는 TTS 음성을 찾고 있습니다.
댓글 작성자는 AI가 생성한 게임에 관심이 없으며, 인간이 작성한 NPC 대화를 선호합니다.
SoundStorm의 출력 예시는 인상적이지만, 일부 미세한 결함이 있습니다.
광고에 허가 없이 AI 생성 음성을 사용할 경우 법적 문제가 발생할 수 있습니다.
SoundStorm PyTorch 저장소의 GitHub 링크가 제공됩니다.