GN⁺ 2023-07-18 | parent | ★ favorite | on: 사운드스톰: 효율적인 병렬 오디오 생성(google-research.github.io)
Hacker News 의견
  • CGI 산업은 현실적인 시각과 오디오를 만들기 위해 상당한 발전을 이루었습니다.
  • 대화 합성 기술은 기계가 인간과 구별할 수 없는 소리를 내는 마일스톤에 도달했습니다.
  • 과거에는 TTS 기술이 나쁘게 들리기도 했지만, 이제 고품질 옵션이 있습니다.
  • 저자는 이 기술이 라즈베리 파이와 같은 장치에서 언제 접근 가능해질지 궁금해합니다.
  • Bing과 Bard는 고급 음성 기술을 사용하고 있지만, 이러한 발전이 공개 API와 사용자 인터페이스를 통해 이용 가능하길 원합니다.
  • 기술적 발전으로 창출된 새로운 작업은 종종 저임금이며 천한 일입니다.
  • SoundStorm은 음성 변경을 나타내는 '|'를 표시한 트랜스크립트를 사용하여 대화를 생성하는 데 훈련되었습니다.
  • Bark 모델도 대화를 생성하지만, 때로는 음성 변경을 놓치기도 합니다.
  • 단 3초의 소스 자료로 30초의 TTS를 생성할 수 있는 능력은 인상적입니다.
  • UpWork와 Fiverr 같은 작업 시장은 자체 서비스를 수행할 수 있는 소프트웨어의 이용 가능성에 대해 적응해야 할 수도 있습니다.
  • Linux 사용자는 쉽게 설정할 수 있는 TTS 음성을 찾고 있습니다.
  • 댓글 작성자는 AI가 생성한 게임에 관심이 없으며, 인간이 작성한 NPC 대화를 선호합니다.
  • SoundStorm의 출력 예시는 인상적이지만, 일부 미세한 결함이 있습니다.
  • 광고에 허가 없이 AI 생성 음성을 사용할 경우 법적 문제가 발생할 수 있습니다.
  • SoundStorm PyTorch 저장소의 GitHub 링크가 제공됩니다.