Stable Audio - 빠른 타이밍 조절형 Latent Audio Diffusion

(stability.ai)

5P by GN⁺ 2023-09-14 | ★ favorite | 댓글 1개

잠재 확산 모델(Latent Diffusion Model)
- 사전 학습된 자동 인코더의 잠재 인코딩 공간에서 작동하는 확산 모델
- 확산 모델의 학습 및 추론 속도를 크게 향상 시킴
확산 모델을 사용하여 오디오를 생성할 때 발생하는 주요 문제 중 하나는 확산 모델이 일반적으로 고정된 크기의 출력을 생성하도록 훈련된다는 점
- 30초 오디오 클립에 대해 학습하면, 30초 단위로만 오디오를 생성 가능
- 이는 전체 곡을 생성할 때와 같이 길이가 매우 다양한 오디오를 학습시키고 생성하려고 할 때 문제가 됨
오디오 확산 모델은 긴 오디오 파일에서 무작위로 잘라낸 오디오 청크를 확산 모델의 훈련 길이에 맞게 자르거나 덧대어 훈련하는 경향이 있음
음악의 경우, 이로 인해 모델이 음악 구절의 중간에서 시작하거나 끝나는 임의의 노래 섹션을 생성하는 경향을 만듦
Stable Audio는 오디오 파일 길이와 시작 시간뿐만 아니라 텍스트 메타데이터에 따라 조건이 설정되는 오디오용 잠재 확산 모델
- 이 타이밍 조절 기능을 통해서 훈련 윈도우 크기까지의 지정된 길이의 오디오를 생성 가능
최신 디퓨전 샘플링 기법을 사용하는 Stable Audio 모델은 44.1kHz 샘플 레이트에서 95초 분량의 스테레오 오디오를 NVIDIA A100 GPU에서 1초 이내에 생성 가능
Stability AI의 Generative Audio 연구소인 Harmonai에서 개발
Moûsai에서 사용된 907M(9억 700만개) 파라미터 U-Net 모델을 기반
Stable Audio 모델은 AudioSparx라는 주요 음악 공급자가 제공한 음악, 사운드 이펙트, 단일 악기 스템이 포함된 800,000개 이상의 오디오 파일로 구성된 데이터셋으로 훈련
향후 작업으로 모델 아키텍처, 데이터셋, 훈련 절차를 개선하여 출력 품질, 제어 가능성, 추론 속도, 출력 길이를 향상할 예정
Harmonai는 Stable Audio를 기반으로 한 오픈 소스 모델과 오디오 생성 모델 훈련을 위한 훈련 코드를 공개할 계획

▲

GN⁺ 2023-09-14 [-]

Hacker News 의견

본 기사는 빠른 타이밍 조건의 잠재 오디오 확산 기술인 'Stable Audio'에 대해 논의한다.
일부 사용자들은 생성된 솔로 피아노 음악이 깔끔하고 흥미롭다고 평가하며, 이를 보다 유연하게 활용하기 위한 악보로 쉽게 변환될 수 있을 것이라는 제안을 했다.
오디오와 비주얼 분야에서 AI가 이미지의 레이어나 브러시 스트로크, 음악의 구성 트랙과 같은 보다 구조적이거나 상징적인 출력을 생성하는 것에 대한 요구가 있다.
특히 음악적 배경을 가진 일부 사용자들은 생성된 음악 작품에 감동받지 못했으며, 이들은 반복적이고 상상력이 부족하다고 평가했다.
이 기술은 게임이나 고품질 음악이 우선적이지 않은 다른 애플리케이션에서 배경 음악을 생성하는 데 사용될 수 있다는 잠재력이 있다.
한 사용자는 이 기술이 Spotify에서 개인의 취향에 맞는 음악을 생성하는 데 사용될 수 있을 것이라고 제안했다.
모델이 공간 오디오 개념을 지원하거나 "이해"하는지에 대한 관심이 있다. 예를 들어, 알람 소리가 원형으로 움직이는 소리 등이다.
일부 사용자들은 멜로디, 코드 진행, 또는 공연 데이터와 같은 입력을 받아들일 수 있는 기술에 대한 요구를 표현하며, 이는 새로운 세대의 오디오 도구에 대한 잠재력을 제안한다.
일부 사용자들은 오디오 예제에서 "불쾌한 계곡" 효과를 주목했으며, 이는 소리가 혼합되어 깔끔한 음악적 목소리가 부족하다는 것을 의미한다.
이러한 비판에도 불구하고, 일부 사용자들은 이러한 기술의 존재에 대해 감사의 의미를 표현하며, 이를 Google과 Meta와 같은 회사들의 이전 조롱과 대비시켰다.

답변달기