- 잠재 확산 모델(Latent Diffusion Model)
- 사전 학습된 자동 인코더의 잠재 인코딩 공간에서 작동하는 확산 모델
- 확산 모델의 학습 및 추론 속도를 크게 향상 시킴
- 확산 모델을 사용하여 오디오를 생성할 때 발생하는 주요 문제 중 하나는 확산 모델이 일반적으로 고정된 크기의 출력을 생성하도록 훈련된다는 점
- 30초 오디오 클립에 대해 학습하면, 30초 단위로만 오디오를 생성 가능
- 이는 전체 곡을 생성할 때와 같이 길이가 매우 다양한 오디오를 학습시키고 생성하려고 할 때 문제가 됨
- 오디오 확산 모델은 긴 오디오 파일에서 무작위로 잘라낸 오디오 청크를 확산 모델의 훈련 길이에 맞게 자르거나 덧대어 훈련하는 경향이 있음
- 음악의 경우, 이로 인해 모델이 음악 구절의 중간에서 시작하거나 끝나는 임의의 노래 섹션을 생성하는 경향을 만듦
- Stable Audio는 오디오 파일 길이와 시작 시간뿐만 아니라 텍스트 메타데이터에 따라 조건이 설정되는 오디오용 잠재 확산 모델
- 이 타이밍 조절 기능을 통해서 훈련 윈도우 크기까지의 지정된 길이의 오디오를 생성 가능
- 최신 디퓨전 샘플링 기법을 사용하는 Stable Audio 모델은 44.1kHz 샘플 레이트에서 95초 분량의 스테레오 오디오를 NVIDIA A100 GPU에서 1초 이내에 생성 가능
- Stability AI의 Generative Audio 연구소인 Harmonai에서 개발
- Moûsai에서 사용된 907M(9억 700만개) 파라미터 U-Net 모델을 기반
- Stable Audio 모델은 AudioSparx라는 주요 음악 공급자가 제공한 음악, 사운드 이펙트, 단일 악기 스템이 포함된 800,000개 이상의 오디오 파일로 구성된 데이터셋으로 훈련
- 향후 작업으로 모델 아키텍처, 데이터셋, 훈련 절차를 개선하여 출력 품질, 제어 가능성, 추론 속도, 출력 길이를 향상할 예정
- Harmonai는 Stable Audio를 기반으로 한 오픈 소스 모델과 오디오 생성 모델 훈련을 위한 훈련 코드를 공개할 계획