5P by neo 2023-09-14 | favorite | 댓글 1개
  • 잠재 확산 모델(Latent Diffusion Model)
    • 사전 학습된 자동 인코더의 잠재 인코딩 공간에서 작동하는 확산 모델
    • 확산 모델의 학습 및 추론 속도를 크게 향상 시킴
  • 확산 모델을 사용하여 오디오를 생성할 때 발생하는 주요 문제 중 하나는 확산 모델이 일반적으로 고정된 크기의 출력을 생성하도록 훈련된다는 점
    • 30초 오디오 클립에 대해 학습하면, 30초 단위로만 오디오를 생성 가능
    • 이는 전체 곡을 생성할 때와 같이 길이가 매우 다양한 오디오를 학습시키고 생성하려고 할 때 문제가 됨
  • 오디오 확산 모델은 긴 오디오 파일에서 무작위로 잘라낸 오디오 청크를 확산 모델의 훈련 길이에 맞게 자르거나 덧대어 훈련하는 경향이 있음
  • 음악의 경우, 이로 인해 모델이 음악 구절의 중간에서 시작하거나 끝나는 임의의 노래 섹션을 생성하는 경향을 만듦
  • Stable Audio는 오디오 파일 길이와 시작 시간뿐만 아니라 텍스트 메타데이터에 따라 조건이 설정되는 오디오용 잠재 확산 모델
    • 이 타이밍 조절 기능을 통해서 훈련 윈도우 크기까지의 지정된 길이의 오디오를 생성 가능
  • 최신 디퓨전 샘플링 기법을 사용하는 Stable Audio 모델은 44.1kHz 샘플 레이트에서 95초 분량의 스테레오 오디오를 NVIDIA A100 GPU에서 1초 이내에 생성 가능
  • Stability AI의 Generative Audio 연구소인 Harmonai에서 개발
  • Moûsai에서 사용된 907M(9억 700만개) 파라미터 U-Net 모델을 기반
  • Stable Audio 모델은 AudioSparx라는 주요 음악 공급자가 제공한 음악, 사운드 이펙트, 단일 악기 스템이 포함된 800,000개 이상의 오디오 파일로 구성된 데이터셋으로 훈련
  • 향후 작업으로 모델 아키텍처, 데이터셋, 훈련 절차를 개선하여 출력 품질, 제어 가능성, 추론 속도, 출력 길이를 향상할 예정
  • Harmonai는 Stable Audio를 기반으로 한 오픈 소스 모델과 오디오 생성 모델 훈련을 위한 훈련 코드를 공개할 계획
Hacker News 의견
  • 본 기사는 빠른 타이밍 조건의 잠재 오디오 확산 기술인 'Stable Audio'에 대해 논의한다.
  • 일부 사용자들은 생성된 솔로 피아노 음악이 깔끔하고 흥미롭다고 평가하며, 이를 보다 유연하게 활용하기 위한 악보로 쉽게 변환될 수 있을 것이라는 제안을 했다.
  • 오디오와 비주얼 분야에서 AI가 이미지의 레이어나 브러시 스트로크, 음악의 구성 트랙과 같은 보다 구조적이거나 상징적인 출력을 생성하는 것에 대한 요구가 있다.
  • 특히 음악적 배경을 가진 일부 사용자들은 생성된 음악 작품에 감동받지 못했으며, 이들은 반복적이고 상상력이 부족하다고 평가했다.
  • 이 기술은 게임이나 고품질 음악이 우선적이지 않은 다른 애플리케이션에서 배경 음악을 생성하는 데 사용될 수 있다는 잠재력이 있다.
  • 한 사용자는 이 기술이 Spotify에서 개인의 취향에 맞는 음악을 생성하는 데 사용될 수 있을 것이라고 제안했다.
  • 모델이 공간 오디오 개념을 지원하거나 "이해"하는지에 대한 관심이 있다. 예를 들어, 알람 소리가 원형으로 움직이는 소리 등이다.
  • 일부 사용자들은 멜로디, 코드 진행, 또는 공연 데이터와 같은 입력을 받아들일 수 있는 기술에 대한 요구를 표현하며, 이는 새로운 세대의 오디오 도구에 대한 잠재력을 제안한다.
  • 일부 사용자들은 오디오 예제에서 "불쾌한 계곡" 효과를 주목했으며, 이는 소리가 혼합되어 깔끔한 음악적 목소리가 부족하다는 것을 의미한다.
  • 이러한 비판에도 불구하고, 일부 사용자들은 이러한 기술의 존재에 대해 감사의 의미를 표현하며, 이를 Google과 Meta와 같은 회사들의 이전 조롱과 대비시켰다.