GN⁺: 안정적인 오디오 데모
(stability-ai.github.io)안내
- 이 웹사이트는 Safari에서 제대로 작동하지 않을 수 있으며, 최상의 경험을 위해 Google Chrome을 사용할 것을 권장함.
안정적인 오디오 생성
- 모델은 44.1kHz의 스테레오 음악을 다양한 길이로 생성할 수 있으며, 예시로 베를린 테크노, 레이브, 드럼 머신, 신디사이저, 어두운 분위기의 음악 등이 있음.
- 이전의 최신 모델과 달리, 이 모델은 44.1kHz의 스테레오 사운드 효과도 생성할 수 있으며, 문이 닫히는 소리, 스포츠카나 오토바이가 지나가는 소리, 불꽃놀이, 동굴 내부의 발소리 등의 예시가 있음.
- 이 웹사이트의 모든 예시는 음악과 사운드 효과 모두를 44.1kHz 스테레오로 생성할 수 있는 동일한 모델로 만들어짐.
스테레오 음악 장기 생성: 최신 기술과의 비교
- 맨돌린 연주와 휘파람, 기타, 플루트 등이 어우러진 음악을 생성하는 모델과 다른 모델들과의 비교를 통해 음질 평가가 가능함.
- 피아노 멜로디와 스네어 롤, 킥 패턴, 하이햇, 박수 소리, 신디사이저 리드 멜로디가 어우러진 상업용 음악 생성도 비교 대상임.
사운드 효과: 최신 기술과의 비교
- 엔진의 클릭 소리와 고속 회전 소리, 큰 소리로 지저귀는 새 소리 등을 생성하는 모델과 다른 모델들과의 비교를 통해 음질 평가가 가능함.
- 선택된 프롬프트는 큰 스테레오 움직임을 요구하지 않아 상대적으로 비공간적인 렌더링 결과를 보임.
오토인코더: 재구성
- 오디오 충실도 능력을 평가하기 위해 원본 녹음과 오토인코더를 통과한 녹음을 비교함.
- 오토인코더 재구성은 원본과 매우 유사하며, 거의 투명한 수준임.
GN⁺의 의견
- 이 기술은 음악 및 사운드 효과 생성 분야에서 중요한 진보를 나타내며, 특히 고품질 스테레오 사운드 생성 능력이 돋보임.
- 최신 모델과의 비교를 통해 이 모델의 우수한 음질을 객관적으로 평가할 수 있어, 오디오 콘텐츠 제작자들에게 유용한 도구가 될 것으로 기대됨.
- 오토인코더를 통한 재구성 비교는 이 기술이 원본 오디오를 매우 정확하게 복원할 수 있음을 보여주어, 음질에 민감한 응용 분야에서의 활용 가능성을 시사함.
Hacker News 의견
-
Ed Newton-Rex는 저작권과 훈련 데이터에 대한 우려로 Stable Audio 출시 후 곧바로 퇴사함.
- 그는 이후 Fairly Trained라는 조직을 설립함.
- 참조: Ed Newton-Rex 프로필
Safari에서는 웹사이트가 제대로 작동하지 않을 수 있음. 최상의 경험을 위해 Google Chrome 사용 권장.
-
90년대와 Internet Explorer의 상황이 반복되고 있으나, 이번에는 지배적인 브라우저가 오픈소스라는 점에서 긍정적임.
- Chrome 전용으로 보는 것이 최선이라는 애니메이션 GIF 버튼 제작을 누군가에게 요청함.
-
Stable Diffusion과 마찬가지로, 텍스트 프롬프트는 유용한 출력을 얻는 가장 통제하기 어려운 방법일 것임.
- MIDI를 입력으로 사용하여 신경망 신디사이저를 얻을 수 있을 것으로 예상함.
-
Stable Audio는 현재의 SOTA 음악 모델들(MusicGen, MusicLM)에 비해 매우 우수함.
- Stable Audio 제품 페이지에서 구독하여 사용할 수 있으나, 개발자가 통합하거나 활용할 수 있는 API는 제공되지 않음.
-
AI가 고품질 사운드 라이브러리를 학습하고, MIDI를 통해 해당 라이브러리의 사운드를 트리거하는 단계가 여전히 필요함.
- 이를 통해 음질은 완벽하면서도 음악 AI의 창의성을 유지할 수 있을 것임.
-
드러머로서 '드럼 솔로'는 지루하고 이상한 소리가 섞여 있으며, 실제와 같은 소리 효과는 아직 아님.
- 그러나 이룬 진전은 매우 크며 인상적임.
-
코드와 훈련 지침은 공개되었지만 모델은 공개되지 않음.
- 이는 사실상 익명의 사용자들이 Apple Music 계정에 데이터 로더를 연결하여 실험하도록 유도하는 것과 같음.
-
'고품질, 스테레오'라는 프롬프트를 추가하는 것이 일반적으로 도움이 됨을 발견한 것은 재미있음.
- LLM에서 더 나은 결과를 단순히 요청함으로써 얻을 수 있다는 것이 흥미로움.
-
사운드 이펙트 생성에 대한 아이디어는 잠시 흥미로웠지만, '발걸음 소리'는 매우 형편없음.
-
'에너지 넘치는 음악, 바이올린, 보컬, 오케스트라, 피아노, 미니멀리즘, 존 애덤스, 닉슨 인 차이나'라는 프롬프트를 사용하여 매우 독특하고 흥미로운 음악을 생성할 수 있음.