Stable Audio 데모

(stability-ai.github.io)

1P by GN⁺ 2024-02-14 | ★ favorite | 댓글 1개

Stable Audio 데모는 하나의 모델이 44.1kHz 스테레오로 장편 음악과 사운드 이펙트를 모두 생성하는 모습을 오디오 예제로 보여줌
음악 생성은 Berlin techno, uplifting acoustic loop, disco, spa lobby meditation, drum solo처럼 프롬프트만으로 다른 장르와 분위기를 만들어내는 데 초점을 둠
사운드 이펙트는 door slam, sports car, motorbike, fireworks, cave footsteps 등을 다루며 “high-quality, stereo” 같은 문구가 프롬프트에 함께 사용됨
비교 예시는 MusicCaps와 AudioCaps 프롬프트를 기준으로 MusicGen-large, MusicGen-stereo, AudioLDM2, Audiogen-medium 결과와 나란히 들을 수 있게 구성됨
오토인코더 재구성 예시는 원본 녹음과 통과 후 결과를 비교해 오디오 충실도를 확인할 수 있게 함

Stable Audio 데모와 생성 예시

데모 사이트는 Safari에서 제대로 동작하지 않을 수 있어, 최적 경험을 위해 Google Chrome 사용을 권장함
관련 자료로 arXiv, stable-audio-tools, stable-audio-metrics를 제공함
- arXiv: Stable Audio 논문
- stable-audio-tools: Stable Audio 재현용 코드
- stable-audio-metrics: Stable Audio 평가용 코드
모델은 가변 길이 장편 스테레오 음악을 44.1kHz로 생성할 수 있음
- 예시 프롬프트에는 Berlin techno, uplifting acoustic loop, disco, calm meditation music, drum solo가 포함됨
- 일부 프롬프트는 BPM, 악기, 분위기, 지역 스타일, loop 여부까지 함께 지정함
같은 모델로 스테레오 사운드 이펙트도 44.1kHz로 생성함
- 예시 프롬프트에는 door slam, sports car passing by, motorbike passing by, fireworks, reverberant footsteps inside a large rocky cave가 포함됨
- 사운드 이펙트 프롬프트에는 “high-quality, stereo”를 덧붙였고, 이 방식이 일반적으로 도움이 된다고 안내함

모델 비교와 오토인코더 재구성

장편 음악 비교는 MusicCaps 프롬프트를 기준으로 구성됨
- Stable Audio: stereo, 44.1kHz
- MusicGen-large: mono, 32kHz
- MusicGen-stereo: stereo, 32kHz
- AudioLDM2: mono, 48kHz
- 비교에 사용된 프롬프트와 오디오는 논문에 보고한 정성 연구에 사용됨
사운드 이펙트 비교는 AudioCaps 프롬프트를 사용함
- Stable Audio: stereo, 44.1kHz
- Audiogen-medium: mono, 32kHz
- AudioLDM2: mono, 48kHz
- 무작위로 선택된 AudioCaps 프롬프트는 큰 스테레오 움직임을 요구하지 않아 결과가 상대적으로 비공간적으로 렌더링됨
오토인코더(Autoencoder) 섹션은 오디오 충실도를 평가하기 위한 재구성 비교를 제공함
- 왼쪽에는 ground truth 녹음, 오른쪽에는 ground truth 녹음을 오토인코더에 통과시킨 결과가 배치됨
- 재구성 결과는 fairly transparent하며 ground truth에 매우 가까운 수준임

GN⁺ 2024-02-14 [-]

Hacker News 의견들

흥미롭게도 Stable Audio를 만들기 위해 고용됐던 Ed Newton-Rex는 출시 직후 저작권과 학습 데이터 문제를 우려해 퇴사했음
이후 https://www.fairlytrained.org/를 창업함
참고: https://x.com/ednewtonrex
- 생성 모델에서 제작자가 모델 구조를 공개하지 않고, 텍스트를 다른 매체로 변환하는 모델이라면, 명시적 라이선스가 없는 데이터로 학습된 텍스트 인코더나 비슷한 기능을 일부 위임했다고 봐도 됨
  이미지나 오디오 조각처럼 수천만~수억 개의 라이브러리 항목을 가진 권리자라도, 대형 저장소에 있는 10억 미만 텍스트 토큰만으로는 텍스트-대상 매체 생성 모델의 인코더 성능이 너무 낮음. Adobe의 Firefly도 여기에 포함됨
  이런 라이브러리에 있는 비슷한 데이터가 많으면 특히 유용하다는 것도 오해임. 강력한 텍스트 인코더가 없으면 대부분의 텍스트-대상 매체 모델은 매우 평균적으로 보이거나 들리는 결과를 만들게 됨
  이런 의심을 가장 간단히 해소하는 방법은 모델 구조를 공개하는 것임
  어쨌든 그게 전부 사실이라 해도, 우리가 확산 모델을 이야기하고 Fairly Trained라는 작업에 주목하는 이유 자체가 누군가 명시적 라이선스 없는 데이터로 학습했기 때문임
- 그를 “Stable Audio를 만들기 위해 고용된 사람”이라고 부르는 건 좀 오해의 소지가 있음. 그는 Stability 오디오 그룹의 제품 VP라는 임원직이었음
  중요한 자리이긴 하지만, “만들기 위해 고용된 사람”이라고 하면 리드 개발자나 연구자를 떠올리게 됨
  그가 음악 배경을 가진 창업자라는 점을 보면 퇴사도 더 이해됨
- 흥미로운 해석이긴 한데, Stability에 합류했을 때 Stable Diffusion의 학습 방식은 이미 잘 알려져 있었으니 꽤 이상한 입장이기도 함
- 회사가 어차피 했을 일이라 해도, 그 회사에서 일하기 전에 생각해볼 수는 없었을까 싶음
  아니면 그게 자신의 인증 사업 모델에 필요한 과정이었을지도 모르겠음
- 기업들이 모델을 학습할 때 마주치는 저작권 장벽에는 해결책이 있어야 함
  예술가가 평생 들어온 음악의 영향을 받아 음악을 만드는 것과 다르지 않다고 봄. 근본적으로는 정확히 같은 일이고, 음악이나 예술은 진공 상태에서 만들 수 없음
Warning: This website may not function properly on Safari. For the best experience, please use Google Chrome.
90년대 Internet Explorer 시절로 한 바퀴 돌아온 느낌임. 이번에는 지배적인 브라우저가 오픈소스라는 점이 그나마 다르다고 봄
누가 Chrome용으로 “Best viewed with Google Chrome”이라고 적힌 움직이는 GIF 버튼 좀 만들어주면 좋겠음
- 여기 있음
  버튼 보기: https://indiscipline.github.io/post/best-viewed-in-google-ch...
- Chrome은 오픈소스가 아니고 Chromium이 오픈소스임. 둘을 혼동하지 않는 게 좋음
- Safari에서도 웹사이트는 잘 동작했고, 별문제는 못 느꼈음
Stable Diffusion과 마찬가지로, 이 모델에서도 텍스트 프롬프트는 유용한 출력을 얻는 방법 중 가장 제어하기 어려운 방식일 것임
MIDI를 ControlNet과 함께 입력으로 써서 사실상 신경망 신시사이저처럼 만드는 모습은 쉽게 상상됨
- 맞음. 2년 전 AI 멜로디 프로젝트(https://www.melodies.ai/)를 하던 때부터, 텍스트만으로 고품질 완성곡을 만드는 건 한동안 실현 가능하지도 바람직하지도 않을 거라고 봤음
  대신 음악 제작의 여러 단계에서 아티스트의 과정을 보조하는 식으로 AI를 쓰는 데 집중하는 편이 더 좋음
- 음악에서는 그럴 수 있음. 하지만 효과음에는 텍스트 프롬프트가 꽤 좋은 사용자 인터페이스라고 생각함
- 멜로디를 흥얼거리거나 부른 오디오 녹음과 텍스트 프롬프트를 함께 입력하면, 그걸 닮은 트랙을 뱉어내는 방식이 이상적일 것 같음
- 많은 제어가 필요 없을 때는 잘 작동함. 예를 들면 “테너 색소폰 연주자의 프리재즈 솔로, 박자표 없음” 같은 프롬프트
- Stable Diffusion에서 텍스트 프롬프트 말고 다른 입력이 뭐가 있음? img2img, ControlNet 같은 걸 말하는 건가?
최신 음악 모델인 MusicGen, MusicLM과 비교하면 이건 엄청나게 좋음. Midjourney처럼 구독해서 쓸 수 있는 제품 페이지도 있는 듯함: https://www.stableaudio.com/
아쉽게도 가중치 공개 모델은 아니고 API도 없어 보임. 월 구독으로 UI에서 오디오를 생성하는 방식이지, 개발자가 통합하거나 감쌀 수 있는 형태는 아님
- 작업 중인 게임에 쓸 효과음을 만들고 싶었는데, 보니 엔터프라이즈 라이선스가 필요한 듯함(https://www.stableaudio.com/pricing)
  왜 “월간 활성 사용자 10만 미만 상업 제품” 조항에 그냥 포함되지 않고 별도 조항이 있는지 궁금함
- 곧 CC 라이선스 버전과 API가 나온다고 함
  모델 발전 속도가 아주 빨라서 음악 쪽으로 꽤 큰 한 해가 될 듯함
- 다행히 집에서도 학습은 가능함. 더 큰 질문은 데이터임
AI가 먼저 고품질 사운드 라이브러리가 어떤 소리인지 배우고, 이후 배운 능력을 MIDI로 그 라이브러리의 소리를 트리거하는 데 적용하는 단계가 아직 필요하다고 봄
그렇게 하면 음악 AI의 창의성과 완벽한 오디오 품질을 함께 얻을 수 있음
- 이미지 생성 AI에도 늘 그런 걸 바랐음. 완성된 이미지로 마법처럼 반복 개선되는 것보다, AI가 붓질로 그림을 그리거나 채색하려고 시도하는 모습을 보는 게 훨씬 더 멋지고 흥미로울 것 같음
  그런 걸 위해 어떤 데이터셋이나 구조를 적용할 수 있을지는 모르겠지만, 정말 흥미로울 듯함
- MIDI로 예를 들어 거칠게 연주되는 기타나, 욕실 녹음에서 생기는 미묘한 에코 같은 걸 어떻게 얻을 수 있음?
- 그게 suno.ai가 하는 일 아닌가?
여기서의 발전을 깎아내리려는 건 아니고, 인상적이긴 함
드러머 입장에서 ‘드럼 솔로’는 가장 지루한 축에 들고, 이상한 소리들이 섞여 있음. 결국 의도한 청중에 따라 달라질 듯함
참고로 현재 기준으로 효과음도 내 귀에는 사실적으로 들리지 않음
그래도 발전 폭은 크고, 잘한 일임
- 드러머 입장에서, 안정적인 4/4 박자 위에서 벌어지는 걸로 생각하면 그 ‘드럼 솔로’는 의외로 듣기 흥미로웠음
  무작위 같지만 완전히 무작위는 아닌 특성 때문에 꽤 비정형적인 리듬 패턴이 나옴. 즉석에서 이렇게 싱커페이션을 넣을 수 있으면 좋겠음
  악보로 옮겨달라고 하지는 말 것
  템포 일관성은 훌륭함. 다만 불필요한 소음과 무작위 심벌 잔향은 모델의 한계를 보여줌
- 인상적인 시도이긴 하지만, 아직 실제로 쓸 만한 음악이나 소리를 생성하기에는 한참 멀었음
  이미 훨씬 더 좋은 소리를 내는 라이브러리 음악 트랙과 효과음이 수백만 개 있음. 그와 경쟁하려면 생성 AI에 막대한 투자가 필요할 텐데, 텍스트나 이미지와 달리 경제성이 있다고 보이지 않음
- 음악 샘플에 전환부가 없어서 더 실망했음. 대부분의 곡에는 전조나 퍼커션 전환이 있음
- 드럼 솔로는 이 모델이 드럼 솔로의 핵심을 얼마나 놓쳤는지 잘 보여줌. 드러머는 아니지만 듣기에 전혀 즐겁지 않음
  대략 템포에 맞춰 아무렇게나 드럼을 두드리는 사람처럼 들림
  다만 엘리베이터 음악 같은 것들은 그럭저럭 해내는데, 예상과도 맞아떨어짐
코드와 학습용 친절한 안내는 공개하면서 모델은 공개하지 않는다는 점이 흥미로움
익명의 사람들이 데이터 로더를 Apple Music 계정에 연결해서 마음껏 돌려보라고 거의 애원하는 꼴임. 물론 누가 그러라고 제안하는 건 아님
- 추측하자면, AudioSparx의 라이선스된 스톡 오디오 라이브러리를 학습용으로 제공받는 조건에 결과 모델을 재배포하지 않는 조항이 있었을 수도 있음
효과음 생성이라는 아이디어에 잠깐 기대했는데, 저 “발소리”는 믿기 어려울 정도로 별로임
- stableaudio.com에서 음악 생성을 해봤는데, 맞음, 별로임. 그래도 이런 모델의 개발 속도가 워낙 빠르니 1~2년 안에 놀라울 정도로 좋아져도 놀라지 않을 것 같음
공개 가중치는 없는 게 맞나? 어느 쪽인지 말하는 내용을 찾기 어려움
수정: 아, 이게 논란이 될 만한 댓글인 줄은 몰랐음. 비추천하기 전에 질문에 답해줬으면 좋았겠지만 뭐 괜찮음
- 맞음, 없음. 학습, 추론, 미세조정용 코드는 공개했지만 데이터셋이나 가중치는 공개하지 않았음
  참고: https://github.com/Stability-AI/stable-audio-tools
“효과음 프롬프트에는 보통 도움이 되기 때문에 ‘high-quality, stereo’를 덧붙입니다.”
LLM에 그냥 더 좋은 결과를 만들라고 정중하게 말하면 출력이 좋아진다는 걸 발견했다는 게 웃김
- 때로는 오래된 카세트 소리나, 더 오래된 긁힌 78rpm 음반 소리를 원할 수도 있음
  컴퓨터는 늘 그렇듯, 우리가 의도한 게 아니라 요청한 것을 수행함

답변달기

Stable Audio 데모

Stable Audio 데모와 생성 예시

모델 비교와 오토인코더 재구성

함께 보면 좋은 글 β

댓글과 토론

Hacker News 의견들