GN⁺: Stable Audio 2.0
(stability.ai)- Stable Audio 2.0은 AI가 생성하는 고품질의 전체 트랙을 최대 3분 길이, 44.1kHz 스테레오로 제공하는 새로운 표준을 제시
- 사용자가 샘플을 업로드하고 자연어 프롬프트를 사용하여 변환할 수 있는 오디오-투-오디오 생성 기능을 도입
- AudioSparx 음악 라이브러리로부터 라이선스된 데이터셋을 독점적으로 사용하여 훈련되었으며, 창작자의 '옵트 아웃' 요청을 존중하고 공정한 보상을 보장
- Stable Audio 웹사이트에서 모델을 탐색하고 무료로 창작을 시작할 수 있음
새로운 기능
- 최대 3분 길이의 곡을 생성할 수 있으며, 인트로, 발전, 아웃트로를 포함한 구조화된 작곡과 스테레오 사운드 이펙트를 제공
- Audio-To-Audio 생성 : 오디오 파일 업로드를 지원하여 아이디어를 완전히 제작된 샘플로 변환할 수 있음. 저작권이 없는 자료만 업로드하도록 서비스 약관이 요구하며, 저작권 침해를 방지하기 위해 고급 콘텐츠 인식을 사용
- 변주 및 사운드 이펙트 생성 : 키보드 타이핑 소리부터 군중의 함성, 도시 거리의 윙윙거림에 이르기까지 다양한 사운드 및 오디오 이펙트의 생산을 증폭함
- 스타일 전환 : 생성 과정 내에서 새로 생성되거나 업로드된 오디오를 원활하게 수정하여 프로젝트의 특정 스타일과 톤에 맞춤
연구
- Stable Audio 2.0의 잠재적 확산 모델 아키텍처는 구조화된 전체 트랙 생성을 가능하게 설계됨
- 이를 위해 시스템의 모든 구성 요소가 장기간에 걸친 성능 향상을 위해 조정됨
- 새로운 고도로 압축된 오토인코더는 원시 오디오 파형을 훨씬 짧은 표현으로 압축함
- 확산 변환기(DiT)는 이전의 U-Net 대신 사용되며, 긴 시퀀스에 걸쳐 데이터를 조작하는 데 더 능숙함
보호 장치
- 1.0 모델과 마찬가지로, 2.0은 800,000개 이상의 음악, 사운드 이펙트, 단일 악기 스템 파일 및 해당 텍스트 메타데이터를 포함하는 AudioSparx의 데이터로 훈련됨
- AudioSparx의 모든 아티스트는 Stable Audio 모델 훈련에서 '옵트 아웃'할 수 있는 옵션을 가짐
- 저작권자의 권리를 보호하기 위해 오디오 업로드 시 AudibleMagic과 파트너십을 맺고 그들의 콘텐츠 인식(ACR) 기술을 사용하여 실시간 콘텐츠 일치를 통해 저작권 침해를 방지함
Stable Radio
-
Stable Radio는 Stable Audio가 생성한 트랙만을 특징으로 하는 24/7 라이브 스트림으로, Stable Audio YouTube 채널에서 스트리밍 중임
-
Stable Audio 웹사이트에서 모델을 탐색하고 무료로 창작을 시작할 수 있음.
GN⁺의 의견
- Stable Audio 2.0은 음악 제작자들에게 AI를 활용한 창작 도구를 제공함으로써 음악 산업에 혁신을 가져올 수 있는 잠재력을 가짐. 자연어 처리를 통해 사용자의 의도를 파악하고 이를 음악으로 변환하는 기능은 창작 과정을 간소화하고, 더 많은 사람들이 음악 제작에 참여할 수 있는 기회를 제공함.
- 이 기술이 가져올 수 있는 문제 중 하나는 저작권 문제임. 비록 회사가 저작권 침해를 방지하기 위한 조치를 취하고 있다고 밝혔지만, AI가 생성한 콘텐츠의 저작권 소유와 관련된 법적인 문제는 여전히 복잡함.
- 음악 제작에 AI를 도입할 때 고려해야 할 사항 중 하나는 AI가 생성한 음악의 독창성과 예술성에 대한 인식임. AI가 인간의 창의성을 모방하거나 대체할 수 있는지, 그리고 이것이 음악 산업에 어떤 영향을 미칠지에 대한 논의가 필요함.
- AI 음악 생성 도구를 사용함으로써 얻을 수 있는 이점은 창작 시간의 단축, 다양한 음악 스타일과 장르의 실험, 그리고 창작자가 음악 이론이나 악기 연주 기술에 대한 깊은 지식이 없어도 음악을 만들 수 있다는 점임.
- 이 기술이 음악 교육에 미칠 수 있는 긍정적인 영향을 고려할 때, 음악 이론을 배우는 학생들에게 다양한 음악 스타일과 구조를 탐색하고 이해하는 데 도움이 될 수 있음.
Hacker News 의견
- 인상적인 AI 음악이지만, 인간이 만든 음악에 담긴 의도와 감정을 느낄 수 없는 것 같아 뭔가 부족함을 느낌.
- AI가 생성한 오디오의 저작권에 대한 언급이 없어, 출력물의 소유권에 대한 중요한 문제가 있음.
- 10년 전 만든 비트를 AI에게 주었더니, 마치 세탁기에 스테레오를 넣은 것처럼 들림. 더 큰 데이터셋이 필요할 것 같지만, 구독을 고려 중임.
- Stability AI가 라이선스된 데이터셋을 사용하여 창작자에게 공정한 보상을 보장하는 것은 잘한 일임.
- 기술적으로 인상적이지만, AI가 생성한 음악은 평범함. 현대 전자 음악가가 더 나은 작업을 할 수 있음.
- Stability AI가 오픈소스가 아니어서 아쉬움. OpenAI와 같은 길을 가지 않기를 바람.
- AI가 오디오 샘플을 비슷하게 재구성하려 시도하지만, 실제 드럼과 기타 연주와는 다름. 그래도 흥미롭고, 향후 개선된 버전이 나올 것으로 기대됨.
- 코딩할 때 듣기 좋은 신스웨이브 음악이 식상해져 새로운 것을 찾고 있었는데, AI가 무한히 "충분히 좋은" 플레이리스트를 생성할 수 있을 것 같음.
- AI로 흥미로운 것을 생성하는 데 실패함. 사이트 사용이 어려움.
- 오디오 모델을 위한 ComfyUI 스타일 인터페이스가 있는지 궁금함.