Riffusion - 음악을 생성하도록 파인튜닝된 Stable Diffusion
(riffusion.com)- SD 1.5를 그대로 사용하며, img2txt를 이용해서 Spectrogram 이미지를 생성하도록 모델을 미세 조정
- 만들어진 이미지는 재생가능한 오디오 클립으로 변환 가능
- img2img 를 이용해서 사운드를 수정 가능
- 짧은 오디오 클립을 무한하게 루핑이 가능하도록 Interpolation
- 사용하기 편하도록 웹앱으로 만들어 코드도 공개(Next.js + React + Three.js + Tailwind)
Spectrogram : Waveform + Spectrum
- 주파수, 진폭(강도), 시간을 이용해서 소리의 스펙트럼을 시각화 하여 표현한 것
- STFT(Short-Time Fourier Transform)을 이용해서 오디오에서 계산 가능