10P by xguru 2022-12-16 | favorite | 댓글과 토론
  • SD 1.5를 그대로 사용하며, img2txt를 이용해서 Spectrogram 이미지를 생성하도록 모델을 미세 조정
  • 만들어진 이미지는 재생가능한 오디오 클립으로 변환 가능
  • img2img 를 이용해서 사운드를 수정 가능
  • 짧은 오디오 클립을 무한하게 루핑이 가능하도록 Interpolation
  • 사용하기 편하도록 웹앱으로 만들어 코드도 공개(Next.js + React + Three.js + Tailwind)

Spectrogram : Waveform + Spectrum

  • 주파수, 진폭(강도), 시간을 이용해서 소리의 스펙트럼을 시각화 하여 표현한 것
  • STFT(Short-Time Fourier Transform)을 이용해서 오디오에서 계산 가능