14P by xguru 2023-01-31 | favorite | 댓글 2개
  • 구글 리서치가 발표한 논문
  • 텍스트 설명에 매우 충실한 음악을 생성 "디스토션 걸린 기타 리프가 깔린 차분한 바이올린 멜로디"
  • 계층적 시퀀스간 모델링 작업으로 캐스팅하여 몇분짜리 24kHz 음악을 생성
  • 기존 시스템들보다 음질 몇이나 텍스트 설명 준수에서 훨씬 뛰어남
  • 또한 휘파람이나 허밍 형태의 멜로디 스타일도 변형 가능
  • 여러개의 프롬프트를 순차적으로 제공하여 스토리모드로 오디오 생성 가능
  • 5.5k 음악-텍스트 페어로 구성된 MusicCaps 데이터셋을 공개

텍스트로만으로도 이정도 퀄리티를 뽑아내는게 대단하긴하네요!
다만 아직은 너무 어색한 것들도 많아서 창작자들이 아이디어 얻는 용도로 더 많이 쓰이지 않을까 싶기도 하네요.