AudioGen : 상황 설명 텍스트를 이용한 오디오 생성
(felixkreuk.github.io)- "개가 공원에서 짖음", "바람 부는데 휘파람 부는 소리", "많은 사람들이 환호하는 앞에서 남자가 연설함" 같은 소리를 생성 가능
- 오디오 생성은 여러가지 도전 과제가 있음
- 소리를 내는 객체를 분리하는게 어렵고, 실제 환경의 다양한 녹음 조건으로 더 복잡해지며, 이런 상황에 대한 어노테이션이 부족해서 모델 축적이 어려움
- 이런 문제를 완화하기 위해 다양한 오디오 샘플을 혼합하고, 모델이 여러 소소를 분리하는 기술을 내부적으로 학습하도록 하는 증강 기술(augmentation technique)을 제안