- 음성 입력과 자연어 텍스트 프롬프트를 조합하여 음성과 음향 효과를 생성
- 다양한 사용 사례에 맞는 맞춤형 오디오를 쉽게 만들 수 있음
- 올해 초 공개한 Voicebox 를 개선하여 음성, 음향 효과(개 짖는 소리, 자동차 경적, 천둥 소리 등 짧고 불연속적인 소리), Soundscape(소리풍경)에 대한 생성 및 편집 기능을 통합하고 다양한 입력 메커니즘을 통해 각 사용 사례의 제어 가능성을 극대화함
- 자연어 프롬프트를 사용하여 생성하고자 하는 소리나 음성 유형을 설명할 수 있음
- "흐르는 강물과 지저귀는 새소리"와 같은 프롬프트로 사운드스케이프 생성 가능
- "젊은 여성이 높은 음조와 빠른 속도로 말함"이라고 입력하여 원하는 음성 생성
- 오디오 음성 입력과 텍스트 스타일 프롬프트를 결합하여 어떤 환경(예: "성당에서") 또는 어떤 감정(예: "슬프고 천천히 말함")에도 해당 음성의 음성을 합성할 수 있음
- 자유형 음성 스타일 변경을 위해 이중 입력(음성 프롬프트 및 텍스트 설명 프롬프트)을 지원하는 최초의 모델
- 다양한 음성 스타일에서 스타일 유사성 측면에서 Voicebox 보다 30% 이상 뛰어난 성능을 보임
- 음성 연구 분야에서 실적이 있는 엄선된 연구자 및 학술 기관에 오디오박스를 공개하여 이 연구 분야의 최첨단 기술을 발전시키고 이 작업의 책임감 있는 AI 측면을 다룰 수 있는 다양한 파트너를 확보할 수 있도록 지원함