Nvidia, 유연한 AI 사운드 생성 모델 Fugatto 공개

xguru · 2024-11-27T11:20:01+09:00

텍스트를 사용해 오디오 출력을 제어할 수 있는 사운드 생성 AI 모델 'Fugatto' 음악 생성, 목소리의 억양이나 감정 변경, 기존 음악에 악기 추가/제거 등 다양한 작업 가능 기존에는 들어본 적 없는 완전히 새로운 소리도 생성 가능 Fugatto는 음악, 음성, 환경음을 텍스트 또는 오디오 파일로 입력받아 생성 또는 변환할 수 있음 인간처럼 소리를 이해하고 생성하도록 설계되었음 "비지도(Unsupervised) 멀티태스크 학습이 가능해 데이터와 모델 스케일에서 새로운 잠재력을 발휘" 다양한 사용 사례 음악 제작: 노래의 스타일, 음성, 악기를 즉각적으로 실험하고 수정 가능 광고: 지역별, 상황별로 음성을 맞춤 변경해 캠페인 최적화 언어 학습: 사용자 선택 음성으로 개인화된 학습 콘텐츠 제공 게임 개발: 게임 상황에 따라 오디오 자산을 변형하거나 새로 생성 새로운 소리 만들기: 이미지 생성 AI의 "아보카도 의자"처럼 예를 들어, 트럼펫이 강아지처럼 짖는(bark) 소리나 색소폰이 고양이처럼 우는(meow) 소리를 생성 가능 미세 조정과 소량의 노래 데이터를 통해 텍스트 프롬프트에서 고품질의 노래 음성을 생성하는 등 사전 학습되지 않은 작업도 처리할 수 있음 사용자에게 Artistic Control(예술적 통제력)을 제공 사용자 지향적 제어 기능 ComposableART 기술을 통해 여러 지시사항을 조합 텍스트 지시의 세부 조정 가능: 예를 들어, 프랑스 억양에 슬픈 감정을 결합 시간적 인터폴레이션으로 소리의 진화 제어: 예, 천둥이 점차 사라지는 비 오는 풍경 생성 사용자에게 전례 없는 소리 창작의 자유 제공 기술적 특징 NVIDIA DGX 시스템과 H100 GPU를 사용해 2.5억 개 매개변수로 훈련된 생성 AI 모델 다국적 연구팀의 협력으로 다중 언어 및 억양 지원 강화 수백만 개의 오디오 샘플로 훈련 데이터셋 생성 데이터 간 관계를 새롭게 분석해 성능 향상 훈련 데이터 확보와 모델 확장하는데 1년 이상의 시간 소요 첫 텍스트 프롬프트로 음악 생성에 성공했을 때 깜짝 놀랐으며, 전자 음악과 개 짖는 소리를 조합한 데모에서 폭소를 자아내며 앞으로의 가능성을 확인했음

(blogs.nvidia.com)

3P by xguru 2024-11-27 | ★ favorite | 댓글과 토론

텍스트를 사용해 오디오 출력을 제어할 수 있는 사운드 생성 AI 모델 'Fugatto'
- 음악 생성, 목소리의 억양이나 감정 변경, 기존 음악에 악기 추가/제거 등 다양한 작업 가능
- 기존에는 들어본 적 없는 완전히 새로운 소리도 생성 가능
Fugatto는 음악, 음성, 환경음을 텍스트 또는 오디오 파일로 입력받아 생성 또는 변환할 수 있음
- 인간처럼 소리를 이해하고 생성하도록 설계되었음
- "비지도(Unsupervised) 멀티태스크 학습이 가능해 데이터와 모델 스케일에서 새로운 잠재력을 발휘"

다양한 사용 사례

음악 제작: 노래의 스타일, 음성, 악기를 즉각적으로 실험하고 수정 가능
광고: 지역별, 상황별로 음성을 맞춤 변경해 캠페인 최적화
언어 학습: 사용자 선택 음성으로 개인화된 학습 콘텐츠 제공
게임 개발: 게임 상황에 따라 오디오 자산을 변형하거나 새로 생성
새로운 소리 만들기: 이미지 생성 AI의 "아보카도 의자"처럼
- 예를 들어, 트럼펫이 강아지처럼 짖는(bark) 소리나 색소폰이 고양이처럼 우는(meow) 소리를 생성 가능
- 미세 조정과 소량의 노래 데이터를 통해 텍스트 프롬프트에서 고품질의 노래 음성을 생성하는 등 사전 학습되지 않은 작업도 처리할 수 있음

사용자에게 Artistic Control(예술적 통제력)을 제공

사용자 지향적 제어 기능
- ComposableART 기술을 통해 여러 지시사항을 조합
- 텍스트 지시의 세부 조정 가능: 예를 들어, 프랑스 억양에 슬픈 감정을 결합
- 시간적 인터폴레이션으로 소리의 진화 제어: 예, 천둥이 점차 사라지는 비 오는 풍경 생성
사용자에게 전례 없는 소리 창작의 자유 제공

기술적 특징

NVIDIA DGX 시스템과 H100 GPU를 사용해 2.5억 개 매개변수로 훈련된 생성 AI 모델
다국적 연구팀의 협력으로 다중 언어 및 억양 지원 강화
수백만 개의 오디오 샘플로 훈련 데이터셋 생성
- 데이터 간 관계를 새롭게 분석해 성능 향상
훈련 데이터 확보와 모델 확장하는데 1년 이상의 시간 소요
첫 텍스트 프롬프트로 음악 생성에 성공했을 때 깜짝 놀랐으며, 전자 음악과 개 짖는 소리를 조합한 데모에서 폭소를 자아내며 앞으로의 가능성을 확인했음

Nvidia, 유연한 AI 사운드 생성 모델 Fugatto 공개

다양한 사용 사례

사용자에게 Artistic Control(예술적 통제력)을 제공

기술적 특징

함께 보면 좋은 글 β

댓글과 토론