# Nvidia, 유연한 AI 사운드 생성 모델 Fugatto 공개

> Clean Markdown view of GeekNews topic #17974. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=17974](https://news.hada.io/topic?id=17974)
- GeekNews Markdown: [https://news.hada.io/topic/17974.md](https://news.hada.io/topic/17974.md)
- Type: news
- Author: [xguru](https://news.hada.io/@xguru)
- Published: 2024-11-27T11:20:01+09:00
- Updated: 2024-11-27T11:20:01+09:00
- Original source: [blogs.nvidia.com](https://blogs.nvidia.com/blog/fugatto-gen-ai-sound-model/)
- Points: 3
- Comments: 0

## Topic Body

- 텍스트를 사용해 오디오 출력을 제어할 수 있는 사운드 생성 AI 모델 'Fugatto'   
  - 음악 생성, 목소리의 억양이나 감정 변경, 기존 음악에 악기 추가/제거 등 다양한 작업 가능  
  - 기존에는 들어본 적 없는 완전히 새로운 소리도 생성 가능  
- Fugatto는 음악, 음성, 환경음을 텍스트 또는 오디오 파일로 입력받아 생성 또는 변환할 수 있음  
  - 인간처럼 소리를 이해하고 생성하도록 설계되었음   
  - > "비지도(Unsupervised) 멀티태스크 학습이 가능해 데이터와 모델 스케일에서 새로운 잠재력을 발휘"  
  
### 다양한 사용 사례  
  
- 음악 제작: 노래의 스타일, 음성, 악기를 즉각적으로 실험하고 수정 가능  
- 광고: 지역별, 상황별로 음성을 맞춤 변경해 캠페인 최적화  
- 언어 학습: 사용자 선택 음성으로 개인화된 학습 콘텐츠 제공  
- 게임 개발: 게임 상황에 따라 오디오 자산을 변형하거나 새로 생성  
- 새로운 소리 만들기: 이미지 생성 AI의 "아보카도 의자"처럼   
  - 예를 들어, 트럼펫이 강아지처럼 짖는(bark) 소리나 색소폰이 고양이처럼 우는(meow) 소리를 생성 가능  
  - 미세 조정과 소량의 노래 데이터를 통해 텍스트 프롬프트에서 고품질의 노래 음성을 생성하는 등 사전 학습되지 않은 작업도 처리할 수 있음  
  
### 사용자에게 Artistic Control(예술적 통제력)을 제공   
- 사용자 지향적 제어 기능  
  - ComposableART 기술을 통해 여러 지시사항을 조합  
  - 텍스트 지시의 세부 조정 가능: 예를 들어, 프랑스 억양에 슬픈 감정을 결합  
  - 시간적 인터폴레이션으로 소리의 진화 제어: 예, 천둥이 점차 사라지는 비 오는 풍경 생성  
- 사용자에게 전례 없는 소리 창작의 자유 제공  
  
### 기술적 특징  
  
- NVIDIA DGX 시스템과 H100 GPU를 사용해 2.5억 개 매개변수로 훈련된 생성 AI 모델  
- 다국적 연구팀의 협력으로 다중 언어 및 억양 지원 강화  
- 수백만 개의 오디오 샘플로 훈련 데이터셋 생성  
  - 데이터 간 관계를 새롭게 분석해 성능 향상  
- 훈련 데이터 확보와 모델 확장하는데 1년 이상의 시간 소요  
- 첫 텍스트 프롬프트로 음악 생성에 성공했을 때 깜짝 놀랐으며, 전자 음악과 개 짖는 소리를 조합한 데모에서 폭소를 자아내며 앞으로의 가능성을 확인했음

## Comments



_No public comments on this page._
