1P by xguru 18시간전 | favorite | 댓글과 토론
  • 텍스트를 사용해 오디오 출력을 제어할 수 있는 사운드 생성 AI 모델 'Fugatto'
    • 음악 생성, 목소리의 억양이나 감정 변경, 기존 음악에 악기 추가/제거 등 다양한 작업 가능
    • 기존에는 들어본 적 없는 완전히 새로운 소리도 생성 가능
  • Fugatto는 음악, 음성, 환경음을 텍스트 또는 오디오 파일로 입력받아 생성 또는 변환할 수 있음
    • 인간처럼 소리를 이해하고 생성하도록 설계되었음
    • "비지도(Unsupervised) 멀티태스크 학습이 가능해 데이터와 모델 스케일에서 새로운 잠재력을 발휘"

다양한 사용 사례

  • 음악 제작: 노래의 스타일, 음성, 악기를 즉각적으로 실험하고 수정 가능
  • 광고: 지역별, 상황별로 음성을 맞춤 변경해 캠페인 최적화
  • 언어 학습: 사용자 선택 음성으로 개인화된 학습 콘텐츠 제공
  • 게임 개발: 게임 상황에 따라 오디오 자산을 변형하거나 새로 생성
  • 새로운 소리 만들기: 이미지 생성 AI의 "아보카도 의자"처럼
    • 예를 들어, 트럼펫이 강아지처럼 짖는(bark) 소리나 색소폰이 고양이처럼 우는(meow) 소리를 생성 가능
    • 미세 조정과 소량의 노래 데이터를 통해 텍스트 프롬프트에서 고품질의 노래 음성을 생성하는 등 사전 학습되지 않은 작업도 처리할 수 있음

사용자에게 Artistic Control(예술적 통제력)을 제공

  • 사용자 지향적 제어 기능
    • ComposableART 기술을 통해 여러 지시사항을 조합
    • 텍스트 지시의 세부 조정 가능: 예를 들어, 프랑스 억양에 슬픈 감정을 결합
    • 시간적 인터폴레이션으로 소리의 진화 제어: 예, 천둥이 점차 사라지는 비 오는 풍경 생성
  • 사용자에게 전례 없는 소리 창작의 자유 제공

기술적 특징

  • NVIDIA DGX 시스템과 H100 GPU를 사용해 2.5억 개 매개변수로 훈련된 생성 AI 모델
  • 다국적 연구팀의 협력으로 다중 언어 및 억양 지원 강화
  • 수백만 개의 오디오 샘플로 훈련 데이터셋 생성
    • 데이터 간 관계를 새롭게 분석해 성능 향상
  • 훈련 데이터 확보와 모델 확장하는데 1년 이상의 시간 소요
  • 첫 텍스트 프롬프트로 음악 생성에 성공했을 때 깜짝 놀랐으며, 전자 음악과 개 짖는 소리를 조합한 데모에서 폭소를 자아내며 앞으로의 가능성을 확인했음