15P by xguru 12달전 | favorite | 댓글 1개

Emu Video: 단일 Diffusion Model 기반으로 텍스트를 비디오로 고품질로 생성

  • 두 단계로 프로세스를 분리
    • 먼저 텍스트 프롬프트에 따라 조건이 지정된 이미지를 생성
    • 텍스트와 생성된 이미지 모두에 조건이 지정된 비디오를 생성
  • 이런 'Factorized' 또는 분할 접근 방식을 통해 비디오 생성 모델을 효율적으로 훈련 가능
  • 여러개의 모델 중첩이 필요했던 이전 작업(예: Make-A-Video의 경우 5개 모델)과 달리, 구현이 간단하며 두 개의 확산 모델만으로 초당 16프레임으로 512x512 4초 길이의 동영상을 생성
  • 실제로 응답자의 96%가 품질 면에서, 85%가 텍스트 프롬프트에 대한 충실도 면에서 Make-A-Video보다 선호했음
  • 또한 이 모델이 텍스트 프롬프트를 기반으로 사용자가 제공한 이미지에 '애니메이션'을 적용하여 다시 한 번 이전 작업을 큰 차이로 뛰어넘음

Emu Edit: 인식 및 생성 작업을 통한 정밀한 이미지 편집

  • 원하는 이미지를 만들기 위해서는 프롬프트를 계속 조정해야하고, 그래서 프롬프트 엔지니어링이 등장
  • 하지만 정밀한 제어에 있어서는 여전히 한계가 있음
  • Emu Edit는 다양한 이미지 조작 작업을 간소화하고 이미지 편집에 향상된 기능과 정밀도를 제공
  • 로컬 및 전역 편집, 배경 제거 및 추가, 색상 및 지오메트리 변환, 감지 및 분할 등의 작업을 포괄하는 명령을 통해 자유 형식 편집이 가능
  • 현재의 방식은 다양한 편집 작업에서 과도하게 수정하거나 성능이 떨어지는 경우가 많음
  • 오늘날의 많은 제너레이티브 AI 모델과 달리 Emu Edit는 지침을 정확하게 따르기 때문에 지침과 관련이 없는 입력 이미지의 픽셀은 그대로 유지함
    • 예를 들어 야구 모자에 "알로하!"라는 텍스트를 추가할 때 모자 자체는 변경되지 않아야 함
  • 모델을 학습시키기 위해 각각 입력 이미지, 수행할 작업에 대한 설명, 목표 출력 이미지가 포함된 1,000만 개의 합성 샘플이 포함된 데이터 세트를 개발했음
    • 현재까지 가장 큰 규모의 데이터 세트
  • 이 결과, Emu Edit 모델은 지침 충실도와 이미지 품질 측면에서 전례 없는 편집 결과를 보여줌
    • 다양한 이미지 편집 작업에 대한 정성적, 정량적 평가 모두에서 새로운 최첨단 결과를 도출하며 기존 방식보다 우수한 성능을 입증

Emu Edit 에 관심이 많이 가네요. DALLE 는 뭔가 수정 명령을 하면 Seed를 고정하더라도 아예 새로 생성을 해버려서 작은 수정이 어려운데 저런 방식으로 수정이 되면 사용하기 편해질 것 같습니다.