Meta, 비디오 합성 및 편집용 AI 모델 Emu Video/Edit 공개

(ai.meta.com)

Emu Video: 단일 Diffusion Model 기반으로 텍스트를 비디오로 고품질로 생성

두 단계로 프로세스를 분리
- 먼저 텍스트 프롬프트에 따라 조건이 지정된 이미지를 생성
- 텍스트와 생성된 이미지 모두에 조건이 지정된 비디오를 생성
이런 'Factorized' 또는 분할 접근 방식을 통해 비디오 생성 모델을 효율적으로 훈련 가능
여러개의 모델 중첩이 필요했던 이전 작업(예: Make-A-Video의 경우 5개 모델)과 달리, 구현이 간단하며 두 개의 확산 모델만으로 초당 16프레임으로 512x512 4초 길이의 동영상을 생성
실제로 응답자의 96%가 품질 면에서, 85%가 텍스트 프롬프트에 대한 충실도 면에서 Make-A-Video보다 선호했음
또한 이 모델이 텍스트 프롬프트를 기반으로 사용자가 제공한 이미지에 '애니메이션'을 적용하여 다시 한 번 이전 작업을 큰 차이로 뛰어넘음

원하는 이미지를 만들기 위해서는 프롬프트를 계속 조정해야하고, 그래서 프롬프트 엔지니어링이 등장
하지만 정밀한 제어에 있어서는 여전히 한계가 있음
Emu Edit는 다양한 이미지 조작 작업을 간소화하고 이미지 편집에 향상된 기능과 정밀도를 제공
로컬 및 전역 편집, 배경 제거 및 추가, 색상 및 지오메트리 변환, 감지 및 분할 등의 작업을 포괄하는 명령을 통해 자유 형식 편집이 가능
현재의 방식은 다양한 편집 작업에서 과도하게 수정하거나 성능이 떨어지는 경우가 많음
오늘날의 많은 제너레이티브 AI 모델과 달리 Emu Edit는 지침을 정확하게 따르기 때문에 지침과 관련이 없는 입력 이미지의 픽셀은 그대로 유지함
- 예를 들어 야구 모자에 "알로하!"라는 텍스트를 추가할 때 모자 자체는 변경되지 않아야 함
모델을 학습시키기 위해 각각 입력 이미지, 수행할 작업에 대한 설명, 목표 출력 이미지가 포함된 1,000만 개의 합성 샘플이 포함된 데이터 세트를 개발했음
- 현재까지 가장 큰 규모의 데이터 세트
이 결과, Emu Edit 모델은 지침 충실도와 이미지 품질 측면에서 전례 없는 편집 결과를 보여줌
- 다양한 이미지 편집 작업에 대한 정성적, 정량적 평가 모두에서 새로운 최첨단 결과를 도출하며 기존 방식보다 우수한 성능을 입증

Emu Edit 에 관심이 많이 가네요. DALLE 는 뭔가 수정 명령을 하면 Seed를 고정하더라도 아예 새로 생성을 해버려서 작은 수정이 어려운데 저런 방식으로 수정이 되면 사용하기 편해질 것 같습니다.