- 최근 비디오 생성 모델들이 등장하며 놀라운 화질을 선보이고 있는데, 현재 한계는 일관된 대규모 움직임의 생성 능력 부족
- VideoPoet은 텍스트-비디오, 이미지-비디오, 비디오 스타일링, 비디오 인페인팅 및 아웃페인팅, 비디오-오디오 생성 등 다양한 비디오 생성 작업을 수행할 수 있는 LLM
- 다른 모델과 달리 각 작업을 잘하는 구성요소에 의존하는 것이 아닌, 단일 LLM내에서 각 기능을 통합
- 이미지를 움직임으로 변환하고, 비디오를 편집하여 인페인팅 또는 아웃페인팅을 수행
- VideoPoet는 비디오, 이미지, 오디오, 텍스트 모달리티를 학습하기 위해 여러 토크나이저를 사용하여 자동회귀 언어 모델을 훈련함
- 텍스트-to-비디오의 경우, 비디오 출력은 가변 길이이며 텍스트 내용에 따라 다양한 움직임과 스타일을 적용할 수 있음
- 이미지-to-비디오의 경우, 입력 이미지를 프롬프트와 함께 움직임으로 애니메이션화
- 비디오 스타일링에서는 Optical Flow와 Depth 정보를 예측한 후 추가 입력 텍스트와 함께 VideoPoet에 입력
- VideoPoet은 오디오도 생성할 수 있으며, 이를 통해 단일 모델에서 비디오와 오디오를 생성할 수 있음
- 생성 평가 결과 평균적으로 사람들은 VideoPoet이 프롬프트를 더 잘 따르고, 더 흥미로운 움직임을 생성한다고 평가
- VideoPoet은 비디오 내에서 흥미롭고 고품질의 움직임을 생성하는 데 있어 LLM의 경쟁력을 입증함