5P by xguru 7달전 | favorite | 댓글과 토론
  • 최근 비디오 생성 모델들이 등장하며 놀라운 화질을 선보이고 있는데, 현재 한계는 일관된 대규모 움직임의 생성 능력 부족
  • VideoPoet은 텍스트-비디오, 이미지-비디오, 비디오 스타일링, 비디오 인페인팅 및 아웃페인팅, 비디오-오디오 생성 등 다양한 비디오 생성 작업을 수행할 수 있는 LLM
    • 다른 모델과 달리 각 작업을 잘하는 구성요소에 의존하는 것이 아닌, 단일 LLM내에서 각 기능을 통합
    • 이미지를 움직임으로 변환하고, 비디오를 편집하여 인페인팅 또는 아웃페인팅을 수행
  • VideoPoet는 비디오, 이미지, 오디오, 텍스트 모달리티를 학습하기 위해 여러 토크나이저를 사용하여 자동회귀 언어 모델을 훈련함
  • 텍스트-to-비디오의 경우, 비디오 출력은 가변 길이이며 텍스트 내용에 따라 다양한 움직임과 스타일을 적용할 수 있음
  • 이미지-to-비디오의 경우, 입력 이미지를 프롬프트와 함께 움직임으로 애니메이션화
  • 비디오 스타일링에서는 Optical Flow와 Depth 정보를 예측한 후 추가 입력 텍스트와 함께 VideoPoet에 입력
  • VideoPoet은 오디오도 생성할 수 있으며, 이를 통해 단일 모델에서 비디오와 오디오를 생성할 수 있음
  • 생성 평가 결과 평균적으로 사람들은 VideoPoet이 프롬프트를 더 잘 따르고, 더 흥미로운 움직임을 생성한다고 평가
  • VideoPoet은 비디오 내에서 흥미롭고 고품질의 움직임을 생성하는 데 있어 LLM의 경쟁력을 입증함