비디오 생성용 Next-Frame Prediction 모델에서 Packing Input Frame Context 활용

(lllyasviel.github.io)

2P by GN⁺ 3달전 | ★ favorite | 댓글 1개

비디오 생성을 위한 다음 프레임 예측 모델에서 입력 프레임 컨텍스트를 패킹하는 방법에 대한 연구임
FramePack은 GPU 메모리 레이아웃을 최적화하여 프레임 예측을 효율적으로 수행하는 방법임
프레임 중요도에 따라 GPU 리소스를 할당하여 컴퓨팅 복잡도를 O(1)로 줄임
드리프팅 문제를 해결하기 위해 양방향 샘플링을 제안함
이미지-비디오 변환에서 첫 프레임을 중요하게 다루는 반전 안티-드리프팅 샘플링 방법을 강조함

비디오 생성에서 입력 프레임 패킹

다음 프레임 예측 모델은 여러 입력 프레임을 사용하여 새로운 프레임을 생성하는 방식임
FramePack은 입력 프레임을 GPU 메모리 레이아웃에 맞게 인코딩하여 효율적인 프레임 생성을 가능하게 함
각 프레임은 패치화 커널을 사용하여 인코딩되며, 중요도에 따라 컨텍스트 길이가 조정됨
예를 들어, HunyuanVideo에서는 480p 프레임이 (1, 2, 2) 패치화 커널을 사용하면 1536 토큰이 되고, (2, 4, 4) 패치화 커널을 사용하면 192 토큰이 됨

프레임 중요도와 스케줄링

중요한 프레임은 더 많은 GPU 리소스를 할당받음
다양한 압축 패턴을 통해 시작 프레임을 동일하게 중요하게 만들 수 있음
모든 스케줄링은 O(1) 복잡도를 가짐
논문에서는 여러 스케줄링에 대한 상세한 평가를 제공함

드리프팅 문제와 해결 방법

드리프팅은 비디오가 길어질수록 품질 저하가 발생하는 문제임
오류 누적 또는 노출 편향이라고도 불림
이를 해결하기 위해 인과성을 깨고 양방향 샘플링을 도입함
반전 안티-드리프팅 샘플링은 모든 추론에서 첫 프레임을 근사 목표로 삼음

이미지-비디오 변환 성능

RTX 3060 6GB 노트북에서 13B HY 변형을 사용하여 이미지-5초 및 이미지-60초 비디오를 생성함
결과는 h264crf18로 압축되어 GitHub 저장소에 맞춤

GN⁺ 3달전 [-]

Hacker News 의견

이 사람은 천재임. 그가 ControlNet도 개발했다는 사실을 모르는 사람들을 위해 말하자면, 이 모델은 소비자 하드웨어에서 실행되는 최초의 괜찮은 비디오 생성 모델임. ControlNet의 포즈 지원도 곧 기대됨
- 재미있게도 이 모델은 사람들이 춤추기를 정말로 원함. 인터뷰를 위해 앉아 있는 사람조차도 앉아서 춤을 추기 시작함
- 예시들이 상당히 인상적이며, 이를 생성하는 데 사용된 자원은 거의 미미함. 이전 세대 소비자 하드웨어에서도 추론이 가능해 보임. 5090에서의 추론 처리량 통계도 보고 싶음
- 공간적으로도 이 작업을 할 수 있을까? 예를 들어, 이미지를 한 번에 생성하는 대신 위에서 아래로 생성할 수 있을까
- 이 모델이 비디오 외삽 대신 보간에 사용될 수 있을까
- 놀라움. 더 많은 RAM이 있거나 다른 것이 있다면 더 빨라질 수 있을까? H100이나 H200에서 더 많은 속도를 낼 수 있을까
- 이 모델이 할 수 있는 유일한 움직임은 춤추는 것처럼 보임