-
비디오 생성을 위한 다음 프레임 예측 모델에서 입력 프레임 컨텍스트를 패킹하는 방법에 대한 연구임
-
FramePack은 GPU 메모리 레이아웃을 최적화하여 프레임 예측을 효율적으로 수행하는 방법임
-
프레임 중요도에 따라 GPU 리소스를 할당하여 컴퓨팅 복잡도를 O(1)로 줄임
-
드리프팅 문제를 해결하기 위해 양방향 샘플링을 제안함
-
이미지-비디오 변환에서 첫 프레임을 중요하게 다루는 반전 안티-드리프팅 샘플링 방법을 강조함
비디오 생성에서 입력 프레임 패킹
-
다음 프레임 예측 모델은 여러 입력 프레임을 사용하여 새로운 프레임을 생성하는 방식임
-
FramePack은 입력 프레임을 GPU 메모리 레이아웃에 맞게 인코딩하여 효율적인 프레임 생성을 가능하게 함
- 각 프레임은 패치화 커널을 사용하여 인코딩되며, 중요도에 따라 컨텍스트 길이가 조정됨
- 예를 들어, HunyuanVideo에서는 480p 프레임이 (1, 2, 2) 패치화 커널을 사용하면 1536 토큰이 되고, (2, 4, 4) 패치화 커널을 사용하면 192 토큰이 됨
프레임 중요도와 스케줄링
-
중요한 프레임은 더 많은 GPU 리소스를 할당받음
- 다양한 압축 패턴을 통해 시작 프레임을 동일하게 중요하게 만들 수 있음
- 모든 스케줄링은 O(1) 복잡도를 가짐
- 논문에서는 여러 스케줄링에 대한 상세한 평가를 제공함
드리프팅 문제와 해결 방법
-
드리프팅은 비디오가 길어질수록 품질 저하가 발생하는 문제임
-
오류 누적 또는 노출 편향이라고도 불림
- 이를 해결하기 위해 인과성을 깨고 양방향 샘플링을 도입함
-
반전 안티-드리프팅 샘플링은 모든 추론에서 첫 프레임을 근사 목표로 삼음
이미지-비디오 변환 성능
-
RTX 3060 6GB 노트북에서 13B HY 변형을 사용하여 이미지-5초 및 이미지-60초 비디오를 생성함
- 결과는 h264crf18로 압축되어 GitHub 저장소에 맞춤