# 비디오 생성용 Next-Frame Prediction 모델에서 Packing Input Frame Context 활용

> Clean Markdown view of GeekNews topic #20447. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=20447](https://news.hada.io/topic?id=20447)
- GeekNews Markdown: [https://news.hada.io/topic/20447.md](https://news.hada.io/topic/20447.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2025-04-21T09:48:17+09:00
- Updated: 2025-04-21T09:48:17+09:00
- Original source: [lllyasviel.github.io](https://lllyasviel.github.io/frame_pack_gitpage/)
- Points: 2
- Comments: 1

## Topic Body

- **비디오 생성**을 위한 **다음 프레임 예측 모델**에서 **입력 프레임 컨텍스트**를 패킹하는 방법에 대한 연구임
- **FramePack**은 **GPU 메모리 레이아웃**을 최적화하여 **프레임 예측**을 효율적으로 수행하는 방법임
- **프레임 중요도**에 따라 **GPU 리소스**를 할당하여 **컴퓨팅 복잡도**를 O(1)로 줄임
- **드리프팅 문제**를 해결하기 위해 **양방향 샘플링**을 제안함
- **이미지-비디오 변환**에서 **첫 프레임**을 중요하게 다루는 **반전 안티-드리프팅 샘플링** 방법을 강조함

---

### 비디오 생성에서 입력 프레임 패킹

- **다음 프레임 예측 모델**은 여러 입력 프레임을 사용하여 새로운 프레임을 생성하는 방식임
- **FramePack**은 입력 프레임을 **GPU 메모리 레이아웃**에 맞게 인코딩하여 **효율적인 프레임 생성**을 가능하게 함
- 각 프레임은 **패치화 커널**을 사용하여 인코딩되며, 중요도에 따라 **컨텍스트 길이**가 조정됨
- 예를 들어, **HunyuanVideo**에서는 480p 프레임이 (1, 2, 2) 패치화 커널을 사용하면 1536 토큰이 되고, (2, 4, 4) 패치화 커널을 사용하면 192 토큰이 됨

### 프레임 중요도와 스케줄링

- **중요한 프레임**은 더 많은 **GPU 리소스**를 할당받음
- 다양한 **압축 패턴**을 통해 시작 프레임을 동일하게 중요하게 만들 수 있음
- 모든 스케줄링은 **O(1) 복잡도**를 가짐
- 논문에서는 여러 스케줄링에 대한 **상세한 평가**를 제공함

### 드리프팅 문제와 해결 방법

- **드리프팅**은 비디오가 길어질수록 **품질 저하**가 발생하는 문제임
- **오류 누적** 또는 **노출 편향**이라고도 불림
- 이를 해결하기 위해 **인과성을 깨고 양방향 샘플링**을 도입함
- **반전 안티-드리프팅 샘플링**은 모든 추론에서 첫 프레임을 **근사 목표**로 삼음

### 이미지-비디오 변환 성능

- **RTX 3060 6GB** 노트북에서 **13B HY 변형**을 사용하여 **이미지-5초** 및 **이미지-60초** 비디오를 생성함
- 결과는 **h264crf18**로 압축되어 **GitHub 저장소**에 맞춤

## Comments



### Comment 37407

- Author: neo
- Created: 2025-04-21T09:48:17+09:00
- Points: 1

###### [Hacker News 의견](https://news.ycombinator.com/item?id=43736193) 
* 이 사람은 천재임. 그가 ControlNet도 개발했다는 사실을 모르는 사람들을 위해 말하자면, 이 모델은 소비자 하드웨어에서 실행되는 최초의 괜찮은 비디오 생성 모델임. ControlNet의 포즈 지원도 곧 기대됨
  - 재미있게도 이 모델은 사람들이 춤추기를 정말로 원함. 인터뷰를 위해 앉아 있는 사람조차도 앉아서 춤을 추기 시작함
  - 예시들이 상당히 인상적이며, 이를 생성하는 데 사용된 자원은 거의 미미함. 이전 세대 소비자 하드웨어에서도 추론이 가능해 보임. 5090에서의 추론 처리량 통계도 보고 싶음
  - 공간적으로도 이 작업을 할 수 있을까? 예를 들어, 이미지를 한 번에 생성하는 대신 위에서 아래로 생성할 수 있을까
  - 이 모델이 비디오 외삽 대신 보간에 사용될 수 있을까
  - 놀라움. 더 많은 RAM이 있거나 다른 것이 있다면 더 빨라질 수 있을까? H100이나 H200에서 더 많은 속도를 낼 수 있을까
  - 이 모델이 할 수 있는 유일한 움직임은 춤추는 것처럼 보임
