1P by GN⁺ 4시간전 | ★ favorite | 댓글 1개
  • 비디오 생성을 위한 다음 프레임 예측 모델에서 입력 프레임 컨텍스트를 패킹하는 방법에 대한 연구임
  • FramePackGPU 메모리 레이아웃을 최적화하여 프레임 예측을 효율적으로 수행하는 방법임
  • 프레임 중요도에 따라 GPU 리소스를 할당하여 컴퓨팅 복잡도를 O(1)로 줄임
  • 드리프팅 문제를 해결하기 위해 양방향 샘플링을 제안함
  • 이미지-비디오 변환에서 첫 프레임을 중요하게 다루는 반전 안티-드리프팅 샘플링 방법을 강조함

비디오 생성에서 입력 프레임 패킹

  • 다음 프레임 예측 모델은 여러 입력 프레임을 사용하여 새로운 프레임을 생성하는 방식임
  • FramePack은 입력 프레임을 GPU 메모리 레이아웃에 맞게 인코딩하여 효율적인 프레임 생성을 가능하게 함
  • 각 프레임은 패치화 커널을 사용하여 인코딩되며, 중요도에 따라 컨텍스트 길이가 조정됨
  • 예를 들어, HunyuanVideo에서는 480p 프레임이 (1, 2, 2) 패치화 커널을 사용하면 1536 토큰이 되고, (2, 4, 4) 패치화 커널을 사용하면 192 토큰이 됨

프레임 중요도와 스케줄링

  • 중요한 프레임은 더 많은 GPU 리소스를 할당받음
  • 다양한 압축 패턴을 통해 시작 프레임을 동일하게 중요하게 만들 수 있음
  • 모든 스케줄링은 O(1) 복잡도를 가짐
  • 논문에서는 여러 스케줄링에 대한 상세한 평가를 제공함

드리프팅 문제와 해결 방법

  • 드리프팅은 비디오가 길어질수록 품질 저하가 발생하는 문제임
  • 오류 누적 또는 노출 편향이라고도 불림
  • 이를 해결하기 위해 인과성을 깨고 양방향 샘플링을 도입함
  • 반전 안티-드리프팅 샘플링은 모든 추론에서 첫 프레임을 근사 목표로 삼음

이미지-비디오 변환 성능

  • RTX 3060 6GB 노트북에서 13B HY 변형을 사용하여 이미지-5초이미지-60초 비디오를 생성함
  • 결과는 h264crf18로 압축되어 GitHub 저장소에 맞춤
Hacker News 의견
  • 이 사람은 천재임. 그가 ControlNet도 개발했다는 사실을 모르는 사람들을 위해 말하자면, 이 모델은 소비자 하드웨어에서 실행되는 최초의 괜찮은 비디오 생성 모델임. ControlNet의 포즈 지원도 곧 기대됨
    • 재미있게도 이 모델은 사람들이 춤추기를 정말로 원함. 인터뷰를 위해 앉아 있는 사람조차도 앉아서 춤을 추기 시작함
    • 예시들이 상당히 인상적이며, 이를 생성하는 데 사용된 자원은 거의 미미함. 이전 세대 소비자 하드웨어에서도 추론이 가능해 보임. 5090에서의 추론 처리량 통계도 보고 싶음
    • 공간적으로도 이 작업을 할 수 있을까? 예를 들어, 이미지를 한 번에 생성하는 대신 위에서 아래로 생성할 수 있을까
    • 이 모델이 비디오 외삽 대신 보간에 사용될 수 있을까
    • 놀라움. 더 많은 RAM이 있거나 다른 것이 있다면 더 빨라질 수 있을까? H100이나 H200에서 더 많은 속도를 낼 수 있을까
    • 이 모델이 할 수 있는 유일한 움직임은 춤추는 것처럼 보임