비디오 생성용 Next-Frame Prediction

GN⁺ 2025-04-21 | parent | ★ favorite | on: 비디오 생성용 Next-Frame Prediction 모델에서 Packing Input Frame Context 활용(lllyasviel.github.io)

Hacker News 의견

이 사람은 천재임. 그가 ControlNet도 개발했다는 사실을 모르는 사람들을 위해 말하자면, 이 모델은 소비자 하드웨어에서 실행되는 최초의 괜찮은 비디오 생성 모델임. ControlNet의 포즈 지원도 곧 기대됨
- 재미있게도 이 모델은 사람들이 춤추기를 정말로 원함. 인터뷰를 위해 앉아 있는 사람조차도 앉아서 춤을 추기 시작함
- 예시들이 상당히 인상적이며, 이를 생성하는 데 사용된 자원은 거의 미미함. 이전 세대 소비자 하드웨어에서도 추론이 가능해 보임. 5090에서의 추론 처리량 통계도 보고 싶음
- 공간적으로도 이 작업을 할 수 있을까? 예를 들어, 이미지를 한 번에 생성하는 대신 위에서 아래로 생성할 수 있을까
- 이 모델이 비디오 외삽 대신 보간에 사용될 수 있을까
- 놀라움. 더 많은 RAM이 있거나 다른 것이 있다면 더 빨라질 수 있을까? H100이나 H200에서 더 많은 속도를 낼 수 있을까
- 이 모델이 할 수 있는 유일한 움직임은 춤추는 것처럼 보임