STARFlow-V: 정규화 흐름 기반 종단간 비디오 생성 모델
(starflow-v.github.io)- 정규화 흐름(normalizing flow) 을 이용해 텍스트·이미지·비디오 입력으로부터 직접 영상을 생성하는 최초의 인과적 비디오 생성기
- 엔드투엔드 학습, 정확한 가능도 추정, 다중 생성 과제(T2V/I2V/V2V) 를 단일 모델로 처리
- Global-Local 아키텍처, Flow-Score Matching, 비디오 인식형 Jacobi 반복으로 시공간 일관성과 효율 향상
- 7B 파라미터 모델로 480p·16fps 비디오 생성, 70M 텍스트-비디오 및 400M 텍스트-이미지 데이터로 학습
- 정규화 흐름이 확산 기반 모델과 동등한 품질을 달성하며, 고품질 자가회귀 비디오 생성 가능성을 입증
STARFlow-V 개요
- STARFlow-V는 정규화 흐름 기반 인과적 비디오 생성 모델로, 확산 모델 수준의 시각 품질을 달성
- 엔드투엔드 학습, 정확한 가능도 추정, 다중 생성 과제 지원을 동시에 제공
- 기존 확산 모델이 주도하던 비디오 생성 영역에서 정규화 흐름의 실용성을 입증
- 텍스트-비디오(T2V), 이미지-비디오(I2V), 비디오-비디오(V2V) 생성 모두 단일 구조로 처리 가능
핵심 설계 및 학습 구조
- 모델은 Deep Autoregressive Block(전역 시계열 추론)과 Shallow Flow Block(프레임 내 세부 묘사)으로 구성
- 전자는 시공간 잠재 공간에서 장기 의존성을 포착
- 후자는 각 프레임의 지역적 세부 구조를 모델링
- Flow-Score Matching을 통해 학습된 인과적 경량 노이즈 제거기가 출력 일관성을 향상
- 학습 목표는 최대 가능도 추정과 Flow-Score Matching의 이중 목적 구조
주요 기술 기여
-
Global-Local 아키텍처
- 전역 인과 Transformer 블록이 장기 시공간 의존성을 처리
- 프레임 단위의 얕은 흐름 블록이 지역적 세부 묘사를 담당
- 픽셀 단위 자가회귀 모델의 누적 오차 문제를 완화
-
Flow-Score Matching 기반 노이즈 제거
- 모델의 확률 분포 기울기(스코어)를 예측하는 인과적 신경 노이즈 제거기를 병행 학습
- 비인과적 또는 불완전한 외부 디노이저 없이 단일 스텝 정제 가능
-
비디오 인식형 Jacobi 반복
- 비선형 시스템 해법으로 생성 과정을 재구성해 병렬 잠재 업데이트 수행
- 인접 프레임의 시계열 정보를 활용한 초기화와 파이프라인 실행으로 속도 향상
모델 사양
- 학습 데이터: 70M 텍스트-비디오 쌍, 400M 텍스트-이미지 쌍
- 모델 크기: 7B 파라미터, 출력 해상도 480p, 프레임 속도 16fps
- 정규화 흐름의 가역성 덕분에 구조 변경이나 재학습 없이 다양한 생성 과제 수행
생성 결과 및 비교
- 텍스트-비디오: 자연광, 실사풍, 매크로 등 다양한 장면을 고품질로 생성
- 이미지-비디오: 입력 이미지를 기반으로 시간적 일관성을 유지하며 영상 확장
- 비디오-비디오: 객체 추가, 색상 변환, 스타일 변경, 인페인팅 등 다양한 변형 수행
- 장편 비디오 생성: 10~30초 길이의 영상도 구간별 자가회귀 방식으로 생성
- 비교 실험: NOVA, WAN-Causal 대비 시각적 충실도와 시간적 일관성에서 우수한 결과
한계 및 실패 사례
- 복잡한 물리 상호작용이나 빠른 동작에서는 품질 저하 발생
- 원인으로 학습 자원 제약, 저품질 데이터, 후속 미세조정(SFT·RL) 부재가 명시됨
- 예시: 개가 물을 털거나, 염소가 점프하는 장면 등에서 부자연스러운 움직임 관찰
연구적 의의
- STARFlow-V는 정규화 흐름이 고품질 자가회귀 비디오 생성에 적합함을 최초로 입증
- 확산 모델 중심의 비디오 생성 연구에 새로운 대안적 접근 방향을 제시
- 세계 모델(world model) 구축을 위한 유망한 연구 경로로 평가됨
Hacker News 의견
-
Apple도 비디오 이해 모델을 가지고 있음
시각장애인으로서 AI가 내 삶을 완전히 바꿔놓았음. 이번 모델로 접근성 기능이 어떻게 발전할지 정말 기대됨- 이런 이야기는 뉴스 헤드라인에서 보기 힘든데, 정말 반가운 댓글임
- 몇 년 전에는 청각장애 부모를 위해 아기 울음소리를 감지해 알림을 주는 기능도 추가했었음
- 품질이 낮은 댓글일 수도 있지만, 진심으로 축하하고 기쁨을 느꼈음
- AI가 어떻게 삶을 바꿨는지 구체적으로 공유해줄 수 있는지 궁금함
- 드물게 AI가 사람들에게 실제로 도움이 되는 좋은 소식이라 반가움
-
Apple의 라이선스는 비상업적 연구용으로만 제한되어 있어서 오픈소스 정의에는 부합하지 않음
그래서 ‘오픈소스’보다는 ‘weights available’이라고 부르는 게 더 정확하다고 생각함- 사실 아직 weights조차 공개되지 않음
미국 법 기준으로는 모델 가중치는 창작물이 아니라 기계 산출물이므로 저작권이 없다고 봄
그래서 나는 이런 무의미한 라이선스는 무시하고 자유롭게 사용할 것 같음
- 사실 아직 weights조차 공개되지 않음
-
“오픈 웨이트 모델”이라는 개념이 마치 ‘오픈소스 윈도우 기계어 버전’ 같아서 좀 불편함
Apple의 라이선스는 클릭랩 MIT 형태로, 수정과 재배포 권한이 있다는 점은 그나마 다행임- 좋은 비유임. 확장하자면 “폐쇄형 기계어”는 전형적인 SaaS 모델과 같음
그래도 바이너리를 직접 쓸 수 있는 게 SaaS만 제공하는 것보단 낫다고 생각함 - 로컬에서 실행할 수 있다는 점이 중요함
오픈 웨이트는 재학습이나 distillation이 가능하다는 점에서 단순한 실행 파일과는 다름 - 아마 코드 라이선스와 모델 라이선스를 혼동한 것 같음
- 좋은 비유임. 확장하자면 “폐쇄형 기계어”는 전형적인 SaaS 모델과 같음
-
텍스트-투-비디오 예시를 봤는데, 솔직히 인상적이지 않았음
예전 Will Smith 국수 영상을 떠올리게 함. 내가 뭔가 놓친 게 있을까?- 최신 기술 대비 약 2년 정도 뒤처져 보임
그래도 연구자들이 실험할 수 있도록 공개한 점은 의미 있음 - 다시 Will Smith 스파게티 영상을 보면 알겠지만, 이번 예시는 그보다는 훨씬 나음
완벽하진 않지만 공개된 모델 중에서는 가장 발전된 수준일 수도 있음
다만 라이선스가 충분히 ‘오픈’한지는 의문임 - 나도 같은 생각이었음. 컵에 액체가 멈췄는데도 계속 차오르는 등 어색한 부분이 있었음
- 최신 기술 대비 약 2년 정도 뒤처져 보임
-
이 프로젝트는 연구로서는 새로운 시도와 가능성을 보여줬지만
제품 관점에서는 컴퓨팅 자원 제약이 뚜렷하게 보임
CFO가 CEO의 ML 인프라 투자 결정을 막았다는 보고와도 일치함
JG의 퇴사, AI 부서 대규모 개편, Tim의 2026년 퇴임설 등으로 미루어
비(非)ML 진영이 사내 정치에서 이긴 듯함
그래도 접근 방식은 흥미로우니 다른 이들이 이를 기반으로 유용한 무언가를 만들길 바람 -
논문에 따르면 이 모델은 diffusion 비디오 모델의 누적 오류 문제를 해결하려는 연구용 모델임
잠재 공간을 인과적(causal) 구조로 설계해 일관성을 높였다고 함
7B 규모 모델 치고는 결과가 꽤 괜찮음
만약 Apple이 wan이나 veo 수준의 모델을 내놓는다면, 정말 세련된 데이터로 학습했을 것 같음 -
STARFlow-V는 96개의 H100 GPU로 약 2천만 개의 비디오를 학습했다고 함
다만 학습 기간은 명시되지 않음- Apple Intelligence가 Nvidia GPU와 Linux로 학습된 점이 흥미로움
레포의 예시들이 Mac에서도 추론이 가능한지 궁금함
- Apple Intelligence가 Nvidia GPU와 Linux로 학습된 점이 흥미로움
-
제목이 잘못됨. 모델은 아직 공개되지 않았고, 링크에도 그런 내용이 없음
왜 편집된 제목을 쓴 건지 의문임 -
모델이 좋아 보이긴 하지만, Apple이 어떤 사용 사례를 염두에 두었는지 궁금함
단순히 연구자들의 관심사일 수도 있고, 대기업 연구의 방향성이 위에서 내려오는지 모르겠음- Apple은 Pixar, Disney와의 연관으로 영상·애니메이션 분야에 강함
Jobs 시절부터 이어진 인연이 많음 - 아마도 아이폰으로 찍은 영상에 생성형 효과를 추가하는 용도일 듯함
TikTok이나 Instagram이 곧 이런 기능을 넣을 테지만, Apple은 자체적으로 제공하려는 듯함
개인적으로는 Snapchat 인수가 좋은 전략일 것 같음
- Apple은 Pixar, Disney와의 연관으로 영상·애니메이션 분야에 강함
-
레포에는 “Pretrained checkpoints will be released soon”이라고 되어 있음
즉, 아직은 오픈 웨이트가 아님
실제로 가중치가 공개되어야 진정한 오픈 모델이 될 것임
“Soon”이라는 말이 언제일지는 미지수임