SANA-WM, 1분 720p 비디오를 위한 26억 파라미터 오픈소스 월드 모델

(nvlabs.github.io)

3P by GN⁺ 1달전 | ★ favorite | 댓글 1개

NVIDIA의 SANA-WM은 이미지 1장과 6-DoF 카메라 궤적을 입력받아 단일 GPU에서 720p, 1분 길이의 제어 가능한 비디오를 생성함
Hybrid Linear Diffusion Transformer가 프레임 단위 Gated DeltaNet과 주기적 softmax를 결합해 긴 롤아웃의 일관성을 유지함
학습은 64개 H100에서 15일 걸렸고, 증류 변형은 RTX 5090 1개에서 NVFP4로 60초 720p 클립을 34초에 디노이즈함
공개 영상 약 21.3만 개와 미터 단위 6-DoF 포즈 감독을 사용해 정밀한 카메라 경로 추종을 지원함
1분 월드 모델 벤치마크에서 기존 오픈소스 기준선보다 액션 추종 정확도가 높고, 비슷한 시각 품질에서 36배 높은 처리량을 달성함

모델과 공개 자료

SANA-WM은 26억 파라미터 오픈소스 월드 모델이며, 하나의 이미지와 카메라 궤적을 입력받아 720p, 1분 길이의 제어 가능한 비디오를 생성함
NVIDIA 소속 Haoyi Zhu, Haozhe Liu, Yuyang Zhao, Tian Ye, Junsong Chen, Jincheng Yu, Tong He, Song Han, Enze Xie가 참여함
Paper, Code, Models soon 자료가 제공됨
논문 제목은 SANA-WM: Efficient Minute-Scale World Modeling with Hybrid Linear Diffusion Transformer임

핵심 설계와 생성 파이프라인

긴 롤아웃을 위한 하이브리드 구조
- Hybrid Linear Diffusion Transformer는 프레임 단위 Gated DeltaNet과 주기적 softmax를 결합해 분 단위 롤아웃에서 세계 일관성을 유지함
- 효율성 비교에서 recurrent 변형은 메모리와 지연시간 측면에서 더 작게 확장되지만, all-softmax 방식은 60초 생성에서 OOM이 발생함
정밀한 카메라 제어
- SANA-WM은 6-DoF 카메라 궤적을 입력으로 받아 메트릭 카메라 경로를 따르는 영상을 생성함
- 거친 전역 포즈 브랜치와 세밀한 픽셀 정렬 기하 브랜치가 함께 작동해 카메라 경로 추종 충실도를 높임
- 공개 영상에서 미터 단위의 정확한 6-DoF 카메라 포즈를 추출해 시공간적으로 일관된 고품질 액션 레이블을 만듦
2단계 품질 향상
- 1단계 출력에는 17B 장편 비디오 refiner가 적용되어 시퀀스 전반의 품질과 일관성이 개선됨
- refiner는 긴 롤아웃 백본 위에서 텍스처, 움직임, 후반 구간의 품질을 더 선명하게 만듦

학습과 추론 효율

학습은 64개 H100에서 15일 걸렸고, 학습 데이터에는 약 21.3만 개 공개 영상 클립과 미터 단위 포즈 감독이 사용됨
추론에서는 단일 H100으로 1분 720p 영상 생성이 가능함
증류 변형 모델은 RTX 5090 1개에서 NVFP4 양자화를 사용해 60초 720p 클립을 34초에 디노이즈함
SANA-WM은 LingBot-World, HY-WorldPlay 같은 대규모 산업 기준선과 비슷한 시각 품질을 보이면서 효율을 개선함
1분 월드 모델 벤치마크에서 기존 오픈소스 기준선보다 더 높은 액션 추종 정확도를 보였고, 비슷한 시각 품질에서 36배 높은 처리량을 달성함

데모에서 보이는 생성 특성

1분 월드 데모
- 다수의 1분 예시는 1인칭 시점의 고정된 관찰점을 유지하면서 카메라 이동이나 관찰자 행동 없이 환경 자체의 움직임을 생성함
- Video 68: 눈 덮인 알프스 길, 절벽, 동굴 입구, 고드름, 바람에 휜 소나무, 주황색 재킷의 등산가가 배치되고 눈 입자·안개·가지 흔들림·가루눈 흐름이 생성됨
- Video 72: 열린 교차로에서 파란 숲, 폭풍 구름 아래 폐허 탑, 햇빛 마을로 갈라지는 세 갈래 경로가 생성됨
- Video 81: 폐쇄된 지하 SF 연구시설의 T자 교차로와 물에 잠긴 왼쪽 복도, 증기로 찬 오른쪽 복도, 어둠으로 열린 원형 금속문이 나타남
20초 월드 데모
- Video 82: 산속 버려진 오두막 내부, 손그림 지도, 녹슨 열쇠, 따뜻한 랜턴, 눈 숲길 너머 금빛 동굴을 구성하고 불씨 연기·랜턴 불꽃·문틈 눈보라가 움직임
- Video 85: 정글 유적의 봉인된 원형문, 녹색 기호, 작은 탐사 로봇이 배치되고 덩굴·곤충·나비·물웅덩이·문 기호가 맥동함
- Video 92: 물속 고대 사원의 석재 통로, 산호 기둥, 초록빛 균열, 작은 구형 잠수 로봇이 배치되고 물고기·거품·입자·해초·caustics가 더해짐
같은 첫 프레임과 반복 프롬프트
- Video 100, Video 101, Video 102: 같은 소금 평원 프롬프트에서 스포츠카, 거친 소금 껍질, 낮은 햇빛을 유지하면서 소금 먼지, 구름 이동, 열 아지랑이, 바닥의 바람 선을 생성함
- Video 103, Video 104, Video 105: 얕은 반사 물, 진흙 징검돌, 보라색 숲, 반쯤 잠긴 추락 우주선, 우주복을 입은 astronaut, 작은 외계 생물이 같은 프롬프트 변형으로 나타남
- Video 119, Video 120, Video 121: 열대 해변 일출 장면에서 파도, 야자 잎, 새, 구름 움직임을 고정 시점으로 생성함

Refiner 효과 예시

정글 협곡
- Video 124와 Video 125는 Stage 1 Refined 예시로, 거대한 정글 협곡 내부를 1인칭 고정 시점으로 구성함
- 폭포 뒤에 희미하게 보이는 고대 석조 사원, 접힌 종이비행기, 형형색색의 새, 떠다니는 잎, 젖은 석벽, 얽힌 덩굴, 물방울이 들어감
- 폭포, 안개, 새의 날갯짓, 낙엽, 반짝이는 물방울, 기류에 떨리는 종이비행기가 자율적으로 움직임
절벽에 새겨진 고대 문
- Video 126와 Video 127는 숲의 높은 지대에 있는 절벽 속 고대 문을 나타냄
- 이끼 낀 길에서 반쯤 열린 문까지 석단이 이어지고, 조각 기둥, 수호상, 담쟁이 덮인 벽, 왼쪽의 산악 계곡, 입구 근처의 망토 여행자가 배치됨
- 늦은 오후의 따뜻한 햇빛과 문에서 새어 나오는 청록색 빛이 결합되고, 잎, 새, 덩굴, 포털 빛이 독립적으로 움직임
물에 잠긴 고대 사원
- Video 130와 Video 131는 Stage 1 및 refined 결과를 나란히 제시함
- 산호가 붙은 기둥 사이로 석조 보행로가 이어지고, 갈라진 의식용 벽의 중앙 균열에서 밝은 녹색 빛이 새어 나와 바닥의 발광 기호와 정렬됨
- 작은 구형 잠수 로봇이 앞에 떠 있으며, 물고기, 기포, 입자, 해초, caustics, 녹색 기호가 자율적으로 움직임

데모 제작 메모

페이지의 모든 영상은 SANA-WM 양방향 변형으로 생성된 뒤, 2단계 장기 영상 refiner를 거침
갤러리의 모든 데모 영상 첫 프레임 이미지는 OpenAI GPT Image 2와 Google Nano Banana Pro로 생성됐고, SANA-WM이 정지 이미지를 1분 길이 영상으로 애니메이션화함

GN⁺ 1달전 [-]

Hacker News 의견들

비디오게임 관점에서 보면 이런 월드 모델은 잘 와닿지 않음
직접 게임 개발자는 아니지만, 좋아하는 게임들에는 깊은 의도성이 있음. 예를 들어 FromSoftware 게임이나 최근의 Lies of P에서는 보통 물건 하나도 허투루 놓이지 않고, 거의 모든 오브젝트가 의도적으로 배치됨
이런 의도성이 없는 게임은 대조적으로 죽어 있는 느낌이 나고, 몰입을 깨거나 개발자가 전달하려는 경험에서 빠져나오게 만듦
월드 모델이 이런 의도성을 포착하는 수준까지 갈 수 있을지 상상하기 어려움. 최상위 LLM도 글쓰기에서 자주 실패하고, 코드에서도 그렇고, 그 매체들의 경험 표면은 비디오게임의 사용자 상호작용 범위보다 더 작아 보임
사람이 의도적인 경험을 만들고 싶을 때 이런 월드 모델을 어떻게 모듈식으로 쓸 수 있을지도 불분명함. LLM은 텍스트를 만들고 사람이 고치고 다른 LLM이 이어받는 식으로 어느 정도 모듈화되어 있는데, 여기의 비디오 출력도 같은지 모르겠음
결국 월드 모델 자체는 인상적이지만, 글쓰기용 LLM처럼 우리가 무엇을 향해 만들고 있는지 분명하지 않음. 덜 만족스럽고 덜 인간적인 경험을 더 빨리 만들 수 있게 되는 것인지, 아니면 로봇 시스템이 세계를 만들어 행동의 결과를 상상하며 시뮬레이션하는 게 가장 즉각적인 이점인지 모르겠음
전반적으로 우리가 경험하는 모든 것 뒤의 의도성이 줄어드는 세계로 돌진하는 느낌이고, 모든 것이 더 비인격적이고 더 시끄러워지는 듯함
- 여기에는 두 가지가 있음. 첫째, AI가 없어도 정교하게 설계된 환경과 절차적 생성 환경은 모두 가능하고, 둘 다 잘 만들 수 있음. 반대로 둘 다 각 방식 특유의 이유로 실패할 수도 있음
  부주의한 절차적 생성은 다양성이 부족하거나 말이 안 되는 결과를 만들 수 있고, 부주의한 수동 배치는 게임이 세운 규칙을 어겨 일관성 없는 경험을 만들 수 있음
  명시적 배치로 내부 일관성을 유지하는 일은 규모가 커질수록 어려워짐. 내부 일관성이 품질에 영향을 주는 요소라면, 어느 규모부터는 생성 콘텐츠가 오히려 더 높은 품질의 해법이 될 수 있음
  둘째, AI로 콘텐츠를 만들 때도 부주의에 관한 같은 규칙이 적용됨. 원하는 것을 구성하는 선택지가 거의 없는 생성 AI 도구도 있지만, 그것이 AI의 필수 속성은 아님. 사람들이 단순한 인터페이스를 원해서 그런 경우도 있고, 생성기가 아직 새로워서 세밀한 제어보다 일단 뭔가를 하게 만드는 데 집중하느라 제어 장치가 제한적인 경우도 있음
  어떤 면에서는 아직 너무 새로워서 어떤 제어 가능성이 바람직한지 설명하기 어렵고, 먼저 생성기를 만들어 사람들이 무엇을 하길 원하는지 보는 것이 원하는 제어 기능을 만들기 전의 합리적인 경로라고 봄. 생성물의 스타일, 오브젝트 배치, 카메라 움직임, 장면 구성을 높은 수준으로 제어하는 도구도 있지만 훨씬 적은 사람만 접함
  AI는 없었다면 만들 수 없던 것을 가능하게 해줄 수 있지만, 특별한 것을 만들려면 여전히 세심함이 필요함
- 맞음. 겉보기에는 그럴듯하지만 속은 빈 콘텐츠로 세상을 범람시키게 됨. 원하는 주제를 붙이는 것도 가능함
  안목이 낮은 사람들은 불평하지 않겠지만, 나머지는 물량에 밀려 100개 중 99개가 소음인 상태에서 1개를 찾기 위해 점점 더 많은 시간을 써야 할 것임
  Amazon과도 꽤 비슷함. 망가진 정렬, 조작된 단가 표시, 값싼 복제품의 홍수가 결합해 사용자가 포기하고 상위에 뜬 상품, 즉 추천 목록이나 Amazon 복제품을 사게 만듦
  여러 상품을 웹 검색해서 이미지 탭으로 가보면 Amazon 상품 링크가 결과의 50~90%를 차지하는 경우도 많음
- 이런 모델은 옛 Gutenberg 인쇄기와 비슷해질 것 같음. 콘텐츠 양이 급격히 늘고, 대부분은 별로 좋지 않을 것임
  하지만 압도적인 양 덕분에 전체적으로는 고품질 콘텐츠도 더 많이 만들어질 수 있음. 달리 말하면 평균 게임 품질은 내려가겠지만, 실제로 “훌륭한” 게임이 나오는 속도는 올라갈 것임
- 지금 AI 전반에서 벌어지는 일의 본질을 짚은 것 같음. 그래픽, 이미지, 비디오, 음악, 텍스트, 코드 모두 보기에는 대단해도 공허하고 무가치하게 느껴짐
  삶의 어떤 작업이든 결과의 품질은 그 뒤에 들어간 관심과 의도의 직접적인 반영임. 단순화하면 얼마나 공을 들였는지의 반영이고, 그건 항상 드러남. AI 시대에도 마찬가지임
  다만 노력 없이 결과로 가는 길이 훨씬 짧아져서 물량이 늘고 전체 인상을 희석하고 있음. 이런 값싼 결과물은 닿는 모든 분야를 싸구려처럼 만들기 때문에, 눈에 띄려면 오히려 더 많은 노력이 필요해질 것임
- FromSoftware나 Lies of P처럼 모든 물건이 의도적으로 배치된 사례는 꽤 특정하고 한쪽으로 치우친 예시임
  정교한 아이템 배치에 의존하지 않는 좋은 게임도 많음. 예를 들어 Bethesda의 많은 게임은 대부분의 물건이 쓸모없는 장식이라서 훌륭했는데, 최근작에서 잡동사니에 목적을 부여하며 그 규칙을 깨자 훨씬 나빠졌음
  이런 의도성에 전혀 기대지 않는 좋은 게임도 많고, 말 그대로 멋진 아이디어를 무작위로 던져 붙인 것이거나 절차적으로 생성된 경우도 있음
모델 가중치가 “곧” 나온다는 건 현재로서는 베이퍼웨어라는 뜻임. 가중치도 공개되지 않았는데 어떻게 “오픈소스”라고 부를 수 있나
2.8B 모델에서 이런 결과가 나온다는 데 모두가 회의적인 건 당연함. 가중치가 없으면 일어난 일이 아님
- 모델은 여기 올라와 있음: https://huggingface.co/Efficient-Large-Model/SANA-Video_2B_7...
- 공정하게 보자면 전체 코드베이스는 오픈소스라서, 대부분의 오픈 가중치 모델보다 낫긴 함. 그래도 그 심정에는 동의함
  https://github.com/NVlabs/Sana
- 그렇다면 분명히 열린 게 아님. 제목을 바꿀 수 있는지 궁금함
2.6B라고 하지만, 그다음에 이런 문구가 있음
“전용 17B 장문 비디오 정제기가 긴 롤아웃 백본 위에서 질감, 움직임, 후반 구간 품질을 선명하게 만든다”
전부 비디오게임처럼 보임. 아마 Unreal Engine으로 학습용 합성 데이터를 만들었을 것 같음
GPU에서 이걸 돌린다는 건 꽤 인상적임. 불만과 걱정을 표현하는 사람도 보이지만 아직 초기이고, 지금이 가장 나쁜 상태일 것이라서 이것이 게임에 미칠 영향이 매우 기대됨
어리석은 질문일 수 있는데, 여기서 생성되는 것의 어디가 “월드”인가? 실제 물리 공간의 추상 표현, 예를 들어 게임 엔진식 장면 그래프 같은 게 있는 건가, 아니면 그냥 “이 비디오 생성기가 다른 비디오 생성기보다 물리적으로 더 일관적이다”라는 뜻인가
- 월드 모델은 현재 상태와, 선택적으로 그 세계에 사는 에이전트의 행동이 주어졌을 때 시뮬레이션된 세계의 다음 상태를 예측하는 모델임. 다음 단어를 예측하는 언어 모델과 꽤 유사함
  그 세계 상태는 무엇이든 될 수 있지만, 최근 1~2년 사이에는 더 좁은 의미로 쓰이게 됨. 게임 같은 조작에 자연스럽게 반응해서 마치 비디오게임을 시뮬레이션하는 것처럼 보이는 비디오 생성 모델을 뜻함. 다만 비디오 프레임 뒤에 추가 상태가 있는 것은 아님
- 이 맥락에서 월드는 이 비디오들이 비디오게임처럼 상호작용 가능하다는 뜻임. 링크된 예시에서 키보드와 마우스 입력을 볼 수 있음
  모델은 약 1분 동안 장면 일관성을 유지하도록 학습되어 있어서, 주변을 둘러본 뒤 화면 밖으로 나간 물체도 다시 그 방향을 보면 재등장함
다운로드는 어디 있나? GitHub에서는 못 찾겠고, 웹페이지의 다운로드 버튼은 비활성화되어 있음
그리고 24GB 메모리의 RTX 4090에서 실행될까?
- 5초 버전은 있음: https://huggingface.co/Efficient-Large-Model/SANA-Video_2B_7...
- 아래로 스크롤하면 비디오가 더 있고, 모델은 “곧” 올라올 것처럼 보임
경고: 그 페이지에서 자동 재생되는 비디오를 보니 다운로드가 350Mbps까지 치솟았음
- 탭에 페이지를 열어둔 지 한 시간 넘게 지나서야 알아챘음. 정말 같은 비디오를 계속 스트리밍하고 다시 스트리밍하는 건가? 캐시하기에는 너무 많아서 무한히 다시 전송하는 것인가
  종량제나 제한 있는 네트워크에서 그 페이지를 열어두는 사람이 없었으면 좋겠음
  GitHub가 그 페이지를 정지시키지 않은 게 놀라움
  AI 연구자들은 연산과 네트워크 자원을 태우는 데 너무 익숙해서, 여러 HD 비디오를 자동 재생하고 반복 재생하는 웹페이지에 대해 생각을 멈추는 건가
- 내 70Mbps 연결로는 비디오를 버퍼링조차 못 해서 보기를 포기했음. 그렇게 고화질처럼 보이지도 않았음
2.6B 모델이 1분짜리 비디오를 저 품질과 일관성으로 출력한다는 건 말이 안 될 정도로 대단해 보임
첫 번째 눈 덮인 산에서 남자가 걷는 비디오는 동굴 입구 일관성 문제가 있음. 이 모델 크기에서는 “예상된” 일인가
- 대부분의 비디오에 그런 문제가 좀 있어 보임. 예를 들어 도서관 비디오에서는 탁자 위 책의 형태가 때때로 달라짐
  예시들이 대표적이라면 ‘Refiner’ 효과는 오히려 반대로 작동하는 것 같음. 모든 경우에서 1단계 이미지가 ‘정제된’ 이미지보다 더 좋아 보임. 잡동사니가 적고, 더 현실적이고, 그 표현을 아는 사람에게는 “카우벨”이 덜한 느낌임
- 모든 비디오가 이전에 보여준 영역으로 방향을 다시 돌릴 때 꽤 눈에 띄는 일관성 문제를 보임

답변달기

SANA-WM, 1분 720p 비디오를 위한 26억 파라미터 오픈소스 월드 모델

모델과 공개 자료

핵심 설계와 생성 파이프라인

긴 롤아웃을 위한 하이브리드 구조

정밀한 카메라 제어

2단계 품질 향상

학습과 추론 효율

데모에서 보이는 생성 특성

1분 월드 데모

20초 월드 데모

같은 첫 프레임과 반복 프롬프트

Refiner 효과 예시

정글 협곡

절벽에 새겨진 고대 문

물에 잠긴 고대 사원

데모 제작 메모

함께 보면 좋은 글 β

댓글과 토론

Hacker News 의견들