1P by GN⁺ 3일전 | ★ favorite | 댓글 1개
  • Voyager는 입력 이미지와 사용자가 지정한 카메라 경로를 기반으로 일관된 3D 포인트 클라우드 시퀀스를 생성하는 새로운 비디오 확산 프레임워크
  • RGB와 심도 정보를 동시에 생성해 효율적이고 직접적인 3D 재구성이 가능함
  • 대규모 동영상 데이터셋 생성 파이프라인을 도입해 수작업 3D 주석 없이 다채로운 훈련 데이터를 확보함
  • WorldScore 벤치마크에서 기존 여러 모델 대비 3D 일관성, 콘텐츠 정렬 등 다양한 항목에서 우수한 성능을 보임
  • 단일 또는 다중 GPU에서 최적화된 병렬 추론 지원 및 실시간 데모를 통해 다양한 응용 가능성을 보여줌

프로젝트 소개

  • HunyuanWorld-Voyager는 입력 이미지와 사용자가 지정한 카메라 이동 경로를 기반으로 세계 일관성(3D-Consistent)의 포인트 클라우드 비디오 시퀀스를 생성함
  • 사용자는 자유롭게 카메라 경로를 설정하여 월드 익스플로레이션을 위한 3D 씬 비디오를 만들 수 있음
  • RGB와 깊이(Depth) 비디오를 동시에 맞춤 생성하여, 빠르고 신뢰도 높은 3D 재구성이 가능함

아키텍처

  • Voyager는 두 가지 핵심 구성 요소로 설계됨
    • (1) 세계 일관성 비디오 확산구조: 전역적 씬 일관성을 보장하며, RGB와 심도를 정렬된 상태로 동시에 생성함
    • (2) 장거리 월드 익스플로레이션: 포인트 컬링과 자동 회귀 추론, 부드러운 비디오 샘플링을 활용한 문맥-일관적 씬 확장 지원

데이터 엔진

  • Voyager 학습을 위해 비디오 재구성 파이프라인 기반의 확장형 데이터 엔진을 별도 설계함
    • 임의의 일반 동영상에 대해 카메라 포즈 추정 및 미터기반 깊이 예측을 자동화해, 수작업 없는 대규모 훈련 데이터셋 생성 가능
    • 실제 촬영 영상 및 Unreal Engine 기반 합성 데이터 등을 포함, 10만 개 이상의 동영상 클립으로 구성된 데이터셋 제공

주요 기능 및 데모

  • 카메라 경로 제어 기반 인터랙티브 비디오 생성 데모 제공
  • 생성된 비디오와 연동된 3D 포인트 클라우드 즉시 재구성 가능
  • 단일 이미지로부터 3D 장면 생성, 비디오-딥스 추정 다양한 활용 시나리오 시연

성능 비교

  • WorldScore 벤치마크에서 평가
    • Voyager는 여러 카테고리(카메라 제어, 오브젝트 제어, 콘텐츠 정렬, 3D 일관성 등)에서 최상위권 성능을 기록함
    • 특히 주관적 품질(Subjective Quality) , 3D 일관성 부문에서 가장 높은 점수 획득

시스템 요구사항

  • 단일 80GB GPU에서 540p 해상도 영상 생성 시 최소 60GB 메모리 필요
  • Linux 운영체제 및 CUDA 12.4(권장 80GB 이상) 환경에서 최적 성능 제공

병렬 추론 성능

  • xDiT 기반 다중 GPU 병렬 추론 지원
    • 8개의 H20 GPU 사용 시, 49프레임 50스텝(512x768) 기준 288초에 결과 생성(단일 GPU 대비 6.69배 가속)

유저 인터페이스 및 데모

  • Gradio 기반 실시간 데모 제공
    • 이미지 업로드, 카메라 방향 선택, 프롬프트 텍스트 입력으로 RGB-D 비디오 간편 생성 가능

데이터 엔진 공개

  • RGB-D 비디오 훈련용 대규모 확장 가능한 데이터 생성 엔진도 오픈소스로 제공함

인용 및 참고

  • 아카이브 논문: “Voyager: Long-Range and World-Consistent Video Diffusion for Explorable 3D Scene Generation” (arXiv:2506.04225, 2025)
  • 다양한 오픈소스(VGGT, MoGE, Metric3D 등) 기반 연구 성과를 바탕으로 HunyuanWorld-Voyager 설계 및 구현함

프로젝트 주요 가치와 차별점

  • Voyager는 단일 이미지로 세계 일관성 있는 3D-비디오(포인트 클라우드 기반) 를 다채로운 경로로 출력할 수 있는 점이 기존 대다수 이미지-투-비디오 생성 프로젝트 대비 강점임
  • RGB와 깊이 정보 모두를 생성하고, 대규모 자동화 데이터 엔진을 함께 제공함으로써, 실제 3D 콘텐츠 생성이나 가상 환경 제작, 디지털 트윈, AIGC 응용 등 다양한 산업에서 활용 가능성이 큼
Hacker News 의견
  • 이 라이선스는 꽤나 흥미로운 조건을 가지고 있음

    세계 어디서나 사용 가능하지만 EU, 영국, 한국은 제외됨
    미국/캐나다가 제외일 거라 예상했는데 이런 조합이 의외임
    또,
    “최소 한 번 기술 소개 블로그 포스트나 사용 후기를 내고, 새로운 서비스에는 ‘Powered by Tencent Hunyuan’ 표시를 하라”
    라는 권장 사항이 라이선스에 들어가 있음
    이런 권장이 라이선스에 포함됐을 때의 의미가 궁금함

    • EU AI 법 때문에 그렇다고 생각함
      직접 컴플라이언스 체크 앱을 해봤고, 소기업/오픈소스/연구/클라이언트 없음으로 체크했는데도 여전히 등록, 공시, 각종 절차가 꼬임
      초안이 혼란스러웠고, 개선된 듯 했는데 여전히 불명확하고 관료적임

    • EU 같은 곳들이 AI 규제를 적극적으로 하려고 함
      오픈소스 라이브러리의 목적은 법적 책임 회피임
      그런데 이런 지역들은 책임 소지가 복잡해서, 그냥 사용 자체를 금지하는 방향으로 정한 것 같음

    • 라이선스 내용이 “블로그나 사용기, ‘Powered by Tencent Hunyuan’ 표시” 권장인데
      이게 유튜버들의 “구독과 좋아요 부탁” 같은 신종 홍보 방식 아닌가 싶음

    • 이런 제한은 실질적으로 악의적 컴플라이언스라고 봄
      실제로 AI 법에서는 학습 데이터와 저작권 적합성, 위험 관리 방식 정도 요약 설명만 있으면 됨
      엄청 복잡하거나 로켓공학 같은 게 아님

    • 그래도 혹시 EU에서도 실제 다운로드와 이용이 되는지 궁금함
      난 라이선스에 신경 안 쓰지만, 아마 뭘 받으려면 회원가입이 필요하지 않을까 예상함

  • 기술적으로 단일 사진만 입력 가능한 것도 명확히 표기되어 있는데, 여러 장 입력해서 포토그래메트리 같은 걸 하면 더 표현력이 넓어지지 않을까 궁금함

    • 나도 똑같은 궁금증이 있었음
      내 경우엔 완전히 색다른 활용도가 있음
      일부 구역은 라이다 보트로 수심 측정 데이터를 못 얻었고, 흥미로운 영역은 데이터가 없음
      여기 비행 비디오(수면이 투명한 구간)만 있음
      충분한 각도의 비디오를 통해 수면 반사와 같은 노이즈는 제거하고, 바닥 이미지를 보강해 포토그래메트리로 복원 시도 가능
      중요한 포인트는 정확한 복원을 위해선 다양한 각도의 데이터가 필요함
      빛과 카메라 각도에 따라 수중 가시성이 달라서, 기존에는 여러 시간대에 비행을 반복해야 했지만
      혹시 이 모델로 한 장에서 비슷하게 복원이 되는지 시도해보고 싶음

    • 이미 여러 이미지를 입력해 이런 작업을 하는 포토그래메트리 모델이 있음
      단일 사진이 아닌 소수 사진을 받게 기능을 확장하는 것도 충분히 누군가 시도할 수 있음
      하지만 질문하는 뉘앙스를 보면 이게 단순히 “실수로 안 넣은” 세부사항처럼 들리긴 함

  • 성능 비교표에서 “최고점”을 빨간색으로 강조한 것이 흥미로움

    • 중국 증시 차트랑 똑같은 패턴임
      중국에선 빨간색이 상승, 녹색이 하락을 의미함

    • 얘기된 대로 동아시아권에선 빨간색이 긍정의 의미임
      그런데 내가 더 신기한 건 3번째 색깔이 노랑이라는 점임
      일반적으로 시각 스펙트럼 순서와 다름
      (빨강~700nm, 초록~550nm, 노랑~580nm)
      일반 상식과 다른 컬러 순서가 흥미로움

    • 컬러의 의미는 문화적 결과물임
      중국에선 빨간색이 서양과는 의미가 다름
      그런 선택이 중국식 맥락에선 전혀 독특하지 않음

    • 서양 커뮤니케이션(영화, 패션)에서도 이런 의미 상징색을 자주 볼 수 있음
      중국을 연상시키는 색으로 빨강이 자주 등장함

    • 문화적 차이에서 오는 현상이고, 난 참 흥미롭다고 생각함
      다만 내 일상에 영향은 없어서 그냥 흥미로운 사회 관찰임

  • 1995년에 인도 교수님의 영상처리 강의를 들음
    그때엔 저해상도 이미지를 어떻게 하면 더 나아 보이게 할 수 있냐고 물었고, “정보는 창조할 수 없다”는 대답을 받았음
    그런데 30년이 지난 지금, 한 장의 사진에서 동영상을 만들 수 있는 시대가 됨

    • 사실 이미지에서 생각보다 많은 정보를 추출할 수 있음
      특히 영상에서는 훨씬 더 많은 정보가 나옴
      이런 기술을 ‘슈퍼레졸루션’이라 부름
      정보를 무에서 창조할 순 없지만, 주제 특성에 대한 지식을 이용해 부족한 부분을 자연스럽게 메꿔나가는 방식임

    • 기술 진보는 크지만, 사실 그 당시의 “정보”와 “창조” 의미는 다름
      예를 들어 아이가 인물 사진에 막대기 몸통을 크레용으로 그려넣는 것도 “정보 추가”라 할 수 있지만
      원래 존재한 실제 이벤트의 정보는 아님
      그리고 연구자는 데이터를, 기자는 인용을 함부로 만들 수 없고, 각종 책임의 맥락이 다름

  • 이 모델이 진짜 완전 360도 회전도 할 수 있을까?
    올려진 영상 보면 살짝 이동하거나 기껏해야 약간만 팬(pan)하는 것처럼 보임

    • 이론적으로는 가능함
      매 프레임마다 모델이 깊이 이미지를 만들고, 각 픽셀이 3D 포인트가 됨
      3D 씬 전체가 정적이란 가정 하에, 모든 프레임을 3D 포인트 클라우드로 모아 쌓을 수 있음
      이후 클래식 3D 렌더러로 마음껏 시점을 돌려볼 수 있음
      하지만 실제 비디오 생성 단계에서 프레임별 정보 일관성이 부족하면(예: 색상 변화) 포인트 클라우드도 “일관적으로 틀린 데이터”일 뿐임
      결국 돌려볼 때 색조합이 어긋나 흐릿하게 블렌딩되어 보이게 됨
      그리고 만든 신(scene)에 가상 객체를 제대로 넣기 어려움
      왜냐면 조명 정보가 없고, 색상 혼합도 환경과 어울리지 않음
      아이디어는 멋지지만 추가로 해결할 문제가 많음
  • 진짜 VR에서 이런 기능을 빨리 써보고 싶어 기대 중임

    • visionOS 26 “Immersive Photo” 모드 한번 써보길 추천함
      아이클라우드 라이브러리 내 사진이 자동으로 로컬 모델에 의해 변환됨(아마도 Gaussian Splat 3D 씬 방식)
      패닝, 돌리기 모두 가능해서 Vision Pro 값어치를 해줌
      예전에 찍은 니콘 D70 사진으로도 찍힌 풍경과 인물이 현실처럼 보임

    • 너무 조급해하지는 말기 바람
      아직까지 진짜 고해상도 120fps, 안정적인 입체(스테레오), 초저지연 단계와는 거리가 멀음

    • 현상태에서 적용하면 멀미가 엄청날 수도 있다고 생각함
      이 영상들의 시야각(fov)이 너무 어수선함

  • 현재 text-to-3D-asset(문장→3D 에셋) 변환에 가장 뛰어난 모델이나 조합이 뭔지 궁금함
    오픈소스 기반이면 더 좋겠음

    • 바로 덧붙여, text-to-sprite-sheet(문장→스프라이트시트),
      혹은 문장+단일이미지→스프라이트시트도 가능한지 궁금함
  • 이건 사실 오픈소스가 아니고, “weights-available(가중치 공개)” 형식임
    학습 데이터도 없고, 오픈소스가 “수정에 가장 적합한 형태”라면 데이터까지 있어야 맞는 거임
    라이선스 일부 원문:

    “직전 달 MAU 100만 이상인 경우 사전 라이선스 필요,
    다른 AI 모델 개선에는 사용할 수 없음”
    Acceptable Use Policy(허용사용정책)도 상당히 구체적으로 제한함 라이선스 전문 보기

    • EU/UK/한국 제한은, 아마 그 지역이 데이터 무단 학습에 문제 제기하거나 금전적 배상을 요구할 수 있기 때문이라 추정함

    • “오픈소스가 아니다”라는 주장에는 동의하지만
      “수정에 가장 적합한 형태”가 꼭 데이터(학습 데이터)는 아니고, 가중치(weights)가 맞음
      데이터는 가중치 수정의 방법임

    • 파인튜닝이 훨씬 저렴하다는 점을 지적하고 싶음

    • AI2를 빼고, 사실상 대부분의 AI 모델이 진정한 오픈소스(학습 로그, 데이터까지 공개)는 아니라고 생각함
      요즘 오픈소스란 사실상 “weights-available”의 동의어처럼 쓰임

    • “7. 남을 해치거나 선거를 조작할 목적으로 명백하게 허위 정보를 만들어 배포하지 않는다”
      “8. 가짜 리뷰 등 허위 온라인 활동을 만들지 않는다”
      → 자신들은 하면서 남들에겐 금지하는 거 아닌지
      “15. 여타 국가나 지역의 사회 윤리/도덕에 위배되는 방식으로 사용하지 않는다”
      등 현실적으로 모든 지역에서 사용을 어렵게 만드는 조항임
      정책이 너무 과함

  • 내가 관심 있는 건 Panoramax(오픈 StreetView 대안) 사진을 입력해 3D 내비게이션 가능한 씬으로 재구성하는 것임

  • 카메라를 1080도 돌려줄 수는 없나 묻고 싶음!!
    영상들이 <i>너무</i> 짧고, 45도도 제대로 안 돎
    Genie3도 고작 90도 돌리는 수준이고
    실제로 모델이 “안 되는” 부분에 주의를 기울여야 하고, 이 경우엔 “제대로 회전을 못 한다”는 것임
    한 자리에 두고 돌려보는 간단한 테스트를 통과 못하면 더이상 ‘world model’이라 부르기 싫음
    으으 불만임