2P by neo 3달전 | favorite | 댓글 1개

Stable Video 3D: 단일 이미지에서의 고품질 신규 뷰 합성 및 3D 생성

  • Stable Video Diffusion에 기반한 생성 모델인 Stable Video 3D(SV3D)를 출시. 영상 품질과 뷰 일관성을 크게 향상
  • 두 가지 변형이 포함: SV3D_u와 SV3D_p
    • SV3D_u는 카메라 조건 없이 단일 이미지 입력을 기반으로 궤도 비디오를 생성
    • SV3D_p는 단일 이미지와 궤도 뷰 모두를 수용하여 지정된 카메라 경로를 따라 3D 비디오를 생성하는 기능을 확장
  • Stable Video 3D는 상업적 목적으로 Stability AI 멤버십을 통해 사용할 수 있으며, 비상업적 용도로는 Hugging Face에서 모델 가중치를 다운로드하고 연구 논문을 볼 수 있음

Video Diffusion의 장점

  • Stable Video Diffusion image-to-video diffusion 모델을 카메라 경로 조건 추가로 적용하여, Stable Video 3D는 객체의 다중 뷰 비디오를 생성할 수 있음
  • Video Diffusion 모델의 사용은 Stable Zero123에서 사용된 이미지 디퓨전 모델과 비교하여 생성된 출력물의 일반화와 뷰 일관성 측면에서 주요 이점을 제공
  • 또한, Stable Video 3D의 강력한 기능을 활용하여 객체 주변의 임의의 궤도를 생성하는 개선된 3D 최적화를 제안

신규 뷰 생성

  • SV3D는 특히 신규 뷰 합성(NVS)에서 중요한 발전을 도입
  • 기존 접근법들이 종종 제한된 관점과 출력물의 불일치 문제에 직면하는 반면, SV3D는 어떤 주어진 각도에서도 일관된 뷰를 제공
  • 이 능력은 포즈 제어성을 향상시킬 뿐만 아니라, 다중 뷰에서 일관된 객체 외관을 보장하여 실제적이고 정확한 3D 생성의 중요한 측면을 더욱 개선함

3D 생성

  • SV3D는 다중 뷰 일관성을 활용하여 3D 뉴럴 레디언스 필드(NeRF)와 메시 표현을 최적화하여, 신규 뷰에서 직접 생성된 3D 메시의 품질을 향상
  • 이를 위해 예측된 뷰에서 보이지 않는 영역의 3D 품질을 더욱 향상시키기 위한 마스크 점수 증류 샘플링 손실을 설계함
  • 또한, SV3D는 베이크된 조명 문제를 줄이기 위해 3D 형태와 질감과 함께 최적화되는 분리된 조명 모델을 사용
Hacker News 의견
  • 첫 번째 사용자는 4090 그래픽 카드(24GB VRAM)를 사용하여 Stable Video 3D(SV3D) 모델을 시도했으나 메모리 부족으로 1분 이상 실행 후 충돌을 경험함. 스크립트를 조정하여 동시에 생성하는 프레임 수를 줄이자 성공적으로 생성, VRAM 사용량은 최대 19.5GB, 225와트에서 1분 25초 소요됨.

    Stable Video 3D(SV3D): 정지 이미지를 입력으로 받아 해당 객체의 궤도 비디오를 생성하는 생성 모델로, Stable Video Diffusion에 기반함.

  • 두 번째 사용자는 SV3D가 실제 3D 모델을 출력할 수 있는지, 아니면 다른 각도에서 객체가 어떻게 보일지에 대한 이미지만 생성하는지 궁금해함.
  • 세 번째 사용자는 제시된 애니메이션이 대표적이라면, 생성된 메시가 3D 프린터에서 사용하기에 충분히 좋을 수도 있다고 생각하며 실험을 기대함.
  • 네 번째 사용자는 SV3D를 실행할 수 있는 하드웨어 또는 메모리 요구 사항에 대해 물음.
  • 다섯 번째 사용자는 입력에 하나 이상의 이미지가 필요한지, 시험해볼 수 있는 데모 URL이 있는지 궁금해하며, "단일 이미지 입력"이 여러 이미지를 의미하는지에 대해 질문함.
  • 여섯 번째 사용자는 모든 예시가 플라스틱 어린이 장난감처럼 보인다고 언급하며, 다른 객체(사람, 직물, 건물, 식물, 산, 기계 부품 등)를 어떻게 처리할지 궁금해함.
  • 일곱 번째 사용자는 데모 애니메이션이 매우 영리하고 만족스럽다고 평가함.
  • 여덟 번째 사용자는 이와 같은 기술을 건축 디자인에 사용할 수 있게 되기를 기대함.
  • 아홉 번째와 열 번째 댓글은 각각 "[dead]"와 "[flagged]"로 표시되어 있어 내용을 알 수 없음.