3P by neo 4달전 | favorite | 댓글 1개
  • 단일 이미지에서 단 0.5초 만에 고품질의 3D 자산을 생성
  • TripoSR을 기반으로 구축. 큰 아키텍처 개선과 향상된 기능을 특징으로 함
  • 게임 및 가상현실 개발자뿐만 아니라 소매, 건축, 디자인 및 기타 그래픽 집약적 직업의 전문가에게도 응용 가능
  • 모델은 Hugging Face에서 제공되며 Stability AI Community License에 따라 공개됨
  • Stability AI API 및 Stable Assistant 챗봇에서 쉽게 모델에 접근하고 3D 뷰어로 3D 창작물을 공유하고 증강현실에서 사용해볼 수 있음
  • 무료 평가판으로 시험 가능

작동 방식

  • 사용자는 객체의 단일 이미지를 업로드하는 것으로 시작함
  • Stable Fast 3D는 UV unwrapped mesh, 재질 매개 변수, 조명이 감소된 알베도 색상 등을 포함한 완전한 3D 자산을 신속하게 생성함
  • 선택적으로 쿼드 또는 삼각 재구성을 수행할 수 있으며, 이는 처리 시간에 100-200ms만 추가됨

사용 사례

  • 사전 제작 중 실험이 핵심인 빠른 추론 시간 활용
  • 게임용 정적 자산(배경 객체, 잡동사니, 가구)
  • 전자 상거래용 3D 모델
  • AR/VR을 위한 신속한 모델 생성

속도와 품질 만남

  • 경쟁사 대비 여러 핵심 영역에서 성능 우위
  • 7GB VRAM의 GPU에서 3D 자산 생성 당 0.5초의 빠른 속도
  • 고품질 UV 언랩 메시와 재질 매개변수
  • 텍스처에서 조명 얽힘 감소
  • 추가 재질 매개변수 및 노멀 맵 생성 가능

연구 및 개발

  • TripoSR 기반이지만 완전히 재학습된 모델과 중요한 아키텍처 변경 사항을 특징으로 함
  • 개선 사항에는 명시적 메시 생성과 빠른 텍스처 메시 생성을 위한 새로운 기술이 포함됨
  • 감소된 베이크된 조명 및 재질 매개 변수로 빠른 추론 속도를 달성하는 방법에 대해 기술 보고서에서 강조함

가용성

  • Stable Fast 3D 모델 코드는 Github와 Hugging Face에서 제공됨
  • Stability AI Community License에 따라 비상업적 사용과 연간 수익 최대 $1M까지의 상업적 사용 허용
  • API 및 Stable Assistant를 통해 모델 접근 가능

GN⁺의 의견

  • 이 3D 모델 생성 기술은 게임, 가상/증강현실, 디자인, 건축 등 다양한 분야에 활용될 수 있어 흥미로운 기술임. 특히 단일 이미지에서 고품질 3D 자산을 빠르게 생성하는 것은 생산성 향상에 도움이 될 것임.
  • 다만 이런 AI 기반 모델이 활성화되면서 그래픽 디자이너나 모델러 등 전문 인력의 일자리에 영향을 미칠 수 있음. 수작업으로 제작했던 3D 에셋들이 자동화될 수 있기 때문임. AI가 사람을 완전히 대체하기는 어렵겠지만 일정 부분 역할 축소는 불가피해 보임.
  • 또한 생성된 3D 모델의 저작권 문제도 고려해야 함. 학습에 사용된 이미지에 대한 적절한 보상이나 크레딧이 주어져야 할 것임. AI 생성물에 대한 법적 규제와 가이드라인 마련이 필요해 보임.
  • 유사한 기술로는 Nvidia Instant Nerf 와 Epic Games의 RealityScan 등이 있음. 이들은 사진이나 스캔을 통해 3D 모델을 생성하는 기능을 제공하고 있음. 게임 엔진과의 높은 호환성이 장점. 다만 Stable Fast 3D처럼 단일 이미지에서 고품질 결과를 내는 속도는 아직 부족한 듯함.
  • 요컨대 Stable Fast 3D는 빠른 속도와 품질을 앞세워 게임, XR 등 3D 그래픽 분야의 생산성 향상에 기여할 것으로 보임. 다만 윤리적, 법적 이슈에 대한 사회적 합의를 모색해 나가는 과정이 필요할 것임.
Hacker News 의견
  • LLMs에 대한 많은 기대에도 불구하고, 이미지 생성 및 그래픽 자산이 현재 AI의 장기적인 승자가 될 가능성이 높음

    • "환각"은 버그가 아닌 기능임
    • 복잡한 통계 테스트 없이 비현실적이고 편향된 출력을 쉽게 볼 수 있음
    • 인간의 직관이 평가에 유용하며, 텍스트 생성 모델과 달리 과대평가되지 않음
    • 손실이 있거나 노이즈가 있는 방법도 다양한 창의적 작업에 유용할 수 있음
    • 완벽함이 필요하지 않으며, 왜곡된 특징을 쉽게 보고 개선할 수 있음
    • 일관성이 필요하지 않지만, 일관성이 생기면 비디오와 같은 응용 프로그램에 큰 가치를 제공할 수 있음
    • LoRA와 같은 기술은 비숙련 사용자도 쉽게 특정 캐릭터, 스타일 또는 개념 모델을 훈련할 수 있게 함
    • 이미지/비주얼 생성 모델이 지난 1년 동안 크게 개선되었으며, 텍스트 모델보다 개선 속도가 느려지지 않았음
    • 미래는 사진작가, 영화감독 등의 전면적인 대체가 아닌, AI 기반의 강력한 도구 세대가 될 것임
    • 몇 가지 텍스트 프롬프트로 이미지에 개념을 추가하거나 제거할 수 있는 도구가 매우 유용함
    • 90년대의 Photoshop처럼 새로운 강력한 사용자 세대가 등장하고 있음
  • 세 번째로 테스트한 이미지에서 3D AI는 모두 3D 모델의 2D 렌더링처럼 보였음

    • 셀 셰이딩 이미지로 테스트했으며, 모델 출력은 매우 평면적이고 토폴로지가 나빴음
    • 정확한 그림자가 없으면 정상 벡터를 재계산할 수 없어 구조를 이해하지 못하는 것 같음
    • 적절한 결과를 제공할 것으로 예상되는 입력 세트를 명시하면 좋을 것 같음
  • 아직 완벽하지 않지만 꽤 멋짐

    • 주 자산이 아닌, 주 장면에 복잡성을 더하는 저노력 장식으로 사용할 수 있음
    • 2D 빌보드 임포스터가 아닌 상황에서 사용할 수 있음
    • Midjourney, Bing, Dalle3로 이미지를 생성하고 드래그 앤 드롭하여 놀랍도록 좋은 3D 프레젠테이션을 얻을 수 있음
    • 카메라가 뒷면을 보지 않는 3D 장면의 장식으로 사용할 수 있음
  • 이 기술이 개선되기를 기다릴 수 없음

    • 테스트 결과 유용하지 않음
    • 이미지 출력에서 나쁜 모델을 수정하는 데 더 많은 작업이 필요함
    • 더 높은 품질의 최종 제품을 천천히 얻기 위해 일련의 단계를 거치는 것이 더 나을 것 같음
    • 사용 사례를 놓치고 있는 것일 수도 있음
  • 7GB VRAM으로 GPU에서 3D 자산을 생성하는 데 0.5초가 걸림

    • 데이터 센터 전용 모델일 것이라고 생각했지만, 7GB VRAM은 많은 3D 아티스트가 이미 소유한 하드웨어에서 실행할 수 있음을 시사함
  • 이 분야에서 정말로 성과를 내기를 기대하고 있음

    • HuggingFace 데모에서 이미지를 드래그하여 시도할 수 있음
    • 고양이 이미지에서는 잘 작동하지 않았지만, iPhone 이미지에서는 꽤 잘 작동했음
    • 팬케이크 이미지에서는 인상적이었고, 로켓 이미지에서는 형편없었음
    • 당구공 이미지에서는 다시 인상적이었음
  • 이 기술로 많은 재미있는 것을 3D 프린트할 계획임

  • 비교 대상의 이미지를 탈색하여 더 나아 보이게 하는 고전적인 인포머셜 전술을 사용한 것 같음

  • 프로젝트 페이지에서 모델과 상호작용할 수 있음

  • 미니어처 페인팅에 대한 열정을 자극함