GN⁺: Meta 3D Gen - 텍스트로 3D 애셋을 생성
(ai.meta.com)- 텍스트에서 3D 어셋을 생성하기 위한 새로운 최첨단의 빠른 파이프라인
- 3DGen은 프롬프트 충실도가 높고 품질이 우수한 3D 형상과 텍스처를 1분 이내에 생성할 수 있음
- 리얼월드 어플리케이션에서 3D 어셋의 재조명에 필요한 PBR(물리 기반 렌더링)을 지원함
- 이전에 생성된(또는 아티스트가 만든) 3D 형상의 재질감을 사용자가 추가로 제공한 텍스트 입력을 사용하여 생성적으로 변경할 수 있음
- 3DGen은 텍스트에서 3D와 텍스트에서 텍스처 생성을 위해 개발한 Meta 3D AssetGen과 Meta 3D TextureGen이라는 핵심 기술 구성 요소를 통합함
- 이 두 기술을 결합함으로써 3DGen은 3D 물체를 뷰 공간, 볼륨 공간, UV(또는 텍스처) 공간에서 동시에 3가지 방식으로 표현함
- 단일 단계 모델 대비 68%의 승률을 달성함
- 3DGen은 프롬프트 충실도와 복잡한 텍스트 프롬프트에 대한 시각적 품질 측면에서 산업계 벤치마크를 능가하면서도 훨씬 빠름
관련 논문
Meta 3D AssetGen: 고품질 지오메트리, 텍스처 및 PBR 재질이 있는 텍스트-메시 생성
- AssetGen은 질감과 재질 제어로 충실하고 고품질의 메쉬를 생성하는 텍스트에서 3D 생성의 중요한 발전임
- 3D 개체의 외관에 음영을 베이킹하는 작업에 비해 AssetGen은 실제 재조명을 지원하는 PBR 재질을 출력함
- AssetGen은 먼저 팩터링된 음영 및 알베도 외관 채널로 개체의 여러 뷰를 생성한 다음 효율적인 감독을 위해 지연된 음영 손실을 사용하여 3D에서 색상, 금속성 및 거칠기를 재구성함
- 또한 부호 거리 함수를 사용하여 3D 형상을 보다 안정적으로 표현하고 직접 형상 감독을 위한 해당 손실을 도입함
- 메쉬 추출 후 UV 공간에서 작동하는 텍스처 개선 변환기가 선명도와 세부 사항을 크게 향상시킴
- AssetGen은 소수의 뷰 재구성을 위해 최고의 동시 작업 대비 Chamfer 거리에서 17%, LPIPS에서 40%의 개선을 달성하며, PBR을 지원하는 비슷한 속도의 최고의 산업계 경쟁업체보다 72%의 사람 선호도를 달성함
Meta 3D TextureGen: 3D 객체를 위한 빠르고 일관된 텍스처 생성
- 텍스트 이미지 모델의 최근 가용성과 적응성으로 인해 텍스처 생성과 같은 많은 관련 분야에서 새로운 시대가 열림
- 최근의 텍스처 생성 방법은 텍스트 이미지 네트워크를 사용하여 인상적인 결과를 달성하지만, 전역 일관성, 품질 및 속도의 조합은 실제 응용 프로그램으로 텍스처 생성을 발전시키는 데 중요함
- 임의의 지오메트리에 대해 20초 미만으로 고품질의 전역적으로 일관된 텍스처를 생성하기 위한 두 개의 순차 네트워크로 구성된 새로운 전방 방법인 Meta 3D TextureGen을 소개함
- 3DGen은 2D 공간의 3D 의미론에 텍스트 이미지 모델을 조건화하고 이를 완전하고 고해상도의 UV 텍스처 맵으로 융합함으로써 품질과 속도 측면에서 최첨단 결과를 달성함
- 또한 임의의 비율로 텍스처를 확장하여 4k 픽셀 해상도 텍스처를 생성할 수 있는 텍스처 향상 네트워크를 도입함
GN+의 의견
- 3DGen은 3D 어셋 생성 분야에서 혁신적인 발전으로 보임. 텍스트 프롬프트에 기반한 고품질의 3D 모델을 빠르게 생성할 수 있는 기술은 게임, 영화, 디자인 등 다양한 분야에 활용될 수 있음
- 특히 PBR 재질 지원과 이미 만들어진 3D 모델의 텍스처를 변경할 수 있는 기능은 실제 활용도를 높일 것으로 기대됨
- 다만 텍스트 프롬프트의 의미를 정확히 파악하고 의도한 대로 3D 모델을 생성하는 것은 여전히 어려운 과제일 것임. 프롬프트 엔지니어링 기술의 발전도 함께 필요해 보임
- 3D 모델링 분야의 전문가들이 이 기술을 어떻게 활용할지, 창의성 발현에 어떤 영향을 미칠지 궁금함. 기존 3D 모델링 도구들과의 차별성, 장단점 비교도 필요해 보임
- Nvidia의 GET3D, Luma Lab의 Imagine 3D 등 유사한 기능을 제공하는 다른 솔루션들도 있음. 성능과 사용성 측면에서 어떤 장단점이 있을지 비교 분석이 필요함
- 3D 모델 생성 기술의 발전으로 누구나 쉽게 원하는 3D 모델을 만들 수 있게 되면서, 3D 모델의 저작권 문제, 악용 가능성 등 새로운 이슈들이 대두될 수 있음. 이에 대한 사회적 논의와 합의 도출이 필요해 보임
Hacker News 의견
-
한 사용자는 생성 AI의 주요 측면으로서 3D 모델링의 발전을 긍정적으로 보고 있으며, 특히 VR 자산 생성의 어려움을 언급함
- 실세계 아이템을 3D 프린팅할 수 있는 모델을 AI가 텍스트, 사진, LIDAR 등의 입력을 통해 만들 수 있는 가능성에 관심을 가짐
-
다른 사용자는 VR 콘텐츠 생성이 매우 노동 집약적이라며, 3D 모델 생성 도구가 메타버스의 주요 촉진제가 될 것이라고 기대함
-
또 다른 사용자는 최근의 텍스트/이미지에서 3D 모델로 변환하는 서비스들이 모두 쓸모없는 결과물을 생성했다고 평가함
-
한 사용자는 PBR 텍스처링 파이프라인을 사용하여 전체 시스템을 실행하는 것이 매우 인상적이라고 언급함
- SDFs(서명 거리 필드)의 사용이 나쁜 토폴로지를 초래할 수 있는지 궁금해함
- 게임 준비가 된 토폴로지를 구축하는 논문을 언급하며, 애니메이션을 위한 리깅이 가능할 것이라고 봄
-
다른 사용자는 토폴로지가 좋지 않다는 것을 와이어프레임의 부족으로 알 수 있다고 언급함
-
한 사용자는 디지털로 현실을 재현하는 또 다른 선구적인 단계라고 생각함
- 사람의 상태에 반응할 수 있다면, 안전한 환경에서 현실에서 다루기 어려운 시나리오를 학습할 수 있을 것이라고 봄
- 가상 세계에서 배운 교훈을 바탕으로 새로운 출생처럼 현실 세계로 나올 수 있을 것이라고 함
-
또 다른 사용자는 간단한 3D-to-3D 변환이 곧 가능해질 것이라고 기대함
- 이를 통해 오래된 게임의 메쉬와 텍스처를 업스케일하고 싶다고 함
-
한 사용자는 예술가의 입력이 있다면, 생성된 모델을 나중에 편집하거나 시작점으로 사용할 수 있을 것이라고 상상함
- 또는 PS1 필터를 적용하여 레트로 게임을 만들 수 있을 것이라고 언급함
-
Meta 3D Gen이 VR 응용 프로그램을 위한 3D 콘텐츠 생성에서 중요한 진전을 나타낸다고 평가함
- 텍스트 입력으로부터 상세한 3D 모델을 생성하는 능력이 콘텐츠 생성 과정을 크게 단축시킬 수 있을 것이라고 봄
- 그러나 현재 기술은 고품질의 상세한 기하학을 생성하는 데 여전히 도전 과제가 있다고 언급함
- PBR 텍스처링의 통합은 유망하지만, 실제 응용에서 모델이 얼마나 잘 다듬어지고 활용될 수 있는지가 관건이라고 봄
-
마지막으로, 한 사용자는 신경망을 사용한 스크린드 포아송 표면 재구성의 대체 기술을 보고 싶다고 함
- MeshAnything을 봤지만 그것이 최종 목표는 아니라고 언급함