GN⁺: Trellis – 3D 메쉬 생성 모델
(trellis3d.github.io)새로운 3D 생성 방법 소개
-
Structured LATent (SLAT) 표현: 다양한 출력 형식으로 디코딩할 수 있는 통합된 구조적 잠재 표현을 소개함. 이는 강력한 비전 기반 모델에서 추출한 밀도 높은 다중 뷰 시각적 특징과 희소하게 채워진 3D 그리드를 통합하여 구조적(기하학적) 및 텍스처적(외관) 정보를 포괄적으로 캡처함.
-
Rectified Flow Transformers: SLAT에 맞춰 설계된 3D 생성 모델로, 50만 개의 다양한 객체로 구성된 대규모 3D 자산 데이터셋에서 최대 20억 개의 파라미터로 모델을 훈련함. 텍스트 또는 이미지 조건으로 고품질 결과를 생성하며, 기존 방법을 크게 능가함.
3D 자산 생성 및 편집
-
텍스트 및 이미지 기반 3D 자산 생성: TRELLIS는 텍스트 또는 이미지 프롬프트를 사용하여 다양한 3D 자산을 생성할 수 있음. 예시로는 구리 회전 전화기, 이층 벽돌집, 구체 로봇 등이 있음.
-
자산 변형 및 지역 편집: 주어진 3D 자산의 변형을 텍스트 프롬프트에 따라 생성할 수 있으며, 특정 지역을 조작하여 새로운 디자인을 만들 수 있음. 예를 들어, 전투 로봇의 팔을 제거하거나 무기를 추가하는 등의 작업이 가능함.
TRELLIS의 응용 및 방법론
-
3D 아트 디자인: TRELLIS가 생성한 고품질 3D 자산을 조합하여 복잡하고 생동감 있는 3D 아트 디자인을 쉽게 생성할 수 있음.
-
구조적 잠재 표현: SLAT는 희소 구조와 강력한 시각적 표현을 결합하여 객체 표면과 교차하는 활성 복셀에 지역 잠재를 정의함. 이러한 특징은 강력한 사전 학습된 비전 인코더에서 파생되어 상세한 기하학적 및 시각적 특성을 캡처함.
-
TRELLIS 모델: 텍스트 프롬프트나 이미지를 조건으로 하는 대규모 3D 생성 모델을 훈련함. 두 단계 파이프라인을 적용하여 SLAT의 희소 구조를 생성한 후 비어 있지 않은 셀에 대한 잠재 벡터를 생성함. 다양한 출력 형식으로 3D 자산을 쉽게 생성할 수 있음.
Hacker News 의견
-
AI 생성 콘텐츠를 보고 처음으로 속이 불편해짐을 느낌. 이러한 콘텐츠는 매우 훌륭하지만, 사람의 손으로 만든 작품이 사라지는 것 같아 슬픔을 느낌. 절차적으로 생성된 게임보다 사람의 생각에서 나온 세계를 원함.
- 콘텐츠가 아닌 예술 작품을 원함. 동료들이 자신의 비전과 가치를 담아 만든 작품을 원함.
-
NeRF 데모 이후로 모두가 생각해온 것 같음. 5년 전 자신의 댓글을 찾음. 다음 단계는 3D 이미지에 "노드"를 추가하여 애니메이션과 상호작용이 가능한 콘텐츠를 만드는 것임.
- 어린 시절 사진을 입력하여 추억을 재현하고, 사랑하는 사람의 음성 샘플을 추가하여 대화 가능하게 함. VR과 소음 차단 헤드폰으로 몰입감을 높일 수 있음.
-
완벽하지는 않지만, 지금까지 시도한 것 중 가장 나은 3D 모델 생성기임. Orca Slicer에 바로 넣을 수 있는 파일 형식을 원함.
-
위키피디아의 F-117 스텔스 폭격기 이미지를 시도했으나, 결과물이 완전히 실패함. 여러 각도의 이미지를 업로드할 수 있는 기능이 필요함.
-
"Text to 3D Asset" 기능의 데모가 있는지 궁금함.
-
며칠 전에 제출된 것을 보았지만, 매우 인상적인 데모임. 여기서 논의되기를 바람.
-
잠재력을 볼 수 있지만, 제공한 이미지가 훈련 범위를 벗어난 것 같아 이상한 평면만 생성됨.
-
레이어 확산을 사용하여 저폴리 에어쉽을 만듦. 게임 자산으로 사용할 수 있는 수준에 도달함.
-
케이블과 플러그 사진을 업로드하여 개별 와이어와 올바른 구멍이 있는 플러그 메쉬를 생성함.
-
닉스 눈송이 모델링은 매우 형편없었음. 자연 및 생물학적 구조와 텍스처에 더 많이 훈련된 것 같음.