GN⁺: MeshGPT: 디코더 전용 트랜스포머를 이용한 삼각형 메시 생성 기술
(nihalsid.github.io)MeshGPT: 삼각형 메시 생성을 위한 디코더 전용 트랜스포머
- MeshGPT는 학습된 기하학적 어휘로부터 토큰을 생성하는 트랜스포머 모델을 자동 회귀적으로 샘플링하여 삼각형 메시를 생성함.
- 이 토큰들은 삼각형 메시의 면으로 디코드될 수 있으며, 생성된 메시는 깨끗하고 일관성 있으며, 날카로운 모서리와 높은 충실도를 특징으로 함.
요약
- MeshGPT는 아티스트가 만든 메시의 특징인 컴팩트함을 반영하는 새로운 삼각형 메시 생성 방법으로, 신경망 필드에서 추출된 밀집 삼각형 메시와 대비됨.
- 강력한 대규모 언어 모델의 최근 발전에 영감을 받아, 삼각형의 시퀀스로 삼각형 메시를 자동 회귀적으로 생성하는 시퀀스 기반 접근법을 채택함.
- 먼저 그래프 컨볼루션을 사용하여 잠재적으로 양자화된 임베딩의 어휘를 학습하고, 이 임베딩들은 메시를 효과적으로 재구성할 수 있도록 디코더에 의해 시퀀스화되고 삼각형으로 디코드됨.
비디오 비교 및 기타 응용
- MeshGPT의 접근법은 날카로운 기하학적 세부 사항을 가진 컴팩트한 메시를 생성하며, 기존 방법들은 이러한 세부 사항을 놓치거나 과도하게 삼각형화된 메시를 생성하거나 너무 단순한 형태를 출력하는 경향이 있음.
- 부분적인 메시가 주어졌을 때, 이 방법은 여러 가능한 형태 완성을 추론할 수 있음.
- 이 방법은 장면에 대한 3D 자산을 생성하는 데 사용될 수 있으며, 여기서는 이 방법을 사용하여 생성된 자산으로 채워진 방을 보여줌.
방법 개요
- 삼각형 메시에 대한 어휘를 먼저 학습한 후, 이를 사용하여 메시의 자동 회귀 생성을 수행함.
- 다양한 형태의 컬렉션에서 기하학적 임베딩의 어휘를 학습하며, 이는 벡터 양자화가 있는 인코더-디코더 네트워크를 특징으로 함.
- 완전히 훈련된 후, 이 트랜스포머는 학습된 어휘에서 토큰의 시퀀스로 메시를 직접 샘플링할 수 있게 해줌.
GN⁺의 의견
MeshGPT는 기존의 메시 생성 방법들을 뛰어넘는 혁신적인 접근법을 제시함으로써, 형태 커버리지와 FID 점수에서 눈에 띄는 향상을 보여줌. 이 기술은 3D 모델링과 컴퓨터 그래픽스 분야에서 큰 발전을 의미하며, 특히 인간이 만든 메시의 효율적인 삼각화 패턴을 더욱 잘 모방하는 컴팩트하고 날카로운 모서리를 가진 메시를 직접 생성할 수 있는 능력 때문에 흥미롭다. 이러한 발전은 3D 콘텐츠 제작자들에게 새로운 도구를 제공하고, 더 나은 품질의 3D 자산을 더 빠르고 효율적으로 생성할 수 있는 가능성을 열어줌.
Hacker News 의견
-
혁명적인 아이디어의 모습을 보여주는 연구로, 페이퍼에 상세한 내용이 많이 포함되어 있음. 트랜스포머 모델이 확장 가능하다는 사실이 알려져 있으며, 이 아이디어는 많은 회사들이 일반적인 3D 자산 생성 파이프라인을 훈련하는 데 사용될 것으로 예상됨.
"우리는 먼저 그래프 컨볼루션을 사용하여 지역 메시 기하학과 토폴로지에 대한 정보를 포함하는 잠재적 양자화 임베딩의 어휘를 학습한다. 이 임베딩들은 시퀀스화되어 디코더에 의해 삼각형으로 디코드되며, 이를 통해 메시를 효과적으로 재구성할 수 있다."
-
기계 학습 엔지니어로서 Blender와 취미 게임 개발에 관심이 있는 사람에게 이 연구는 인상적이지만, 제한된 가구 예시에 대해서는 실용적인 방법으로 유용하지는 않음. 숙련된 모델러는 이러한 메시를 5분 이내에 만들 수 있으며, 여전히 생성을 위한 폴리곤이 필요함. 다음 단계는 LLM을 이용한 시드 생성 제어와 아키텍처의 자동회귀 부분에 이미지 모델을 추가하는 것일 것임. 그러면 진정으로 모바일 게임에 적합한 자산을 볼 수 있을 것임.
-
3D/영화 제작이라는 직업을 가진 사람으로서 현재 상황이 매우 흥미롭고 무섭게 느껴짐.
-
입력이 무엇인지 궁금함. "의자"와 같은 텍스트 쿼리를 메시로 변환하는 것인가? 수정: 메시 완성이 주요 입력-출력 방법으로 보임, 단순한 기능이 아님.
-
90년대 이후 큰 진전이 없었던 남아 있는 어려운 문제들이 트랜스포머를 통해 어떤 식으로든 해결될 것 같음. 살아있는 시대가 흥미로움.
-
다음 혁신은 VR 앞에서 이러한 모델과 같은 3D 장면을 생성하는 UX가 될 것임. 이는 우리가 훈련 데이터를 가진 어떤 환경에 대해서도 영구적이고 임의의 3D 환경을 _생성_할 수 있게 해줄 것임. 확산 모델은 텍스처 생성에 사용될 수 있음.
-
이것이 "단지" 메시 자동완성이라 하더라도 3D 아티스트에게 매우 유용함. 현재 캐릭터를 조각하는 방법과 애니메이션하는 방법 사이에는 괴리가 있음. 모델을 리토폴로지하는 데 시간이 많이 소요됨. 거친 메시를 가져와서 깨끗한 토폴로지를 제공하는 트랜스포머 기반 리토폴로지는 큰 시간 절약이 될 것임.
-
이 분야를 사랑함. 논문에는 멋진 웹사이트, 예시, 비디오가 포함되어 있음. 밀도 높은 추상, 서론, 결과의 논문 스타일보다 훨씬 상쾌함.
-
이 기술이 매우 좋아지고 있음! 여전히 이상한 가장자리가 있지만, 이제는 알고리즘적이거나 복잡한 문제보다는 '반복 세부사항'처럼 느껴짐. 모든 메시를 하나의 폴더에 넣고 네트워크를 훈련시킨 다음, 그 스타일로 다른 것을 요청할 수 있게 되면, 만들어진 것을 리토폴로지하거나 다른 창의적인 영향을 주지 않아도 될 것임. 물론, 완전히 그 지점에 도달할 때까지는 여전히 procgen이 더 나은 서비스를 제공하지만, 이 기술이 얼마나 빠르게 진행되고 있는지에 대해 매우 흥분됨! 내년 Unreal 쇼케이스에서 새로운 "Asset Generator" 기능에 대해 이야기할 수 있기를 바람.
-
이 기술은 정말 멋져 보임! 인디 게임 개발자에게 많은 자산을 생성하는 데 엄청난 도움이 될 것으로 보임.