GN⁺: Hunyuan3D 2.0 – Tencent의 고해상도 3D Asset 생성 시스템
(github.com/Tencent)- Hunyuan3D 2.0은 고해상도 텍스처 3D 애셋 생성을 위한 대규모 3D 합성 시스템
- 두 가지 주요 구성 요소:
- Hunyuan3D-DiT: 대규모 형태 생성 모델로, 확장 가능한 흐름 기반 확산 변환기(fusion transformer)를 기반으로 구축되어 특정 조건 이미지에 정렬된 기하학을 생성함으로써 안정적인 기반을 제공함
- Hunyuan3D-Paint: 강력한 기하학 및 확산 사전 지식을 활용하여 생성된 메시(mesh)나 수작업 메시에 대해 고해상도 및 생생한 텍스처 맵을 생성함
- Hunyuan3D-Studio는 3D 자산의 재생성 과정을 쉽게 만드는 플랫폼으로, 전문가와 아마추어 모두가 효율적으로 메쉬를 조작하거나 애니메이션화할 수 있게 함
- Hunyuan3D 2.0은 기존의 오픈 소스 및 비공개 모델보다 우수한 성능을 보임: 기하학적 세부사항, 조건 정렬, 텍스처 품질 등
Hunyuan3D 2.0
아키텍처
- 두 단계 생성 파이프라인: 메쉬 생성 후 텍스처 맵 합성
- 형태와 텍스처 생성의 어려움을 분리하고, 생성된 메쉬나 수작업 메쉬에 텍스처링을 유연하게 제공
성능
- Hunyuan3D 2.0은 다른 오픈 소스 및 비공개 3D 생성 방법과 비교하여 우수한 성능을 보임
- CMMD, FID_CLIP, FID, CLIP-score에서 모든 기준을 초과함
사전 학습된 모델
- Hunyuan3D-DiT-v2-0: 2025-01-21, 2.6B 파라미터
- Hunyuan3D-Paint-v2-0: 2025-01-21, 1.3B 파라미터
- Hunyuan3D-Delight-v2-0: 2025-01-21, 1.3B 파라미터
API 사용법
- Hunyuan3D-DiT와 Hunyuan3D-Paint 모델을 사용하기 위한 diffusers 유사 API 설계
- Hunyuan3D-DiT를 통해 메쉬 생성 가능
- Hunyuan3D-Paint를 통해 텍스처 합성 가능
Gradio 앱
- Gradio 앱을 통해 개인 컴퓨터에서 호스팅 가능
📑 오픈 소스 계획
- 추론 코드, 모델 체크포인트, 기술 보고서, ComfyUI, TensorRT 버전 포함
Hacker News 의견
-
3D 메쉬 모델 관련 질문에서, 포토그래메트리에 적합한 모델이 있는지에 대한 논의가 있음. 고품질 사진과 일관된 조명, 단색 배경을 사용했지만, 일반적인 애플리케이션이 낮은 폴리곤이나 구멍이 많은 메쉬를 생성함.
-
생성 AI가 3D 인터랙티브 콘텐츠 제작의 한계 비용을 0으로 낮출 것이라는 의견이 있음. 이는 메타버스를 활성화할 수 있는 잠재력을 가짐.
-
Tencent Hunyuan 3D 2.0의 라이선스가 유럽 연합, 영국, 한국에서는 적용되지 않음.
-
메쉬가 마칭 큐브 알고리즘으로 생성된다는 다이어그램이 있지만, 실제로는 다른 방식으로 생성된 것 같다는 의견이 있음.
-
AI 모델을 집에서 실행할 수 있는지에 대한 질문이 있음. 예를 들어, 4090 그래픽 카드에서 실행 가능한지에 대한 논의가 있음.
-
"고급"이라는 단어가 포함된 것은 좋은 것이라는 의견이 있음.
-
사용자 생성 콘텐츠 시스템은 "펜이스 문제"라는 문제를 겪을 수 있음.
-
생성 모델은 신뢰하되 검증이 필요하다는 의견이 있음. 직접 시도해보는 것이 중요함.
-
Huggingface 페이지에 링크된 모델을 시도해보았으나, 과사용 오류로 인해 테스트하지 못했음. 결과물은 꽤 괜찮아 보임.
-
긴 프롬프트가 필요하며, 이는 의심을 불러일으킬 수 있음. 실제 사용이 얼마나 어려운지 알아보기 위해 간단한 프롬프트로 시도해보았음.
-
"기타" 프롬프트 결과는 약간 두꺼운 기타로 나타났으며, "몬스테라 잎" 프롬프트는 약간 이상한 형태로 나타남.
-
"슈퍼 마리오" 캐릭터 프롬프트 결과는 의심스러움. 루이지는 마리오와 다르게 나타나야 하지만, 그렇지 않음.
-
"피치" 프롬프트 결과는 웃음을 자아냄. 귀여운 얼굴을 가진 복숭아로 나타남.
-
"토드" 프롬프트 결과는 변형된 스쿼틀처럼 보임.
-
논문은 arXiv에서 확인 가능함. 생성 모델은 많은 데이터를 기반으로 학습되며, 데이터베이스와 같은 인터페이스가 필요할 수도 있음.
-
3D 프린팅 기능성 객체에 맞춘 모델을 상상해볼 수 있음.