11P by xguru 2022-10-05 | favorite | 댓글과 토론
  • 기존 텍스트-이미지 합성은 수십억개의 이미지-텍스트 쌍으로 훈련된 디퓨전 모델에 의해 가능
  • 이 방식을 3D에 적용하려면 대규모의 라벨링된 3D 데이터셋과 노이즈 제거를 위한 아키텍처가 필요하지만 존재하지 않음
  • 그래서 사전에 훈련된 2D Text-to-Image 디퓨전 모델을 활용해서 Text-to-3D 합성을 수행
  • 텍스트를 통해서 만들어진 3D 모델은 모든 각도에서 볼수 있으며, 조명을 바꾸거나 다른 3D 환경에 합성 가능