SnapFusion - 모바일 기기에서 2초만에 생성 가능한 Text-to-Image 디퓨전 모델

xguru · 2023-06-14T11:17:02+09:00

효율적인 네트웍 아키텍처와 단계별 distillation을 개선하여 달성 원본 모델의 중복성을 파악하고, 데이터 증류를 통해 이미지 디코더의 계산을 줄인 효율적인 UNet을 제시 MS-COCO로 실험결과, 8단계의 노이즈제거 단계만 가진 SnapFusion 모델이 50개 단계인 Stable Diffusion v.15 보다 더 나은 FID 및 CLIP 점수를 달성

(snap-research.github.io)

9P by xguru 2023-06-14 | ★ favorite | 댓글 1개

효율적인 네트웍 아키텍처와 단계별 distillation을 개선하여 달성
원본 모델의 중복성을 파악하고, 데이터 증류를 통해 이미지 디코더의 계산을 줄인 효율적인 UNet을 제시
MS-COCO로 실험결과, 8단계의 노이즈제거 단계만 가진 SnapFusion 모델이 50개 단계인 Stable Diffusion v.15 보다 더 나은 FID 및 CLIP 점수를 달성

xguru 2023-06-14 [-]

스냅챗이 공개한 논문인데 아직 코드가 공개 안되어서.. 정말로 가능한거냐? 라고 싸우는 댓글들이 있군요
https://news.ycombinator.com/item?id=36304716
일단 데모 영상은 비행기모드로 돌리고 있긴합니다

답변달기

SnapFusion - 모바일 기기에서 2초만에 생성 가능한 Text-to-Image 디퓨전 모델

함께 보면 좋은 글 β

댓글과 토론