SnapFusion - 모바일 기기에서 2초만에 생성 가능한 Text-to-Image 디퓨전 모델
(snap-research.github.io)- 효율적인 네트웍 아키텍처와 단계별 distillation을 개선하여 달성
- 원본 모델의 중복성을 파악하고, 데이터 증류를 통해 이미지 디코더의 계산을 줄인 효율적인 UNet을 제시
- MS-COCO로 실험결과, 8단계의 노이즈제거 단계만 가진 SnapFusion 모델이 50개 단계인 Stable Diffusion v.15 보다 더 나은 FID 및 CLIP 점수를 달성
스냅챗이 공개한 논문인데 아직 코드가 공개 안되어서.. 정말로 가능한거냐? 라고 싸우는 댓글들이 있군요
https://news.ycombinator.com/item?id=36304716
일단 데모 영상은 비행기모드로 돌리고 있긴합니다