11P by xguru 2023-04-13 | favorite | 댓글 1개
  • Diffusion 모델은 이미지, 오디오, 비디오 생성에서 혁신을 가져왔음
    • 하지만 반복적인 생성 프로세스를 거쳐야 하므로 속도가 느려서 실시간에는 적용이 어려움
  • Consistency 모델은 Adversarial Training 없이 단 1~2단계만으로 훌륭한 품질의 생성이 가능
    • 이 모델도 여러번 샘플링하면 더 품질은 좋아짐
    • 제로샷 데이터 편집, 이미지 인페인팅, 컬러화, Super-Resolution 등도 특별한 훈련없이 지원
    • 사전 훈련된 Diffusion Model을 추출하는 방식 또는 독립적인 생성 모델로 훈련 가능

논문은 예전에 먼저 공개 되었습니다 : Consistency Models https://arxiv.org/abs/2303.01469

Diffusion 모델의 첫 논문에서는 1000단계를 거쳐서 생성했고, 현재는 발전을 거듭하면서 50단계 이하로 내려갔는데,
이걸 1~4 단계까지 줄인 Distilled StableDiffusion2 얘기도 작년 말에 나왔는데, 아직 논문은 공개 안되었습니다.
https://twitter.com/EMostaque/status/1598131202044866560