14P by xguru 2022-11-24 | favorite | 댓글 1개
  • SD v1은 오픈소스 AI 모델의 판도를 바꿔놨음
  • SD v2는 새로운 텍스트 인코더인 OpenCLIP 으로 text-to-image 모델을 훈련하여 v1보다 이미지 품질을 대폭 향상
  • 512x512, 768x768 이미지 생성 가능
  • LAION-5B 데이터 셋의 aesthetic한 하위 집합을 이용하여 훈련 (또한 NSFW 필터로 성인 콘텐츠를 제외)
  • Upscaler Diffusion 모델을 내장해서 이미지 해상도를 4배 향상
    • 128x128 이미지를 512x512로 업스케일 가능하다는 것
    • 즉, SD v2는 이제 2048x2048 해상도 이상의 이미지 생성이 가능해짐
  • Depth-to-Image Diffusion 모델 : depth2img
    • 기존의 image-to-image 기능을 새로운 가능성으로 확장
    • 입력 이미지의 Depth를 유추한다음 텍스트와 깊이 정보 모두를 사용하여 새 이미지를 생성
    • 즉 이미지의 깊이에 따른 특정 부분만 다르게 생성이 가능
  • Inpainting Diffusion Model을 개선
  • SD v1과 마찬가지로 싱글 GPU환경에서도 실행 가능하도록 최적화

저희도 SD v1에 업스케일러 붙여서 제공해주고 있는데(512 x 512로 만들고 사용자가 원하면 가로 세로 4배씩 upscale), SD v1으로 큰 사이즈 만드는 것보다 저 조합이 더 빠르고 좋더라고요.