14P by xguru 12달전 | favorite | 댓글과 토론
  • Stability AI 의 새 이미지 모델
  • 언어 이해도가 기존 모델에 비해 높고, 포토리얼리즘한 이미지를 생성
  • T5 Transformer 기반 Frozen 텍스트 인코더와 3단계 픽셀 디퓨전 모듈의 결합
    • 64x64, 256x256, 1024x1024px
  • Zero-shot FID 스코어 6.66 (COCO 데이터셋)