DeepFloyd IF - 오픈소스 Text-to-Image 모델

xguru · 2023-04-30T10:03:02+09:00

Stability AI 의 새 이미지 모델 언어 이해도가 기존 모델에 비해 높고, 포토리얼리즘한 이미지를 생성 T5 Transformer 기반 Frozen 텍스트 인코더와 3단계 픽셀 디퓨전 모듈의 결합 64x64, 256x256, 1024x1024px Zero-shot FID 스코어 6.66 (COCO 데이터셋)

(github.com/deep-floyd)

14P by xguru 2023-04-30 | ★ favorite | 댓글과 토론

Stability AI 의 새 이미지 모델
언어 이해도가 기존 모델에 비해 높고, 포토리얼리즘한 이미지를 생성
T5 Transformer 기반 Frozen 텍스트 인코더와 3단계 픽셀 디퓨전 모듈의 결합
- 64x64, 256x256, 1024x1024px
Zero-shot FID 스코어 6.66 (COCO 데이터셋)

DeepFloyd IF - 오픈소스 Text-to-Image 모델

함께 보면 좋은 글 β

댓글과 토론