Stable Diffusion - DALL-E 와 비슷한 Text-To-Image 오픈소스

xguru · 2022-08-16T10:07:51+09:00

Latent Diffusion 모델을 LAION-5B 데이터베이스의 512x512 이미지에 대해 학습 구글의 Imagen과 비슷하게 CLIP ViT-L/14 텍스트 인코더 사용 경량이어서 10GB 이상의 VRAM을 가진 GPU 1개로도 동작 Stability AI 와 LAION 연구자들이 협업 및 후원

(github.com/CompVis)

11P by xguru 2022-08-16 | ★ favorite | 댓글 1개

Latent Diffusion 모델을 LAION-5B 데이터베이스의 512x512 이미지에 대해 학습
구글의 Imagen과 비슷하게 CLIP ViT-L/14 텍스트 인코더 사용
경량이어서 10GB 이상의 VRAM을 가진 GPU 1개로도 동작
Stability AI 와 LAION 연구자들이 협업 및 후원

xguru 2022-08-16 [-]

현대 미술 일러스트 같은 부분에서는 DALL-E 2나 MidJourney 보다 더 결과물이 좋다고 합니다.
개발자 Discord 에서 말하기로는 M1 맥에서도 실행된다고 하네요.
일단 하드웨어 제약이 적어서, 누구나 쉽게 쓸 수 있다는게 큰 강점이 될 듯.
물론 오픈소스긴 하지만, 아직은 학술용으로만 접근 가능합니다.

직접 DALL-E 같은 AI 이미지 생성기 운영하기
Imagen - 구글의 text-to-image diffusion model
LAION-400M - 4억개짜리 이미지-텍스트 쌍 데이터셋

답변달기

Stable Diffusion - DALL-E 와 비슷한 Text-To-Image 오픈소스

함께 보면 좋은 글 β

댓글과 토론