Stable Diffusion - DALL-E 와 비슷한 Text-To-Image 오픈소스
(github.com/CompVis)- Latent Diffusion 모델을 LAION-5B 데이터베이스의 512x512 이미지에 대해 학습
- 구글의 Imagen과 비슷하게 CLIP ViT-L/14 텍스트 인코더 사용
- 경량이어서 10GB 이상의 VRAM을 가진 GPU 1개로도 동작
- Stability AI 와 LAION 연구자들이 협업 및 후원
현대 미술 일러스트 같은 부분에서는 DALL-E 2나 MidJourney 보다 더 결과물이 좋다고 합니다.
개발자 Discord 에서 말하기로는 M1 맥에서도 실행된다고 하네요.
일단 하드웨어 제약이 적어서, 누구나 쉽게 쓸 수 있다는게 큰 강점이 될 듯.
물론 오픈소스긴 하지만, 아직은 학술용으로만 접근 가능합니다.
직접 DALL-E 같은 AI 이미지 생성기 운영하기
Imagen - 구글의 text-to-image diffusion model
LAION-400M - 4억개짜리 이미지-텍스트 쌍 데이터셋