안정적인 캐스케이드

(github.com/Stability-AI)

2P by GN⁺ 2024-02-14 | ★ favorite | 댓글과 토론

Stable Cascade 소개

Stable Cascade는 Würstchen 아키텍처를 기반으로 하며, 다른 모델들(예: Stable Diffusion)과 비교하여 훨씬 작은 잠재 공간에서 작동하는 것이 특징임.
잠재 공간이 작을수록 추론 속도가 빨라지고 훈련 비용이 저렴해짐.
Stable Cascade는 1024x1024 이미지를 24x24로 압축할 수 있는 42배의 압축률을 달성하여, 높은 압축률에도 불구하고 선명한 이미지 재구성이 가능함.

모델 개요

Stable Cascade는 이미지 생성을 위한 3단계 모델(Stage A, B, C)로 구성되어 있음.
Stage A와 B는 이미지 압축을 담당하며, Stage C는 텍스트 프롬프트를 기반으로 24x24 잠재 이미지를 생성함.
Stage C는 10억 및 36억 파라미터 버전이 제공되며, Stage B는 7억 및 15억 파라미터 버전이 제공됨.
Stage A는 2000만 파라미터를 가지며 크기가 작아 고정되어 있음.

시작하기

Stable Cascade 모델을 실행하는 방법은 추론 섹션에 제공된 노트북을 통해 가능함.
텍스트-이미지, 이미지 변형, 이미지-이미지 변환 등 다양한 사용 사례를 위한 노트북이 제공됨.
모델은 diffusers 🤗 라이브러리에서도 접근 가능하며, 관련 문서와 사용법이 제공됨.

훈련

Stable Cascade를 처음부터 훈련하거나, ControlNet 및 LoRA를 훈련하는 코드가 제공됨.
훈련 방법에 대한 자세한 설명은 훈련 폴더에서 확인할 수 있음.

비고

코드베이스는 초기 개발 단계에 있으며, 예상치 못한 오류나 최적화되지 않은 훈련 및 추론 코드가 있을 수 있음.
관심이 있다면 지속적인 업데이트를 제공할 예정이며, 기여를 희망하는 사람들의 아이디어, 피드백 또는 업데이트를 환영함.

GN⁺의 의견:

Stable Cascade는 이미지 생성 분야에서 효율성을 중시하는 새로운 접근 방식을 제시함. 특히 더 작은 잠재 공간을 사용하여 빠른 추론 속도와 저렴한 훈련 비용을 실현하는 점이 주목할 만함.
다양한 파라미터 크기의 모델을 제공하여 사용자가 세부적인 요구 사항에 맞춰 최적의 모델을 선택할 수 있도록 하는 유연성이 장점임.
이 기술은 이미지 생성, 변형, 슈퍼 해상도 향상 등 다양한 응용 분야에서 사용될 수 있으며, 컴퓨터 비전 및 인공 지능 연구에 중요한 기여를 할 수 있음.