GN⁺: 안정적인 캐스케이드
(github.com/Stability-AI)Stable Cascade 소개
- Stable Cascade는 Würstchen 아키텍처를 기반으로 하며, 다른 모델들(예: Stable Diffusion)과 비교하여 훨씬 작은 잠재 공간에서 작동하는 것이 특징임.
- 잠재 공간이 작을수록 추론 속도가 빨라지고 훈련 비용이 저렴해짐.
- Stable Cascade는 1024x1024 이미지를 24x24로 압축할 수 있는 42배의 압축률을 달성하여, 높은 압축률에도 불구하고 선명한 이미지 재구성이 가능함.
모델 개요
- Stable Cascade는 이미지 생성을 위한 3단계 모델(Stage A, B, C)로 구성되어 있음.
- Stage A와 B는 이미지 압축을 담당하며, Stage C는 텍스트 프롬프트를 기반으로 24x24 잠재 이미지를 생성함.
- Stage C는 10억 및 36억 파라미터 버전이 제공되며, Stage B는 7억 및 15억 파라미터 버전이 제공됨.
- Stage A는 2000만 파라미터를 가지며 크기가 작아 고정되어 있음.
시작하기
- Stable Cascade 모델을 실행하는 방법은 추론 섹션에 제공된 노트북을 통해 가능함.
- 텍스트-이미지, 이미지 변형, 이미지-이미지 변환 등 다양한 사용 사례를 위한 노트북이 제공됨.
- 모델은 diffusers 🤗 라이브러리에서도 접근 가능하며, 관련 문서와 사용법이 제공됨.
훈련
- Stable Cascade를 처음부터 훈련하거나, ControlNet 및 LoRA를 훈련하는 코드가 제공됨.
- 훈련 방법에 대한 자세한 설명은 훈련 폴더에서 확인할 수 있음.
비고
- 코드베이스는 초기 개발 단계에 있으며, 예상치 못한 오류나 최적화되지 않은 훈련 및 추론 코드가 있을 수 있음.
- 관심이 있다면 지속적인 업데이트를 제공할 예정이며, 기여를 희망하는 사람들의 아이디어, 피드백 또는 업데이트를 환영함.
GN⁺의 의견:
- Stable Cascade는 이미지 생성 분야에서 효율성을 중시하는 새로운 접근 방식을 제시함. 특히 더 작은 잠재 공간을 사용하여 빠른 추론 속도와 저렴한 훈련 비용을 실현하는 점이 주목할 만함.
- 다양한 파라미터 크기의 모델을 제공하여 사용자가 세부적인 요구 사항에 맞춰 최적의 모델을 선택할 수 있도록 하는 유연성이 장점임.
- 이 기술은 이미지 생성, 변형, 슈퍼 해상도 향상 등 다양한 응용 분야에서 사용될 수 있으며, 컴퓨터 비전 및 인공 지능 연구에 중요한 기여를 할 수 있음.