Z-Image - 강력하고 효율적인 이미지 생성 모델
(github.com/Tongyi-MAI)- 나노 바나나 프로급의 성능을 보이는 알리바바의 이미지 생성 모델로 아파치 2.0 라이선스 오픈소스
- 단일 스트림 확산 트랜스포머(Single-Stream Diffusion Transformer)를 기반으로 한 6B 파라미터의 효율적 이미지 생성 모델
- 세 가지 버전으로 구성되며, Z-Image-Turbo는 8단계 추론만으로 경쟁 모델 수준의 품질을 달성하고, 16GB VRAM 환경에서도 동작
- Z-Image-Edit는 자연어 지시를 기반으로 한 이미지 편집 기능을 제공하며, Z-Image-Base는 커뮤니티의 파인튜닝을 위한 기본 모델로 공개 예정
- 모델은 S3-DiT 아키텍처를 채택해 텍스트·시각·VAE 토큰을 단일 시퀀스로 통합, 매개변수 효율성을 극대화
- Decoupled-DMD와 DMDR 알고리듬을 통해 소수 단계에서도 고품질 이미지를 생성하며, 오픈소스 모델 중 최고 수준 성능을 기록
Z-Image 개요
- Z-Image는 효율성과 성능을 모두 갖춘 기초 이미지 생성 모델로, 단일 스트림 확산 트랜스포머 구조를 사용
- 60억 매개변수를 기반으로 하며, Z-Image-Turbo, Z-Image-Base, Z-Image-Edit 세 가지 변형 모델 제공
- Z-Image-Turbo: 8회 함수 평가(NFE)만으로 고품질 이미지를 생성하며, H800 GPU에서 1초 미만 추론 지연
- Z-Image-Base: 비증류형 기본 모델로, 커뮤니티 기반의 파인튜닝 및 커스텀 개발 지원
- Z-Image-Edit: 이미지 편집용으로 특화된 버전으로, 자연어 기반 이미지 변환 기능 제공
주요 기능 및 성능
- Z-Image-Turbo는 사진 수준의 사실적 이미지와 영어·중국어 이중 언어 텍스트 렌더링을 정확히 수행
- Prompt Enhancer 기능을 통해 추론 및 세계 지식 기반의 묘사 능력 강화
- Z-Image-Edit는 창의적 이미지 변환과 정확한 지시어 이해를 지원
- Alibaba AI Arena의 Elo 기반 인간 선호 평가에서 오픈소스 모델 중 최고 수준 성능 기록
모델 아키텍처 (S3-DiT)
-
Scalable Single-Stream DiT(S3-DiT) 구조를 채택
- 텍스트, 시각 의미 토큰, 이미지 VAE 토큰을 하나의 시퀀스로 결합
- 기존 이중 스트림 구조 대비 매개변수 효율성 극대화
- 이 구조는 텍스트-이미지 통합 표현 학습을 가능하게 함
핵심 알고리듬
-
Decoupled-DMD
- Decoupled-DMD는 Z-Image의 8단계 추론을 가능하게 하는 핵심 증류 알고리듬
- 기존 DMD(Distribution Matching Distillation)를 CFG 증강(CA) 과 분포 정합(DM) 두 메커니즘으로 분리
- CA는 증류 과정의 주요 엔진 역할 수행
- DM은 출력 안정성과 품질 유지를 위한 정규화 역할
- 두 메커니즘을 분리·최적화하여 소수 단계에서도 고성능 이미지 생성 달성
-
DMDR
- DMDR(Distribution Matching Distillation with Reinforcement Learning) 은 DMD와 강화학습(RL) 을 결합한 후처리 기법
- RL이 DMD의 성능을 극대화하고, DMD가 RL을 정규화하는 상호 보완 구조
- 이를 통해 의미 정합성, 미적 품질, 구조적 일관성을 향상시키며, 고주파 세부 표현력 강화
커뮤니티 및 생태계 지원
- Cache-DiT: DBCache, Context Parallelism, Tensor Parallelism을 통한 추론 가속화 지원
- stable-diffusion.cpp: C++ 기반 엔진으로, 4GB VRAM 환경에서도 Z-Image 실행 가능
- LeMiCa: 학습 없이 타임스텝 수준 추론 가속화 제공
- ComfyUI ZImageLatent: 공식 해상도의 간편한 latent 인터페이스 제공
요약
- Z-Image는 효율적 구조(S3-DiT)와 혁신적 증류 기법(Decoupled-DMD, DMDR)을 결합한 고성능 오픈소스 이미지 생성 모델
- Z-Image-Turbo는 빠른 추론과 높은 품질을 동시에 달성하며, 소비자급 GPU에서도 실행 가능
- Z-Image-Edit는 자연어 기반의 정밀한 이미지 편집을 지원
- Alibaba AI Arena에서 오픈소스 모델 중 최고 수준의 인간 선호 점수를 기록
- Z-Image 생태계는 다양한 커뮤니티 프로젝트와 통합되어, 범용적 생성 모델 플랫폼으로 확장 중
로컬 그림이 정말 오랫동안 sdxl에서 머무르고 있었는데 좋은 베이스 모델이 나온 거 같아서 기대됩니다.
무엇보다 Stable diffusion이 유명해지니까 검열이 심해져서 학습이 어려울 정도였는데, 검열도 없는 점이 정말 대단하네요
Hacker News 의견들
-
지난주 Z-Image Turbo를 테스트해봤음
- RTX 4090에서 약 3초로 매우 빠르고, 1536x1024~2048x2048 해상도에서도 이미지 일관성 유지력이 놀라움
- 6B 파라미터 모델치고는 정확도가 인상적임
- Qwen-Image 20b의 결과물을 후처리(refiner)할 때 특히 효과적임. Qwen은 프롬프트 이해는 뛰어나지만 이미지가 부드럽게 뭉개지는 경향이 있음
- 테스트 샘플
- RTX 4090 기준 3초인데, M1 Ultra에서는 1스텝당 8초, 기본 9스텝이면 1분 이상 걸림
- Apple Silicon이 비언어 모델 처리에서 얼마나 뒤처졌는지 실감함
- fal.ai에서는 1초 미만으로 생성 가능함. LoRA를 결합하면 3초 내에 개인화된 이미지 생성 가능
- seedream, nanobanana 등과 비교해도 상위 5위 안에 들 정도로 속도와 품질의 조합이 강력함
- 다만 테스트 중 4개 중 2개만 통과했으며, 예를 들어 kitkat 바는 형태나 로고가 전혀 다르고 DNA armor도 그냥 금속 재질로 표현됨
- GitHub 링크에 오타(gitub)가 있어 악성 사이트로 연결되므로 주의 필요함
- 중국이 오픈웨이트 AI 생태계를 사실상 지탱하고 있음. 향후 소비자용 GPU 시장이 남는다면 그건 중국 덕분일 것 같음
-
6B 파라미터로 이런 결과가 나오는 건 놀라운 발전임
- 커뮤니티가 이 모델을 빠르게 받아들이며 Flux(2)는 거의 잊혀진 상태임
- Z-Image는 검열되지 않은 모델이라 더 인기를 얻고 있음. 반면 Flux 2 제작사 BFL은 보도자료의 상당 부분을 “안전성”(즉, 검열) 강조에 할애했음
- 다만 그 “안전성”은 모델 자체보다 온라인 서비스 정책에 관한 것이었음. 실제로는 제한 없이 생성 가능함
- “안전성” 언급은 사실상 투자자에게 “우린 당신을 곤란하게 하지 않음”이라는 메시지일 뿐임
- “로보토마이징(lobotomizing)”이란 표현이 흥미로움. 이미지 생성 모델에 그걸 적용한다는 건 어떤 의미인지 궁금함
- 하지만 이 모델이 중국산이라면 시진핑 이미지를 생성하지 못할 수도 있음
-
최근 Pretrained 팟캐스트에서 이 모델을 다뤘음
- 텍스트 인코딩과 시맨틱 토큰에 기존 백본을 재활용해 효율적 구조를 가짐
- 다양한 길이의 합성 캡션 데이터로 학습되어 텍스트 이해력이 높음
- 이미지 내 OCR 텍스트를 학습에 포함시켜 텍스트 생성 품질이 향상됨. Nano Banana Pro가 비슷한 방식으로 발전했음
-
공식 데모 PDF를 보면 여성 단독 사진이 50장 가까이, 남성 단독 사진은 단 2장뿐임
- 개발자들이 상정한 타깃 시장이 명확함
- 실제로 civitai 같은 사이트를 보면 대부분의 사용자 생성 이미지와 LoRA가 그 시장을 반영함
- 이런 기술은 결국 젊은 남성층의 욕망이 주도하고 있음
- r/stablediffusion 커뮤니티 반응을 보면 Flux 2는 사실상 사장된 듯함. 지식량은 훨씬 많지만 Z-Image가 더 인기임
- 흥미롭게도 남성 모델 중 한 명은 수정 없이 양조위(Tony Leung) 그대로임
- 모델이 비검열 상태라서 그 시장에 더 잘 맞을 듯함
-
직접 써본 결과는 실망스러웠음
- 겉보기엔 괜찮지만 실제로는 프롬프트 수행력이 떨어졌고, “most cultures” 같은 문구는 만화풍 이미지로 변함
-
Z-Image는 Stable Diffusion 1.5의 진정한 후속작으로 평가됨
- 품질, 확장성, 로컬 실행 가능성 모두 향상되었고 생태계가 빠르게 형성 중임
- 다만 SDXL을 잊은 건 아닌지 묻고 싶음. 불과 2년 반 전 출시였음
-
Framework Desktop에서 테스트했는데, ComfyUI가 40스텝쯤에서 amdgpu 커널 오류를 일으켜 직접 우회 코드를 작성함
- LoRA로 괜찮은 결과를 얻었고, 8스텝(15~20초)만으로도 충분히 보기 좋은 이미지 생성 가능
- llama.cpp 기반 프롬프트 강화 노드를 만들어 품질을 높였음
-
16GiB에 이 정도 세계 지식이 들어간다는 게 놀라움
- 아직 초기 단계이지만, 앞으로는 로컬 AI가 더 개인화되고 해킹 가능한 방향으로 발전할 것임
- Nano Banana 같은 지능형 모델 중심의 미래가 올 것이라 생각함
- 모델에 직접 제어 계층을 주입할 수 있어야 진정한 활용이 가능함
- 언젠가 Nano Banana Pro 수준의 모델이 로컬에서도 돌아갈 것이라 기대함
-
하지만 이 모델도 중국 검열의 영향을 받음
- “Tank Man”이나 “Lady Liberty Hong Kong”을 요청하면 “Maybe Not Safe”라는 문구만 출력됨
-
AI 초보자로서 24GB MacBook에서 실행 가능한지 궁금했음
- 실제로 M5 MacBook Pro에서는 한 장 생성에 399초가 걸렸고, 그동안 시스템이 멈춤
- replicate.com에서는 1.5초에 한 장, 1000장당 1달러 수준이라 훨씬 효율적임
- Mac에서 로컬 실행은 비효율적이라는 결론임
- 초보자라면 macOS용 ComfyUI가 가장 쉬움. Z-Image 워크플로를 불러오면 자동으로 모델을 설치하고 실행 가능함
- Linux, Windows, Mac 모두에서 koboldcpp로 실행하는 방법도 있음. 설정 파일을 불러와 로컬 서버(http://localhost:5001/sdui)에서 바로 사용할 수 있음