# Z-Image - 강력하고 효율적인 이미지 생성 모델

> Clean Markdown view of GeekNews topic #24910. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=24910](https://news.hada.io/topic?id=24910)
- GeekNews Markdown: [https://news.hada.io/topic/24910.md](https://news.hada.io/topic/24910.md)
- Type: news
- Author: [neo](https://news.hada.io/@neo)
- Published: 2025-12-08T10:36:02+09:00
- Updated: 2025-12-08T10:36:02+09:00
- Original source: [github.com/Tongyi-MAI](https://github.com/Tongyi-MAI/Z-Image)
- Points: 23
- Comments: 3

## Summary

**Z-Image**는 알리바바가 공개한 **6B 파라미터 기반 오픈소스 이미지 생성 모델**로, 단일 스트림 확산 트랜스포머(S3-DiT) 구조를 통해 텍스트와 시각 정보를 하나의 시퀀스로 통합합니다. **Z-Image-Turbo**는 8단계 추론만으로 고품질 이미지를 생성하며 16GB VRAM에서도 동작하고, **Z-Image-Edit**는 자연어 지시를 통한 정밀한 이미지 편집을 지원합니다. Decoupled-DMD와 DMDR 알고리듬을 결합해 소수 단계에서도 높은 품질을 유지하며, 오픈소스 모델 중 최고 수준의 성능을 기록했습니다.  
  
요즘 AI 관련 계정들이 다들 나노바나나 급이라고 얘기하는 모델입니다. 나노바나나가 너무 좋긴 하지만 실제로 z-Image의 결과물도 꽤 훌륭합니다.

## Topic Body

- **나노 바나나 프로급의 성능**을 보이는 알리바바의 이미지 생성 모델로 아파치 2.0 라이선스 오픈소스   
- 단일 스트림 확산 트랜스포머(Single-Stream Diffusion Transformer)를 기반으로 한 6B 파라미터의 **효율적 이미지 생성 모델**  
- 세 가지 버전으로 구성되며, **Z-Image-Turbo**는 8단계 추론만으로 경쟁 모델 수준의 품질을 달성하고, **16GB VRAM** 환경에서도 동작  
- **Z-Image-Edit**는 자연어 지시를 기반으로 한 **이미지 편집 기능**을 제공하며, **Z-Image-Base**는 커뮤니티의 파인튜닝을 위한 기본 모델로 공개 예정  
- 모델은 **S3-DiT 아키텍처**를 채택해 텍스트·시각·VAE 토큰을 단일 시퀀스로 통합, **매개변수 효율성**을 극대화  
- **Decoupled-DMD**와 **DMDR** 알고리듬을 통해 소수 단계에서도 고품질 이미지를 생성하며, **오픈소스 모델 중 최고 수준 성능**을 기록  
  
---  
  
### Z-Image 개요  
- **Z-Image**는 효율성과 성능을 모두 갖춘 **기초 이미지 생성 모델**로, 단일 스트림 확산 트랜스포머 구조를 사용  
- 60억 매개변수를 기반으로 하며, **Z-Image-Turbo**, **Z-Image-Base**, **Z-Image-Edit** 세 가지 변형 모델 제공  
  - **Z-Image-Turbo**: 8회 함수 평가(NFE)만으로 고품질 이미지를 생성하며, **H800 GPU에서 1초 미만 추론 지연**  
  - **Z-Image-Base**: 비증류형 기본 모델로, 커뮤니티 기반의 **파인튜닝 및 커스텀 개발** 지원  
  - **Z-Image-Edit**: 이미지 편집용으로 특화된 버전으로, **자연어 기반 이미지 변환** 기능 제공  
  
### 주요 기능 및 성능  
- **Z-Image-Turbo**는 **사진 수준의 사실적 이미지**와 **영어·중국어 이중 언어 텍스트 렌더링**을 정확히 수행  
- **Prompt Enhancer** 기능을 통해 **추론 및 세계 지식 기반의 묘사 능력** 강화  
- **Z-Image-Edit**는 **창의적 이미지 변환**과 **정확한 지시어 이해**를 지원  
- **Alibaba AI Arena**의 Elo 기반 인간 선호 평가에서 **오픈소스 모델 중 최고 수준 성능** 기록  
  
### 모델 아키텍처 (S3-DiT)  
- **Scalable Single-Stream DiT(S3-DiT)** 구조를 채택  
  - 텍스트, 시각 의미 토큰, 이미지 VAE 토큰을 **하나의 시퀀스로 결합**  
  - 기존 **이중 스트림 구조 대비 매개변수 효율성 극대화**  
- 이 구조는 **텍스트-이미지 통합 표현 학습**을 가능하게 함  
  
### 핵심 알고리듬  
- ## Decoupled-DMD  
  - **Decoupled-DMD**는 Z-Image의 8단계 추론을 가능하게 하는 **핵심 증류 알고리듬**  
  - 기존 DMD(Distribution Matching Distillation)를 **CFG 증강(CA)** 과 **분포 정합(DM)** 두 메커니즘으로 분리  
    - **CA**는 증류 과정의 **주요 엔진 역할** 수행  
    - **DM**은 **출력 안정성과 품질 유지**를 위한 정규화 역할  
  - 두 메커니즘을 분리·최적화하여 **소수 단계에서도 고성능 이미지 생성** 달성  
- ## DMDR  
  - **DMDR(Distribution Matching Distillation with Reinforcement Learning)** 은 DMD와 **강화학습(RL)** 을 결합한 후처리 기법  
  - RL이 DMD의 성능을 **극대화**하고, DMD가 RL을 **정규화**하는 상호 보완 구조  
  - 이를 통해 **의미 정합성, 미적 품질, 구조적 일관성**을 향상시키며, **고주파 세부 표현력** 강화  
  
### 커뮤니티 및 생태계 지원  
- **Cache-DiT**: DBCache, Context Parallelism, Tensor Parallelism을 통한 **추론 가속화 지원**  
- **stable-diffusion.cpp**: C++ 기반 엔진으로, **4GB VRAM 환경에서도 Z-Image 실행 가능**  
- **LeMiCa**: 학습 없이 **타임스텝 수준 추론 가속화** 제공  
- **ComfyUI ZImageLatent**: 공식 해상도의 **간편한 latent 인터페이스** 제공  
  
### 요약  
- **Z-Image**는 효율적 구조(S3-DiT)와 혁신적 증류 기법(Decoupled-DMD, DMDR)을 결합한 **고성능 오픈소스 이미지 생성 모델**  
- **Z-Image-Turbo**는 빠른 추론과 높은 품질을 동시에 달성하며, **소비자급 GPU에서도 실행 가능**  
- **Z-Image-Edit**는 자연어 기반의 정밀한 이미지 편집을 지원  
- **Alibaba AI Arena**에서 오픈소스 모델 중 **최고 수준의 인간 선호 점수**를 기록  
- **Z-Image 생태계**는 다양한 커뮤니티 프로젝트와 통합되어, **범용적 생성 모델 플랫폼**으로 확장 중

## Comments



### Comment 47423

- Author: crawler
- Created: 2025-12-09T08:38:12+09:00
- Points: 1

로컬 그림이 정말 오랫동안 sdxl에서 머무르고 있었는데 좋은 베이스 모델이 나온 거 같아서 기대됩니다.  
무엇보다 Stable diffusion이 유명해지니까 검열이 심해져서 학습이 어려울 정도였는데, 검열도 없는 점이 정말 대단하네요

### Comment 47410

- Author: wedding
- Created: 2025-12-08T18:24:10+09:00
- Points: 1

궁금해서 돌려봤습니다. 검열이 없으니 날카로운 칼이 되겠더라구요...

### Comment 47376

- Author: neo
- Created: 2025-12-08T10:37:01+09:00
- Points: 1

###### [Hacker News 의견들](https://news.ycombinator.com/item?id=46095817)   
- 지난주 **Z-Image Turbo**를 테스트해봤음  
  - RTX 4090에서 약 3초로 매우 빠르고, 1536x1024~2048x2048 해상도에서도 이미지 **일관성 유지력**이 놀라움  
  - 6B 파라미터 모델치고는 **정확도**가 인상적임  
  - Qwen-Image 20b의 결과물을 후처리(refiner)할 때 특히 효과적임. Qwen은 프롬프트 이해는 뛰어나지만 이미지가 부드럽게 뭉개지는 경향이 있음  
  - [테스트 샘플](https://imgpb.com/exMoQ)  
  - RTX 4090 기준 3초인데, M1 Ultra에서는 1스텝당 8초, 기본 9스텝이면 1분 이상 걸림  
  - Apple Silicon이 **비언어 모델** 처리에서 얼마나 뒤처졌는지 실감함  
  - fal.ai에서는 1초 미만으로 생성 가능함. LoRA를 결합하면 3초 내에 **개인화된 이미지** 생성 가능  
  - seedream, nanobanana 등과 비교해도 상위 5위 안에 들 정도로 **속도와 품질의 조합**이 강력함  
  - 다만 테스트 중 4개 중 2개만 통과했으며, 예를 들어 kitkat 바는 형태나 로고가 전혀 다르고 DNA armor도 그냥 금속 재질로 표현됨  
  - GitHub 링크에 오타(gitub)가 있어 악성 사이트로 연결되므로 주의 필요함  
  - 중국이 **오픈웨이트 AI 생태계**를 사실상 지탱하고 있음. 향후 소비자용 GPU 시장이 남는다면 그건 중국 덕분일 것 같음  
  
- 6B 파라미터로 이런 결과가 나오는 건 놀라운 발전임  
  - 커뮤니티가 이 모델을 빠르게 받아들이며 Flux(2)는 거의 잊혀진 상태임  
  - Z-Image는 **검열되지 않은 모델**이라 더 인기를 얻고 있음. 반면 Flux 2 제작사 BFL은 보도자료의 상당 부분을 “안전성”(즉, 검열) 강조에 할애했음  
  - 다만 그 “안전성”은 모델 자체보다 온라인 서비스 정책에 관한 것이었음. 실제로는 제한 없이 생성 가능함  
  - “안전성” 언급은 사실상 투자자에게 “우린 **당신을 곤란하게 하지 않음**”이라는 메시지일 뿐임  
  - “로보토마이징(lobotomizing)”이란 표현이 흥미로움. 이미지 생성 모델에 그걸 적용한다는 건 어떤 의미인지 궁금함  
  - 하지만 이 모델이 **중국산**이라면 시진핑 이미지를 생성하지 못할 수도 있음  
  
- 최근 Pretrained 팟캐스트에서 이 모델을 다뤘음  
  - 텍스트 인코딩과 시맨틱 토큰에 기존 백본을 재활용해 **효율적 구조**를 가짐  
  - 다양한 길이의 **합성 캡션 데이터**로 학습되어 텍스트 이해력이 높음  
  - 이미지 내 OCR 텍스트를 학습에 포함시켜 텍스트 생성 품질이 향상됨. Nano Banana Pro가 비슷한 방식으로 발전했음  
  
- 공식 데모 PDF를 보면 여성 단독 사진이 50장 가까이, 남성 단독 사진은 단 2장뿐임  
  - 개발자들이 상정한 **타깃 시장**이 명확함  
  - 실제로 civitai 같은 사이트를 보면 대부분의 사용자 생성 이미지와 LoRA가 그 시장을 반영함  
  - 이런 기술은 결국 **젊은 남성층의 욕망**이 주도하고 있음  
  - r/stablediffusion 커뮤니티 반응을 보면 Flux 2는 사실상 사장된 듯함. 지식량은 훨씬 많지만 Z-Image가 더 인기임  
  - 흥미롭게도 남성 모델 중 한 명은 수정 없이 **양조위(Tony Leung)** 그대로임  
  - 모델이 **비검열 상태**라서 그 시장에 더 잘 맞을 듯함  
  
- 직접 써본 결과는 실망스러웠음  
  - 겉보기엔 괜찮지만 실제로는 **프롬프트 수행력**이 떨어졌고, “most cultures” 같은 문구는 만화풍 이미지로 변함  
  
- Z-Image는 **Stable Diffusion 1.5의 진정한 후속작**으로 평가됨  
  - 품질, 확장성, 로컬 실행 가능성 모두 향상되었고 생태계가 빠르게 형성 중임  
  - 다만 SDXL을 잊은 건 아닌지 묻고 싶음. 불과 2년 반 전 출시였음  
  
- Framework Desktop에서 테스트했는데, ComfyUI가 40스텝쯤에서 **amdgpu 커널 오류**를 일으켜 직접 우회 코드를 작성함  
  - LoRA로 괜찮은 결과를 얻었고, 8스텝(15~20초)만으로도 충분히 보기 좋은 이미지 생성 가능  
  - llama.cpp 기반 **프롬프트 강화 노드**를 만들어 품질을 높였음  
  
- 16GiB에 이 정도 **세계 지식**이 들어간다는 게 놀라움  
  - 아직 초기 단계이지만, 앞으로는 로컬 AI가 더 **개인화되고 해킹 가능**한 방향으로 발전할 것임  
  - Nano Banana 같은 **지능형 모델 중심의 미래**가 올 것이라 생각함  
  - 모델에 직접 제어 계층을 주입할 수 있어야 진정한 활용이 가능함  
  - 언젠가 Nano Banana Pro 수준의 모델이 로컬에서도 돌아갈 것이라 기대함  
  
- 하지만 이 모델도 **중국 검열**의 영향을 받음  
  - “Tank Man”이나 “Lady Liberty Hong Kong”을 요청하면 “Maybe Not Safe”라는 문구만 출력됨  
  
- AI 초보자로서 24GB MacBook에서 실행 가능한지 궁금했음  
  - 실제로 M5 MacBook Pro에서는 한 장 생성에 399초가 걸렸고, 그동안 시스템이 멈춤  
  - replicate.com에서는 1.5초에 한 장, 1000장당 1달러 수준이라 훨씬 효율적임  
  - **Mac에서 로컬 실행은 비효율적**이라는 결론임  
  - 초보자라면 macOS용 ComfyUI가 가장 쉬움. Z-Image 워크플로를 불러오면 자동으로 모델을 설치하고 실행 가능함  
  - Linux, Windows, Mac 모두에서 **koboldcpp**로 실행하는 방법도 있음. 설정 파일을 불러와 로컬 서버(http://localhost:5001/sdui)에서 바로 사용할 수 있음
