16P by neo 2일전 | ★ favorite | 댓글 3개
  • 나노 바나나 프로급의 성능을 보이는 알리바바의 이미지 생성 모델로 아파치 2.0 라이선스 오픈소스
  • 단일 스트림 확산 트랜스포머(Single-Stream Diffusion Transformer)를 기반으로 한 6B 파라미터의 효율적 이미지 생성 모델
  • 세 가지 버전으로 구성되며, Z-Image-Turbo는 8단계 추론만으로 경쟁 모델 수준의 품질을 달성하고, 16GB VRAM 환경에서도 동작
  • Z-Image-Edit는 자연어 지시를 기반으로 한 이미지 편집 기능을 제공하며, Z-Image-Base는 커뮤니티의 파인튜닝을 위한 기본 모델로 공개 예정
  • 모델은 S3-DiT 아키텍처를 채택해 텍스트·시각·VAE 토큰을 단일 시퀀스로 통합, 매개변수 효율성을 극대화
  • Decoupled-DMDDMDR 알고리듬을 통해 소수 단계에서도 고품질 이미지를 생성하며, 오픈소스 모델 중 최고 수준 성능을 기록

Z-Image 개요

  • Z-Image는 효율성과 성능을 모두 갖춘 기초 이미지 생성 모델로, 단일 스트림 확산 트랜스포머 구조를 사용
  • 60억 매개변수를 기반으로 하며, Z-Image-Turbo, Z-Image-Base, Z-Image-Edit 세 가지 변형 모델 제공
    • Z-Image-Turbo: 8회 함수 평가(NFE)만으로 고품질 이미지를 생성하며, H800 GPU에서 1초 미만 추론 지연
    • Z-Image-Base: 비증류형 기본 모델로, 커뮤니티 기반의 파인튜닝 및 커스텀 개발 지원
    • Z-Image-Edit: 이미지 편집용으로 특화된 버전으로, 자연어 기반 이미지 변환 기능 제공

주요 기능 및 성능

  • Z-Image-Turbo사진 수준의 사실적 이미지영어·중국어 이중 언어 텍스트 렌더링을 정확히 수행
  • Prompt Enhancer 기능을 통해 추론 및 세계 지식 기반의 묘사 능력 강화
  • Z-Image-Edit창의적 이미지 변환정확한 지시어 이해를 지원
  • Alibaba AI Arena의 Elo 기반 인간 선호 평가에서 오픈소스 모델 중 최고 수준 성능 기록

모델 아키텍처 (S3-DiT)

  • Scalable Single-Stream DiT(S3-DiT) 구조를 채택
    • 텍스트, 시각 의미 토큰, 이미지 VAE 토큰을 하나의 시퀀스로 결합
    • 기존 이중 스트림 구조 대비 매개변수 효율성 극대화
  • 이 구조는 텍스트-이미지 통합 표현 학습을 가능하게 함

핵심 알고리듬

  • Decoupled-DMD

    • Decoupled-DMD는 Z-Image의 8단계 추론을 가능하게 하는 핵심 증류 알고리듬
    • 기존 DMD(Distribution Matching Distillation)를 CFG 증강(CA)분포 정합(DM) 두 메커니즘으로 분리
      • CA는 증류 과정의 주요 엔진 역할 수행
      • DM출력 안정성과 품질 유지를 위한 정규화 역할
    • 두 메커니즘을 분리·최적화하여 소수 단계에서도 고성능 이미지 생성 달성
  • DMDR

    • DMDR(Distribution Matching Distillation with Reinforcement Learning) 은 DMD와 강화학습(RL) 을 결합한 후처리 기법
    • RL이 DMD의 성능을 극대화하고, DMD가 RL을 정규화하는 상호 보완 구조
    • 이를 통해 의미 정합성, 미적 품질, 구조적 일관성을 향상시키며, 고주파 세부 표현력 강화

커뮤니티 및 생태계 지원

  • Cache-DiT: DBCache, Context Parallelism, Tensor Parallelism을 통한 추론 가속화 지원
  • stable-diffusion.cpp: C++ 기반 엔진으로, 4GB VRAM 환경에서도 Z-Image 실행 가능
  • LeMiCa: 학습 없이 타임스텝 수준 추론 가속화 제공
  • ComfyUI ZImageLatent: 공식 해상도의 간편한 latent 인터페이스 제공

요약

  • Z-Image는 효율적 구조(S3-DiT)와 혁신적 증류 기법(Decoupled-DMD, DMDR)을 결합한 고성능 오픈소스 이미지 생성 모델
  • Z-Image-Turbo는 빠른 추론과 높은 품질을 동시에 달성하며, 소비자급 GPU에서도 실행 가능
  • Z-Image-Edit는 자연어 기반의 정밀한 이미지 편집을 지원
  • Alibaba AI Arena에서 오픈소스 모델 중 최고 수준의 인간 선호 점수를 기록
  • Z-Image 생태계는 다양한 커뮤니티 프로젝트와 통합되어, 범용적 생성 모델 플랫폼으로 확장 중

로컬 그림이 정말 오랫동안 sdxl에서 머무르고 있었는데 좋은 베이스 모델이 나온 거 같아서 기대됩니다.
무엇보다 Stable diffusion이 유명해지니까 검열이 심해져서 학습이 어려울 정도였는데, 검열도 없는 점이 정말 대단하네요

궁금해서 돌려봤습니다. 검열이 없으니 날카로운 칼이 되겠더라구요...

Hacker News 의견들
  • 지난주 Z-Image Turbo를 테스트해봤음

    • RTX 4090에서 약 3초로 매우 빠르고, 1536x1024~2048x2048 해상도에서도 이미지 일관성 유지력이 놀라움
    • 6B 파라미터 모델치고는 정확도가 인상적임
    • Qwen-Image 20b의 결과물을 후처리(refiner)할 때 특히 효과적임. Qwen은 프롬프트 이해는 뛰어나지만 이미지가 부드럽게 뭉개지는 경향이 있음
    • 테스트 샘플
    • RTX 4090 기준 3초인데, M1 Ultra에서는 1스텝당 8초, 기본 9스텝이면 1분 이상 걸림
    • Apple Silicon이 비언어 모델 처리에서 얼마나 뒤처졌는지 실감함
    • fal.ai에서는 1초 미만으로 생성 가능함. LoRA를 결합하면 3초 내에 개인화된 이미지 생성 가능
    • seedream, nanobanana 등과 비교해도 상위 5위 안에 들 정도로 속도와 품질의 조합이 강력함
    • 다만 테스트 중 4개 중 2개만 통과했으며, 예를 들어 kitkat 바는 형태나 로고가 전혀 다르고 DNA armor도 그냥 금속 재질로 표현됨
    • GitHub 링크에 오타(gitub)가 있어 악성 사이트로 연결되므로 주의 필요함
    • 중국이 오픈웨이트 AI 생태계를 사실상 지탱하고 있음. 향후 소비자용 GPU 시장이 남는다면 그건 중국 덕분일 것 같음
  • 6B 파라미터로 이런 결과가 나오는 건 놀라운 발전임

    • 커뮤니티가 이 모델을 빠르게 받아들이며 Flux(2)는 거의 잊혀진 상태임
    • Z-Image는 검열되지 않은 모델이라 더 인기를 얻고 있음. 반면 Flux 2 제작사 BFL은 보도자료의 상당 부분을 “안전성”(즉, 검열) 강조에 할애했음
    • 다만 그 “안전성”은 모델 자체보다 온라인 서비스 정책에 관한 것이었음. 실제로는 제한 없이 생성 가능함
    • “안전성” 언급은 사실상 투자자에게 “우린 당신을 곤란하게 하지 않음”이라는 메시지일 뿐임
    • “로보토마이징(lobotomizing)”이란 표현이 흥미로움. 이미지 생성 모델에 그걸 적용한다는 건 어떤 의미인지 궁금함
    • 하지만 이 모델이 중국산이라면 시진핑 이미지를 생성하지 못할 수도 있음
  • 최근 Pretrained 팟캐스트에서 이 모델을 다뤘음

    • 텍스트 인코딩과 시맨틱 토큰에 기존 백본을 재활용해 효율적 구조를 가짐
    • 다양한 길이의 합성 캡션 데이터로 학습되어 텍스트 이해력이 높음
    • 이미지 내 OCR 텍스트를 학습에 포함시켜 텍스트 생성 품질이 향상됨. Nano Banana Pro가 비슷한 방식으로 발전했음
  • 공식 데모 PDF를 보면 여성 단독 사진이 50장 가까이, 남성 단독 사진은 단 2장뿐임

    • 개발자들이 상정한 타깃 시장이 명확함
    • 실제로 civitai 같은 사이트를 보면 대부분의 사용자 생성 이미지와 LoRA가 그 시장을 반영함
    • 이런 기술은 결국 젊은 남성층의 욕망이 주도하고 있음
    • r/stablediffusion 커뮤니티 반응을 보면 Flux 2는 사실상 사장된 듯함. 지식량은 훨씬 많지만 Z-Image가 더 인기임
    • 흥미롭게도 남성 모델 중 한 명은 수정 없이 양조위(Tony Leung) 그대로임
    • 모델이 비검열 상태라서 그 시장에 더 잘 맞을 듯함
  • 직접 써본 결과는 실망스러웠음

    • 겉보기엔 괜찮지만 실제로는 프롬프트 수행력이 떨어졌고, “most cultures” 같은 문구는 만화풍 이미지로 변함
  • Z-Image는 Stable Diffusion 1.5의 진정한 후속작으로 평가됨

    • 품질, 확장성, 로컬 실행 가능성 모두 향상되었고 생태계가 빠르게 형성 중임
    • 다만 SDXL을 잊은 건 아닌지 묻고 싶음. 불과 2년 반 전 출시였음
  • Framework Desktop에서 테스트했는데, ComfyUI가 40스텝쯤에서 amdgpu 커널 오류를 일으켜 직접 우회 코드를 작성함

    • LoRA로 괜찮은 결과를 얻었고, 8스텝(15~20초)만으로도 충분히 보기 좋은 이미지 생성 가능
    • llama.cpp 기반 프롬프트 강화 노드를 만들어 품질을 높였음
  • 16GiB에 이 정도 세계 지식이 들어간다는 게 놀라움

    • 아직 초기 단계이지만, 앞으로는 로컬 AI가 더 개인화되고 해킹 가능한 방향으로 발전할 것임
    • Nano Banana 같은 지능형 모델 중심의 미래가 올 것이라 생각함
    • 모델에 직접 제어 계층을 주입할 수 있어야 진정한 활용이 가능함
    • 언젠가 Nano Banana Pro 수준의 모델이 로컬에서도 돌아갈 것이라 기대함
  • 하지만 이 모델도 중국 검열의 영향을 받음

    • “Tank Man”이나 “Lady Liberty Hong Kong”을 요청하면 “Maybe Not Safe”라는 문구만 출력됨
  • AI 초보자로서 24GB MacBook에서 실행 가능한지 궁금했음

    • 실제로 M5 MacBook Pro에서는 한 장 생성에 399초가 걸렸고, 그동안 시스템이 멈춤
    • replicate.com에서는 1.5초에 한 장, 1000장당 1달러 수준이라 훨씬 효율적임
    • Mac에서 로컬 실행은 비효율적이라는 결론임
    • 초보자라면 macOS용 ComfyUI가 가장 쉬움. Z-Image 워크플로를 불러오면 자동으로 모델을 설치하고 실행 가능함
    • Linux, Windows, Mac 모두에서 koboldcpp로 실행하는 방법도 있음. 설정 파일을 불러와 로컬 서버(http://localhost:5001/sdui)에서 바로 사용할 수 있음