# Show GN: Z-Image 추론을 20~30% 가속하는 ComfyUI 커스텀 노드

> Clean Markdown view of GeekNews topic #28221. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=28221](https://news.hada.io/topic?id=28221)
- GeekNews Markdown: [https://news.hada.io/topic/28221.md](https://news.hada.io/topic/28221.md)
- Type: show
- Author: [newgrit1004](https://news.hada.io/@newgrit1004)
- Published: 2026-04-05T19:16:23+09:00
- Updated: 2026-04-05T19:16:23+09:00
- Original source: [github.com/newgrit1004](https://github.com/newgrit1004/ComfyUI-ZImage-Triton)
- Points: 6
- Comments: 0

## Topic Body

안녕하세요. 지난번 Qwen3-TTS Triton 커널 최적화 프로젝트에 보내주신 관심에 힘입어, 두 번째 오픈소스 프로젝트를 만들어 공유합니다.  
  
HuggingFace 월간 360만 이상 다운로드를 기록하고 있는 인기 이미지 생성 모델인 **Z-Image S3-DiT (6.15B)의 추론을 20~30% 가속하는 ComfyUI 커스텀 노드**입니다.  
  
**1. 왜 만들었는가? (배경 및 특징)**  
현재 Z-Image를 가속하는 도구로 Nunchaku(SVDQuant)가 존재하지만, 이는 Z-Image 'Turbo' 모델만 지원합니다. Base 모델을 위한 커널 레벨 가속 솔루션이 필요하다고 생각했습니다.  
  
또한, 유저 입장에서 수십 GB에 달하는 양자화된 모델(GGUF 등)을 또 새로 다운로드하는 것은 큰 부담입니다. 그래서 **기존에 사용하시던 BF16 safetensors 모델을 런타임에 즉시 양자화(On-the-fly Quantization)** 하여 그대로 사용할 수 있게 만들었습니다.  
  
* ComfyUI Manager를 통해 클릭 한 번으로 설치하거나 `pip install`로 간단히 설치 가능합니다. (번거로운 커스텀 CUDA 빌드나 버전 매칭으로 인한 스트레스가 없습니다.)  
* 기존 워크플로우에 노드 1개만 얹으면 되며, LoRA 및 ControlNet과 완벽히 호환됩니다.  
  
**2. 성능 벤치마크 (RTX 5090, 30 steps 기준)**  
* **T2I Baseline:** 18.9s → **Triton + INT8: 15.3s (1.24x 속도 향상)**  
* **LoRA Baseline:** 19.0s → **LoRA + Triton + INT8: 14.6s (1.30x 속도 향상)**  
* **VRAM 절약:** 총 23GB → 19.5GB (약 3.5GB 감소)  
  
**3. 눈으로 직접 확인하는 품질 보존 (체리피킹 X)**  
지난번 TTS 프로젝트 때는 결과물을 확인하기 위해 오디오를 직접 다운로드하고 들어보셔야 하는 번거로움이 있었지만, 이번에는 웹상에서 즉시 품질 비교가 가능합니다.   
  
성능 비교를 위해 어떠한 체리피킹(Cherry-picking)도 하지 않았습니다. 커널 퓨전과 양자화 특성상 픽셀 단위의 미세한 변화는 존재하지만, 전체적인 구도와 디테일 품질은 훌륭하게 보존됩니다. 아래 링크에서 모든 시나리오의 원본 비교 이미지를 직접 확인해 보세요.  
* **벤치마크 결과 보기:** https://github.com/newgrit1004/ComfyUI-ZImage-Triton/blob/main/benchmark/BENCHMARK.md  
  
**4. 엔지니어링 포인트**  
이번 커널 코드 역시 **Claude Code**의 도움을 적극적으로 받았으며, 대신 저는 철저한 벤치마킹과 품질 검증에 모든 에너지를 쏟았습니다.  
* 6개의 Triton 퓨전 커널(RMSNorm, SwiGLU, QK-Norm+RoPE, Norm+Gate+Residual, AdaLN, RoPE 3D) 적용  
* W8A8 + Hadamard Rotation(NeurIPS 2024 QuaRot / ConvRot 기반)을 통해 아웃라이어를 분산시켜 양자화 품질 최대한 유지  
  
**5. 이전 프로젝트 업데이트 예고**  
덧붙이자면, 이전에 공개했던 `qwen3-tts-triton` 프로젝트도 곧 ComfyUI 커스텀 노드로 가져올 예정입니다. (v0.2.0 업데이트: Triton+PyTorch 하이브리드를 통한 발음 뭉개짐 완화, TurboQuant 적용, Cohere 평가 도구 교체 등)  
  
현재 제 개인 환경(RTX 5090)에서 테스트를 마쳤습니다. 30/40번대 GPU나 다른 환경에서 돌려보시고 깃허브 이슈나 댓글로 피드백을 주시면 정말 큰 도움이 될 것 같습니다. 감사합니다!  
  
* GitHub: https://github.com/newgrit1004/ComfyUI-ZImage-Triton

## Comments



_No public comments on this page._
