안녕하세요. 지난번 Qwen3-TTS Triton 커널 최적화 프로젝트에 보내주신 관심에 힘입어, 두 번째 오픈소스 프로젝트를 만들어 공유합니다.

HuggingFace 월간 360만 이상 다운로드를 기록하고 있는 인기 이미지 생성 모델인 Z-Image S3-DiT (6.15B)의 추론을 20~30% 가속하는 ComfyUI 커스텀 노드입니다.

1. 왜 만들었는가? (배경 및 특징)
현재 Z-Image를 가속하는 도구로 Nunchaku(SVDQuant)가 존재하지만, 이는 Z-Image 'Turbo' 모델만 지원합니다. Base 모델을 위한 커널 레벨 가속 솔루션이 필요하다고 생각했습니다.

또한, 유저 입장에서 수십 GB에 달하는 양자화된 모델(GGUF 등)을 또 새로 다운로드하는 것은 큰 부담입니다. 그래서 기존에 사용하시던 BF16 safetensors 모델을 런타임에 즉시 양자화(On-the-fly Quantization) 하여 그대로 사용할 수 있게 만들었습니다.

  • ComfyUI Manager를 통해 클릭 한 번으로 설치하거나 pip install로 간단히 설치 가능합니다. (번거로운 커스텀 CUDA 빌드나 버전 매칭으로 인한 스트레스가 없습니다.)
  • 기존 워크플로우에 노드 1개만 얹으면 되며, LoRA 및 ControlNet과 완벽히 호환됩니다.

2. 성능 벤치마크 (RTX 5090, 30 steps 기준)

  • T2I Baseline: 18.9s → Triton + INT8: 15.3s (1.24x 속도 향상)
  • LoRA Baseline: 19.0s → LoRA + Triton + INT8: 14.6s (1.30x 속도 향상)
  • VRAM 절약: 총 23GB → 19.5GB (약 3.5GB 감소)

3. 눈으로 직접 확인하는 품질 보존 (체리피킹 X)
지난번 TTS 프로젝트 때는 결과물을 확인하기 위해 오디오를 직접 다운로드하고 들어보셔야 하는 번거로움이 있었지만, 이번에는 웹상에서 즉시 품질 비교가 가능합니다.

성능 비교를 위해 어떠한 체리피킹(Cherry-picking)도 하지 않았습니다. 커널 퓨전과 양자화 특성상 픽셀 단위의 미세한 변화는 존재하지만, 전체적인 구도와 디테일 품질은 훌륭하게 보존됩니다. 아래 링크에서 모든 시나리오의 원본 비교 이미지를 직접 확인해 보세요.

4. 엔지니어링 포인트
이번 커널 코드 역시 Claude Code의 도움을 적극적으로 받았으며, 대신 저는 철저한 벤치마킹과 품질 검증에 모든 에너지를 쏟았습니다.

  • 6개의 Triton 퓨전 커널(RMSNorm, SwiGLU, QK-Norm+RoPE, Norm+Gate+Residual, AdaLN, RoPE 3D) 적용
  • W8A8 + Hadamard Rotation(NeurIPS 2024 QuaRot / ConvRot 기반)을 통해 아웃라이어를 분산시켜 양자화 품질 최대한 유지

5. 이전 프로젝트 업데이트 예고
덧붙이자면, 이전에 공개했던 qwen3-tts-triton 프로젝트도 곧 ComfyUI 커스텀 노드로 가져올 예정입니다. (v0.2.0 업데이트: Triton+PyTorch 하이브리드를 통한 발음 뭉개짐 완화, TurboQuant 적용, Cohere 평가 도구 교체 등)

현재 제 개인 환경(RTX 5090)에서 테스트를 마쳤습니다. 30/40번대 GPU나 다른 환경에서 돌려보시고 깃허브 이슈나 댓글로 피드백을 주시면 정말 큰 도움이 될 것 같습니다. 감사합니다!