Z-Image - 강력하고 효율적인 이미지 생성 모델

▲

GN⁺ 5달전 | parent | ★ favorite | on: Z-Image - 강력하고 효율적인 이미지 생성 모델(github.com/Tongyi-MAI)

Hacker News 의견들

지난주 Z-Image Turbo를 테스트해봤음
- RTX 4090에서 약 3초로 매우 빠르고, 1536x1024~2048x2048 해상도에서도 이미지 일관성 유지력이 놀라움
- 6B 파라미터 모델치고는 정확도가 인상적임
- Qwen-Image 20b의 결과물을 후처리(refiner)할 때 특히 효과적임. Qwen은 프롬프트 이해는 뛰어나지만 이미지가 부드럽게 뭉개지는 경향이 있음
- 테스트 샘플
- RTX 4090 기준 3초인데, M1 Ultra에서는 1스텝당 8초, 기본 9스텝이면 1분 이상 걸림
- Apple Silicon이 비언어 모델 처리에서 얼마나 뒤처졌는지 실감함
- fal.ai에서는 1초 미만으로 생성 가능함. LoRA를 결합하면 3초 내에 개인화된 이미지 생성 가능
- seedream, nanobanana 등과 비교해도 상위 5위 안에 들 정도로 속도와 품질의 조합이 강력함
- 다만 테스트 중 4개 중 2개만 통과했으며, 예를 들어 kitkat 바는 형태나 로고가 전혀 다르고 DNA armor도 그냥 금속 재질로 표현됨
- GitHub 링크에 오타(gitub)가 있어 악성 사이트로 연결되므로 주의 필요함
- 중국이 오픈웨이트 AI 생태계를 사실상 지탱하고 있음. 향후 소비자용 GPU 시장이 남는다면 그건 중국 덕분일 것 같음
6B 파라미터로 이런 결과가 나오는 건 놀라운 발전임
- 커뮤니티가 이 모델을 빠르게 받아들이며 Flux(2)는 거의 잊혀진 상태임
- Z-Image는 검열되지 않은 모델이라 더 인기를 얻고 있음. 반면 Flux 2 제작사 BFL은 보도자료의 상당 부분을 “안전성”(즉, 검열) 강조에 할애했음
- 다만 그 “안전성”은 모델 자체보다 온라인 서비스 정책에 관한 것이었음. 실제로는 제한 없이 생성 가능함
- “안전성” 언급은 사실상 투자자에게 “우린 당신을 곤란하게 하지 않음”이라는 메시지일 뿐임
- “로보토마이징(lobotomizing)”이란 표현이 흥미로움. 이미지 생성 모델에 그걸 적용한다는 건 어떤 의미인지 궁금함
- 하지만 이 모델이 중국산이라면 시진핑 이미지를 생성하지 못할 수도 있음
최근 Pretrained 팟캐스트에서 이 모델을 다뤘음
- 텍스트 인코딩과 시맨틱 토큰에 기존 백본을 재활용해 효율적 구조를 가짐
- 다양한 길이의 합성 캡션 데이터로 학습되어 텍스트 이해력이 높음
- 이미지 내 OCR 텍스트를 학습에 포함시켜 텍스트 생성 품질이 향상됨. Nano Banana Pro가 비슷한 방식으로 발전했음
공식 데모 PDF를 보면 여성 단독 사진이 50장 가까이, 남성 단독 사진은 단 2장뿐임
- 개발자들이 상정한 타깃 시장이 명확함
- 실제로 civitai 같은 사이트를 보면 대부분의 사용자 생성 이미지와 LoRA가 그 시장을 반영함
- 이런 기술은 결국 젊은 남성층의 욕망이 주도하고 있음
- r/stablediffusion 커뮤니티 반응을 보면 Flux 2는 사실상 사장된 듯함. 지식량은 훨씬 많지만 Z-Image가 더 인기임
- 흥미롭게도 남성 모델 중 한 명은 수정 없이 양조위(Tony Leung) 그대로임
- 모델이 비검열 상태라서 그 시장에 더 잘 맞을 듯함
직접 써본 결과는 실망스러웠음
- 겉보기엔 괜찮지만 실제로는 프롬프트 수행력이 떨어졌고, “most cultures” 같은 문구는 만화풍 이미지로 변함
Z-Image는 Stable Diffusion 1.5의 진정한 후속작으로 평가됨
- 품질, 확장성, 로컬 실행 가능성 모두 향상되었고 생태계가 빠르게 형성 중임
- 다만 SDXL을 잊은 건 아닌지 묻고 싶음. 불과 2년 반 전 출시였음
Framework Desktop에서 테스트했는데, ComfyUI가 40스텝쯤에서 amdgpu 커널 오류를 일으켜 직접 우회 코드를 작성함
- LoRA로 괜찮은 결과를 얻었고, 8스텝(15~20초)만으로도 충분히 보기 좋은 이미지 생성 가능
- llama.cpp 기반 프롬프트 강화 노드를 만들어 품질을 높였음
16GiB에 이 정도 세계 지식이 들어간다는 게 놀라움
- 아직 초기 단계이지만, 앞으로는 로컬 AI가 더 개인화되고 해킹 가능한 방향으로 발전할 것임
- Nano Banana 같은 지능형 모델 중심의 미래가 올 것이라 생각함
- 모델에 직접 제어 계층을 주입할 수 있어야 진정한 활용이 가능함
- 언젠가 Nano Banana Pro 수준의 모델이 로컬에서도 돌아갈 것이라 기대함
하지만 이 모델도 중국 검열의 영향을 받음
- “Tank Man”이나 “Lady Liberty Hong Kong”을 요청하면 “Maybe Not Safe”라는 문구만 출력됨
AI 초보자로서 24GB MacBook에서 실행 가능한지 궁금했음
- 실제로 M5 MacBook Pro에서는 한 장 생성에 399초가 걸렸고, 그동안 시스템이 멈춤
- replicate.com에서는 1.5초에 한 장, 1000장당 1달러 수준이라 훨씬 효율적임
- Mac에서 로컬 실행은 비효율적이라는 결론임
- 초보자라면 macOS용 ComfyUI가 가장 쉬움. Z-Image 워크플로를 불러오면 자동으로 모델을 설치하고 실행 가능함
- Linux, Windows, Mac 모두에서 koboldcpp로 실행하는 방법도 있음. 설정 파일을 불러와 로컬 서버(http://localhost:5001/sdui)에서 바로 사용할 수 있음