▲GN⁺ 5달전 | parent | ★ favorite | on: Z-Image - 강력하고 효율적인 이미지 생성 모델(github.com/Tongyi-MAI)Hacker News 의견들 지난주 Z-Image Turbo를 테스트해봤음 RTX 4090에서 약 3초로 매우 빠르고, 1536x1024~2048x2048 해상도에서도 이미지 일관성 유지력이 놀라움 6B 파라미터 모델치고는 정확도가 인상적임 Qwen-Image 20b의 결과물을 후처리(refiner)할 때 특히 효과적임. Qwen은 프롬프트 이해는 뛰어나지만 이미지가 부드럽게 뭉개지는 경향이 있음 테스트 샘플 RTX 4090 기준 3초인데, M1 Ultra에서는 1스텝당 8초, 기본 9스텝이면 1분 이상 걸림 Apple Silicon이 비언어 모델 처리에서 얼마나 뒤처졌는지 실감함 fal.ai에서는 1초 미만으로 생성 가능함. LoRA를 결합하면 3초 내에 개인화된 이미지 생성 가능 seedream, nanobanana 등과 비교해도 상위 5위 안에 들 정도로 속도와 품질의 조합이 강력함 다만 테스트 중 4개 중 2개만 통과했으며, 예를 들어 kitkat 바는 형태나 로고가 전혀 다르고 DNA armor도 그냥 금속 재질로 표현됨 GitHub 링크에 오타(gitub)가 있어 악성 사이트로 연결되므로 주의 필요함 중국이 오픈웨이트 AI 생태계를 사실상 지탱하고 있음. 향후 소비자용 GPU 시장이 남는다면 그건 중국 덕분일 것 같음 6B 파라미터로 이런 결과가 나오는 건 놀라운 발전임 커뮤니티가 이 모델을 빠르게 받아들이며 Flux(2)는 거의 잊혀진 상태임 Z-Image는 검열되지 않은 모델이라 더 인기를 얻고 있음. 반면 Flux 2 제작사 BFL은 보도자료의 상당 부분을 “안전성”(즉, 검열) 강조에 할애했음 다만 그 “안전성”은 모델 자체보다 온라인 서비스 정책에 관한 것이었음. 실제로는 제한 없이 생성 가능함 “안전성” 언급은 사실상 투자자에게 “우린 당신을 곤란하게 하지 않음”이라는 메시지일 뿐임 “로보토마이징(lobotomizing)”이란 표현이 흥미로움. 이미지 생성 모델에 그걸 적용한다는 건 어떤 의미인지 궁금함 하지만 이 모델이 중국산이라면 시진핑 이미지를 생성하지 못할 수도 있음 최근 Pretrained 팟캐스트에서 이 모델을 다뤘음 텍스트 인코딩과 시맨틱 토큰에 기존 백본을 재활용해 효율적 구조를 가짐 다양한 길이의 합성 캡션 데이터로 학습되어 텍스트 이해력이 높음 이미지 내 OCR 텍스트를 학습에 포함시켜 텍스트 생성 품질이 향상됨. Nano Banana Pro가 비슷한 방식으로 발전했음 공식 데모 PDF를 보면 여성 단독 사진이 50장 가까이, 남성 단독 사진은 단 2장뿐임 개발자들이 상정한 타깃 시장이 명확함 실제로 civitai 같은 사이트를 보면 대부분의 사용자 생성 이미지와 LoRA가 그 시장을 반영함 이런 기술은 결국 젊은 남성층의 욕망이 주도하고 있음 r/stablediffusion 커뮤니티 반응을 보면 Flux 2는 사실상 사장된 듯함. 지식량은 훨씬 많지만 Z-Image가 더 인기임 흥미롭게도 남성 모델 중 한 명은 수정 없이 양조위(Tony Leung) 그대로임 모델이 비검열 상태라서 그 시장에 더 잘 맞을 듯함 직접 써본 결과는 실망스러웠음 겉보기엔 괜찮지만 실제로는 프롬프트 수행력이 떨어졌고, “most cultures” 같은 문구는 만화풍 이미지로 변함 Z-Image는 Stable Diffusion 1.5의 진정한 후속작으로 평가됨 품질, 확장성, 로컬 실행 가능성 모두 향상되었고 생태계가 빠르게 형성 중임 다만 SDXL을 잊은 건 아닌지 묻고 싶음. 불과 2년 반 전 출시였음 Framework Desktop에서 테스트했는데, ComfyUI가 40스텝쯤에서 amdgpu 커널 오류를 일으켜 직접 우회 코드를 작성함 LoRA로 괜찮은 결과를 얻었고, 8스텝(15~20초)만으로도 충분히 보기 좋은 이미지 생성 가능 llama.cpp 기반 프롬프트 강화 노드를 만들어 품질을 높였음 16GiB에 이 정도 세계 지식이 들어간다는 게 놀라움 아직 초기 단계이지만, 앞으로는 로컬 AI가 더 개인화되고 해킹 가능한 방향으로 발전할 것임 Nano Banana 같은 지능형 모델 중심의 미래가 올 것이라 생각함 모델에 직접 제어 계층을 주입할 수 있어야 진정한 활용이 가능함 언젠가 Nano Banana Pro 수준의 모델이 로컬에서도 돌아갈 것이라 기대함 하지만 이 모델도 중국 검열의 영향을 받음 “Tank Man”이나 “Lady Liberty Hong Kong”을 요청하면 “Maybe Not Safe”라는 문구만 출력됨 AI 초보자로서 24GB MacBook에서 실행 가능한지 궁금했음 실제로 M5 MacBook Pro에서는 한 장 생성에 399초가 걸렸고, 그동안 시스템이 멈춤 replicate.com에서는 1.5초에 한 장, 1000장당 1달러 수준이라 훨씬 효율적임 Mac에서 로컬 실행은 비효율적이라는 결론임 초보자라면 macOS용 ComfyUI가 가장 쉬움. Z-Image 워크플로를 불러오면 자동으로 모델을 설치하고 실행 가능함 Linux, Windows, Mac 모두에서 koboldcpp로 실행하는 방법도 있음. 설정 파일을 불러와 로컬 서버(http://localhost:5001/sdui)에서 바로 사용할 수 있음
Hacker News 의견들
지난주 Z-Image Turbo를 테스트해봤음
6B 파라미터로 이런 결과가 나오는 건 놀라운 발전임
최근 Pretrained 팟캐스트에서 이 모델을 다뤘음
공식 데모 PDF를 보면 여성 단독 사진이 50장 가까이, 남성 단독 사진은 단 2장뿐임
직접 써본 결과는 실망스러웠음
Z-Image는 Stable Diffusion 1.5의 진정한 후속작으로 평가됨
Framework Desktop에서 테스트했는데, ComfyUI가 40스텝쯤에서 amdgpu 커널 오류를 일으켜 직접 우회 코드를 작성함
16GiB에 이 정도 세계 지식이 들어간다는 게 놀라움
하지만 이 모델도 중국 검열의 영향을 받음
AI 초보자로서 24GB MacBook에서 실행 가능한지 궁금했음