Qwen-Image-2.0: 전문가 수준의 인포그래픽,

▲

GN⁺ 3달전 | parent | ★ favorite | on: Qwen-Image-2.0: 전문가 수준의 인포그래픽, 정교한 포토리얼리즘(qwen.ai)

Hacker News 의견들

“말을 탄 남자(horse riding man) ” 예시가 너무 기괴하다는 의견이 많아서 배경을 설명하고 싶음
이 밈은 중국의 유명 진행자 차이캉융(蔡康永) 이 시상식에서 등에 말을 단 의상을 입은 사건에서 비롯됨
당시 그가 ‘마치런(马启仁)’이라는 이름의 남성과의 루머에 휩싸였는데, 이 이름이 중국어로 ‘말을 탄 사람(马骑人)’과 발음이 같았음
이 사건이 인터넷에서 퍼지며 밈이 되었고, 그래서 “horse riding man” 예시가 완전히 뜬금없는 건 아님
다만 이미지 자체는 여전히 불길하고 기묘한 분위기를 줌
사진 링크
- 흥미로운 배경임. 이런 프롬프트는 이미지 생성기의 잠재공간(latent space) 을 시험하는 역할도 함
  보통은 반대로 ‘사람이 말을 타는’ 쪽이 쉬운데, ‘말이 사람을 타는’ 건 더 어려운 임베딩임
  번역된 프롬프트를 보니 “말의 해가 백인 엔지니어를 정복한다”는 풍자적 뉘앙스도 있었음
  SD1.5가 이걸 어떻게 그릴지는 보고 싶지 않음
- 기사에 따르면 실제 이름은 马启仁이지 马骑人이 아님
  즉, 이름이 ‘말을 탄 사람’처럼 들리긴 하지만 직역은 아님
- 이미지 생성계에는 “말을 탄 우주비행사(astronaut riding a horse) ” 문제도 있음
  관련 글: Horse Rides Astronaut Redux
- 중국에서도 미국처럼 AI 이미지 생성에 대한 반감이 있는지 궁금함
  예를 들어 미국 기업들은 이런 이미지를 일정표나 홍보물에 쓰면 역풍을 걱정할 것 같음
  예시 이미지
- 또 다른 영향으로는 DALL‑E 2의 유명한 문제도 있음
  ‘우주비행사가 말을 타는’ 이미지는 잘 만들지만 ‘말이 우주비행사를 타는’ 이미지는 끝내 실패했음
  이 문제는 최신 모델에서도 지속되었고, Qwen Image 팀도 이 어려운 벤치마크를 의식했을 것임
  결국 ‘우주비행사=사람’이므로 이 테스트가 중국 밈과 연결됨
몇 가지 생각을 정리함
1️⃣ 이전 릴리스 패턴을 보면 3~4주 내 오픈웨이트 가능성이 높음
2️⃣ Z‑Image Turbo(6B), Flux.2 Klein(9B)처럼 저사양 GPU에서도 구동 가능한 모델을 목표로 하는 듯함
3️⃣ 이미지 생성과 편집을 통합한 단일 모델이라 Qwen‑Image와 Qwen‑Edit를 따로 둘 필요가 없음
4️⃣ 내 GenAI Showdown에서 Qwen‑Image는 로컬 모델 중 편집 성능 1위, 생성 성능도 상위권이었음
로컬 버전이 나오면 사이트에 추가할 예정임
- 기술에 익숙하지 않은 사람을 위해 설명하자면, 양자화(quantization) 를 잘 하면 LLM은 파라미터당 1바이트 정도로 돌릴 수 있음
  20B 모델이면 20GB RAM이면 충분하고, 이런 규모면 iGPU로도 가능함
  128GB 통합 RAM 구성도 2200달러 정도면 가능함
  GPU를 따로 사는 것보다 훨씬 저렴한 셋업임
- 기술적으로 보면, Qwen 2512는 19B 파라미터로 FP16에서 40GB였고, FP8로 3090에 맞았음
  자체 VAE를 썼는데 고주파 아티팩트 문제가 있었음
  새 Qwen 2는 7B 파라미터로 훨씬 가벼워졌고, Qwen 3 VL로 업그레이드됨
  이제 Image와 Edit를 합친 Omni 모델로 진화했음
  Z‑Image, Klein, Qwen 세 모델이 동시에 “SDXL2” 자리를 두고 경쟁 중임
  오픈웨이트가 공개되면 정말 흥미로울 것임
잠깐이지만 Midjourney가 이미지 생성의 정점처럼 느껴졌던 시기가 있었음
- 아직도 그렇지 않음? 내가 아는 많은 크리에이터들은 여전히 주관적 미감 때문에 Midjourney를 선호함
- Midjourney는 지금 어떻게 된 걸까 궁금함
- 이미지 생성의 상품화 속도가 너무 빠름
  3~4개월마다 SOTA가 바뀌고, 지난 분기의 혁신은 API 상품이 됨
  이제 병목은 모델이 아니라 프롬프트를 다루는 사람임
  코드 생성에서도 같은 패턴이 보임
“horse riding man” 프롬프트 내용이 정말 강렬함
황량한 초원, 먼지, 갈색 말이 남자를 짓누르는 장면 등 극도로 사실적인 묘사로 구성되어 있음
전체적으로 원초적 긴장감과 생물적 힘의 충돌을 표현한 이미지임
- 혼란스러운 사람들을 위한 참고자료로, 한나라 시대의 “말이 흉노를 짓밟는 조각상”이 있음
  관련 링크
최근 Linux에서 LMStudio로 로컬 모델을 써봤는데 정말 간단했음
다만 이미지 생성은 지원하지 않아서, Qwen 같은 diffusion 모델을 Linux에서 돌릴 때 어떤 툴을 쓰는지 궁금함
- 실제로 이 계열 모델을 쓰는 사람들은 대부분 ComfyUI를 사용함
  커뮤니티가 양자화, gguf 포맷 변환, 속도 최적화까지 다 해줌
- 변화가 너무 빨라서 나는 직접 Python HTTP 서버를 만들어 JSON 인터페이스로 각 구현체를 라우팅함
  주로 diffusers를 쓰는데, 속도는 느려도 새 아키텍처 지원이 빠름
- ComfyUI가 Stable Diffusion용으로 최고임
- 꼭 한 번 써보길 권함. 최근엔 템플릿 기능 덕분에 훨씬 친숙해졌음
- AMD 플랫폼이라면 Lemonade가 버전 9.2부터 이미지 생성을 지원함
  사이트 / 릴리스 노트
중국어 세로쓰기(Vertical Typography) 가 조금 어색했음
세로용 문장부호(예: ︒)를 써야 자연스러움
나는 매일 생성형 AI로 인포그래픽을 만들지만, 솔직히 99%는 형편없음
LinkedIn이 그런 이미지로 넘쳐남
- 그래도 LinkedIn이 원래부터 나빴으니 더 나빠진 건 아님
- 인포그래픽과 프레젠테이션은 아직 NanoBananaPro 전용 기능임
- 인포그래픽 품질은 결국 작성자의 역량에 달림
  좋은 인포그래픽을 만들거나 설명할 수 있는 사람이 거의 없음
- GitHub의 쓸모없는 ASCII 다이어그램처럼, 이런 시각화는 인지적 잡음에 불과함
  다른 예시는 Gas Town 스레드 참고
아쉽게도 이번엔 오픈웨이트 공개가 없는 듯함
- 그래도 불과 한 달 전쯤에도 오픈웨이트 이미지 모델을 냈으니, 이번에도 가능성은 있음
  마지막 공개는 2025년 12월쯤이었음
그들의 만화 패널 예시가 마음에 들어서 Qwen Chat에서 직접 시도해봤음
블로그와 동일한 프롬프트를 쓰면 잘 작동하지만, 입력을 조금만 바꾸면 패널 수가 틀어지거나 영어 대사가 중국어로 바뀜
즉, 아직은 일관성이 부족한 기능임
“승마 응용 이미지”가 흥미로웠음
- 하지만 “말이 사람을 덮치는 장면”을 데모로 쓴 건 좀 의외였음
  그래도 각자의 선택이겠음