- 차세대 이미지 생성 모델로, 텍스트와 이미지 생성·편집을 통합한 단일 구조를 구현
- 1k 토큰 지시어를 지원해 PPT, 포스터, 만화 등 복잡한 인포그래픽을 직접 생성
- 2K 해상도 기반의 세밀한 사실적 묘사와 정확한 문자 렌더링을 동시에 실현
- 모델 경량화로 추론 속도를 높이고, 텍스트-이미지·이미지-이미지 벤치마크 모두에서 우수 성능을 기록
- 정밀함(准), 복잡성(多), 미학(美), 사실성(真), 정렬성(齐) 등 다섯 가지 핵심 특성으로 전문적 시각 콘텐츠 제작 효율을 극대화
Qwen-Image-2.0 개요
- Qwen-Image-2.0은 차세대 이미지 생성 기반 모델로, 텍스트 렌더링과 이미지 편집을 통합한 단일 구조를 채택
- 1k 토큰 지시어를 처리해 PPT, 포스터, 만화 등 전문 인포그래픽을 직접 생성
- 2K 해상도로 인물, 자연, 건축 등 세밀한 사실적 장면을 표현
- 텍스트 이해와 생성 통합으로 이미지 생성과 편집을 하나의 모드에서 수행
- 경량화된 모델 구조로 빠른 추론 속도 확보
- AI Arena 블라인드 테스트에서 텍스트-이미지 및 이미지-이미지 과제 모두에서 우수 성능을 기록
모델 발전 과정
- Qwen-Image 시리즈는 생성 트랙과 편집 트랙을 병행 발전시켜 왔음
- 2025년 8월 Qwen-Image는 텍스트 렌더링 정밀도를 강화
- 2025년 12월 Qwen-Image-2512는 디테일과 포토리얼리즘 향상
- 편집 트랙에서는 단일 이미지 편집(8월) → 다중 이미지 편집(9월) → 일관성 개선(12월)로 확장
- Qwen-Image-2.0은 두 트랙을 하나의 통합 모델로 결합, 생성과 편집 모두에서 탁월한 결과를 달성
정밀함(准)과 복잡성(多)
- 모델은 복잡한 ‘그림 속 그림’ 구성을 정확히 구현해 PPT 제작 효율을 높임
- 예시로, 동일 인물의 두 이미지를 상하 배치한 복합 장면을 시각적 일관성 유지하며 생성
-
1k 토큰 지시어를 통해 다단 구조의 인포그래픽(예: A/B 테스트 보고서)을 완전하게 렌더링
- 표, 그래프, 수치, 주석 등 복합 요소를 포함한 전문 보고서 수준의 시각 자료 생성 가능
- LLM의 세계 지식을 활용해 간단한 요청을 자동으로 상세 묘사 프롬프트로 확장 가능
- 예: “杭州 두일 여행 포스터” 요청을 세밀한 양식·배경·문자 구성으로 변환
미학(美)
- 텍스트와 이미지의 조형적 조화를 구현
- 시화일체 구도의 중국 전통 서화 스타일을 정확히 재현
- 다양한 서체(예: 瘦金体, 소자체)를 정밀하게 표현
- 예시로, 송대 시문을 포함한 수묵화나 왕희지의 「兰亭序」를 소자체로 거의 완벽히 재현
사실성(真)
-
광학적 반사, 재질, 원근감을 정밀하게 표현해 현실감 강화
- 예: 유리 화이트보드, 의류, 잡지 표지 등 서로 다른 재질 위의 텍스트를 정확히 렌더링
- 영화 포스터 수준의 조명·질감·재질 통합 표현을 구현
- 예: 「千灯问心」 포스터에서 금속, 비, 천 질감이 자연스럽게 융합
정렬성(齐)
-
캘린더, 만화, 인포그래픽 등 다중 텍스트 구조에서 정렬과 배치를 자동 조정
- 예: 2026년 2월 달력의 날짜·음력·주석을 정확히 격자 내 정렬
- 만화의 말풍선 텍스트를 중앙 정렬해 자연스러운 대화 흐름 구현
- OKR 인포그래픽에서 텍스트 블록과 화살표를 자동 정렬 및 색상 구분
포토리얼리즘 강화
-
23가지 이상의 녹색 계열을 구분해 여름 숲의 생태적 사실성을 표현
- 잎의 질감, 반사광, 습도, 공기 중 입자까지 세밀히 묘사
-
인체와 동물의 근육, 표정, 질감을 정밀하게 재현
- 예: 말이 사람을 밟는 장면에서 근육 긴장, 피부 질감, 먼지 입자까지 표현
이미지 편집 기능
-
생성과 편집을 통합한 Omni 모델로, 생성 측의 개선이 편집에도 직접 반영
- 기존 이미지 위에 시·문자 삽입 가능
- 두 이미지의 인물 합성, 자연스러운 조명·그림자 일치 유지
- 실사 사진과 카툰 캐릭터의 혼합 편집도 가능
- 예: 두 인물의 합성 사진, 도시 사진 위에 캐릭터 삽입 등에서 자연스러운 통합 결과 제공
블로그 헤더 이미지 “Qwen Street”
-
베이징 겨울 거리 풍경을 배경으로, 두 상점이 Qwen-Image-2.0의 핵심 기능을 상징
- 왼쪽 서예점 간판: “文字渲染”, 내부에 “专业幻灯片 中英文海报 高级信息图”
- 오른쪽 꽃집 간판: “真实质感”, 문 위 표식 “2k resolution”
- 중앙 눈사람이 들고 있는 칠판: “Qwen-Image-2.0 正式发布”
- 거리에는 “更小模型,更快速度” 문구가 적힌 배달 라이더 등장
결론
- Qwen-Image-2.0은 정밀함·복잡성·미학·사실성·정렬성을 모두 갖춘 통합 이미지 생성 모델
- 텍스트와 이미지의 경계를 허물며, 전문 인포그래픽·시각 콘텐츠 제작의 자동화 수준을 크게 향상
- 연구나 창작에 활용 시, Qwen-Image Technical Report (arXiv:2508.02324) 인용 권장
Hacker News 의견들
- “말을 탄 남자(horse riding man) ” 예시가 너무 기괴하다는 의견이 많아서 배경을 설명하고 싶음
이 밈은 중국의 유명 진행자 차이캉융(蔡康永) 이 시상식에서 등에 말을 단 의상을 입은 사건에서 비롯됨
당시 그가 ‘마치런(马启仁)’이라는 이름의 남성과의 루머에 휩싸였는데, 이 이름이 중국어로 ‘말을 탄 사람(马骑人)’과 발음이 같았음
이 사건이 인터넷에서 퍼지며 밈이 되었고, 그래서 “horse riding man” 예시가 완전히 뜬금없는 건 아님
다만 이미지 자체는 여전히 불길하고 기묘한 분위기를 줌
사진 링크- 흥미로운 배경임. 이런 프롬프트는 이미지 생성기의 잠재공간(latent space) 을 시험하는 역할도 함
보통은 반대로 ‘사람이 말을 타는’ 쪽이 쉬운데, ‘말이 사람을 타는’ 건 더 어려운 임베딩임
번역된 프롬프트를 보니 “말의 해가 백인 엔지니어를 정복한다”는 풍자적 뉘앙스도 있었음
SD1.5가 이걸 어떻게 그릴지는 보고 싶지 않음 - 기사에 따르면 실제 이름은 马启仁이지 马骑人이 아님
즉, 이름이 ‘말을 탄 사람’처럼 들리긴 하지만 직역은 아님 - 이미지 생성계에는 “말을 탄 우주비행사(astronaut riding a horse) ” 문제도 있음
관련 글: Horse Rides Astronaut Redux - 중국에서도 미국처럼 AI 이미지 생성에 대한 반감이 있는지 궁금함
예를 들어 미국 기업들은 이런 이미지를 일정표나 홍보물에 쓰면 역풍을 걱정할 것 같음
예시 이미지 - 또 다른 영향으로는 DALL‑E 2의 유명한 문제도 있음
‘우주비행사가 말을 타는’ 이미지는 잘 만들지만 ‘말이 우주비행사를 타는’ 이미지는 끝내 실패했음
이 문제는 최신 모델에서도 지속되었고, Qwen Image 팀도 이 어려운 벤치마크를 의식했을 것임
결국 ‘우주비행사=사람’이므로 이 테스트가 중국 밈과 연결됨
- 흥미로운 배경임. 이런 프롬프트는 이미지 생성기의 잠재공간(latent space) 을 시험하는 역할도 함
- 몇 가지 생각을 정리함
1️⃣ 이전 릴리스 패턴을 보면 3~4주 내 오픈웨이트 가능성이 높음
2️⃣ Z‑Image Turbo(6B), Flux.2 Klein(9B)처럼 저사양 GPU에서도 구동 가능한 모델을 목표로 하는 듯함
3️⃣ 이미지 생성과 편집을 통합한 단일 모델이라 Qwen‑Image와 Qwen‑Edit를 따로 둘 필요가 없음
4️⃣ 내 GenAI Showdown에서 Qwen‑Image는 로컬 모델 중 편집 성능 1위, 생성 성능도 상위권이었음
로컬 버전이 나오면 사이트에 추가할 예정임- 기술에 익숙하지 않은 사람을 위해 설명하자면, 양자화(quantization) 를 잘 하면 LLM은 파라미터당 1바이트 정도로 돌릴 수 있음
20B 모델이면 20GB RAM이면 충분하고, 이런 규모면 iGPU로도 가능함
128GB 통합 RAM 구성도 2200달러 정도면 가능함
GPU를 따로 사는 것보다 훨씬 저렴한 셋업임 - 기술적으로 보면, Qwen 2512는 19B 파라미터로 FP16에서 40GB였고, FP8로 3090에 맞았음
자체 VAE를 썼는데 고주파 아티팩트 문제가 있었음
새 Qwen 2는 7B 파라미터로 훨씬 가벼워졌고, Qwen 3 VL로 업그레이드됨
이제 Image와 Edit를 합친 Omni 모델로 진화했음
Z‑Image, Klein, Qwen 세 모델이 동시에 “SDXL2” 자리를 두고 경쟁 중임
오픈웨이트가 공개되면 정말 흥미로울 것임
- 기술에 익숙하지 않은 사람을 위해 설명하자면, 양자화(quantization) 를 잘 하면 LLM은 파라미터당 1바이트 정도로 돌릴 수 있음
- 잠깐이지만 Midjourney가 이미지 생성의 정점처럼 느껴졌던 시기가 있었음
- 아직도 그렇지 않음? 내가 아는 많은 크리에이터들은 여전히 주관적 미감 때문에 Midjourney를 선호함
- Midjourney는 지금 어떻게 된 걸까 궁금함
- 이미지 생성의 상품화 속도가 너무 빠름
3~4개월마다 SOTA가 바뀌고, 지난 분기의 혁신은 API 상품이 됨
이제 병목은 모델이 아니라 프롬프트를 다루는 사람임
코드 생성에서도 같은 패턴이 보임
- “horse riding man” 프롬프트 내용이 정말 강렬함
황량한 초원, 먼지, 갈색 말이 남자를 짓누르는 장면 등 극도로 사실적인 묘사로 구성되어 있음
전체적으로 원초적 긴장감과 생물적 힘의 충돌을 표현한 이미지임- 혼란스러운 사람들을 위한 참고자료로, 한나라 시대의 “말이 흉노를 짓밟는 조각상”이 있음
관련 링크
- 혼란스러운 사람들을 위한 참고자료로, 한나라 시대의 “말이 흉노를 짓밟는 조각상”이 있음
- 최근 Linux에서 LMStudio로 로컬 모델을 써봤는데 정말 간단했음
다만 이미지 생성은 지원하지 않아서, Qwen 같은 diffusion 모델을 Linux에서 돌릴 때 어떤 툴을 쓰는지 궁금함- 실제로 이 계열 모델을 쓰는 사람들은 대부분 ComfyUI를 사용함
커뮤니티가 양자화, gguf 포맷 변환, 속도 최적화까지 다 해줌 - 변화가 너무 빨라서 나는 직접 Python HTTP 서버를 만들어 JSON 인터페이스로 각 구현체를 라우팅함
주로diffusers를 쓰는데, 속도는 느려도 새 아키텍처 지원이 빠름 - ComfyUI가 Stable Diffusion용으로 최고임
- 꼭 한 번 써보길 권함. 최근엔 템플릿 기능 덕분에 훨씬 친숙해졌음
- AMD 플랫폼이라면 Lemonade가 버전 9.2부터 이미지 생성을 지원함
사이트 / 릴리스 노트
- 실제로 이 계열 모델을 쓰는 사람들은 대부분 ComfyUI를 사용함
- 중국어 세로쓰기(Vertical Typography) 가 조금 어색했음
세로용 문장부호(예: ︒)를 써야 자연스러움 - 나는 매일 생성형 AI로 인포그래픽을 만들지만, 솔직히 99%는 형편없음
LinkedIn이 그런 이미지로 넘쳐남- 그래도 LinkedIn이 원래부터 나빴으니 더 나빠진 건 아님
- 인포그래픽과 프레젠테이션은 아직 NanoBananaPro 전용 기능임
- 인포그래픽 품질은 결국 작성자의 역량에 달림
좋은 인포그래픽을 만들거나 설명할 수 있는 사람이 거의 없음 - GitHub의 쓸모없는 ASCII 다이어그램처럼, 이런 시각화는 인지적 잡음에 불과함
다른 예시는 Gas Town 스레드 참고
- 아쉽게도 이번엔 오픈웨이트 공개가 없는 듯함
- 그래도 불과 한 달 전쯤에도 오픈웨이트 이미지 모델을 냈으니, 이번에도 가능성은 있음
마지막 공개는 2025년 12월쯤이었음
- 그래도 불과 한 달 전쯤에도 오픈웨이트 이미지 모델을 냈으니, 이번에도 가능성은 있음
- 그들의 만화 패널 예시가 마음에 들어서 Qwen Chat에서 직접 시도해봤음
블로그와 동일한 프롬프트를 쓰면 잘 작동하지만, 입력을 조금만 바꾸면 패널 수가 틀어지거나 영어 대사가 중국어로 바뀜
즉, 아직은 일관성이 부족한 기능임 - “승마 응용 이미지”가 흥미로웠음
- 하지만 “말이 사람을 덮치는 장면”을 데모로 쓴 건 좀 의외였음
그래도 각자의 선택이겠음
- 하지만 “말이 사람을 덮치는 장면”을 데모로 쓴 건 좀 의외였음