Qwen-Image: 네이티브 텍스트 렌더링을 적용한 이미지 생성 모델

(qwenlm.github.io)

1P by GN⁺ 4달전 | ★ favorite | 댓글 1개

Qwen-Image는 네이티브 텍스트 렌더링과 정밀 이미지 편집에 강점을 가진 20B 파라미터 MMDiT 이미지 생성 모델임
알파벳 및 한자 등 다양한 언어의 복잡한 문자 표현에서 높은 정확도와 시각적 완성도를 달성함
다양한 공개 벤치마크(GenEval, DPG, OneIG-Bench 등) 에서 동급 최고 성능 달성, 텍스트 생성 능력도 뛰어남
실제 데모에서는 다언어, 포스터, PPT, 일러스트 등 복잡한 레이아웃과 다양한 스타일을 정확히 구현함
스타일 변환, 오브젝트 추가·삭제, 상세 묘사, 포즈 변경 등 편집 기능 지원 및 오픈 소스 생태계 확장 지향함

소개 및 주요 특징

Qwen-Image는 복잡한 텍스트 렌더링과 정밀 이미지 편집에 특화된 20B 파라미터 기반 MMDiT 이미지 생성 베이스 모델임
Qwen Chat에서 최신 모델을 체험 가능함

주요 기능

우수한 텍스트 렌더링: 다중 행 레이아웃, 문단 수준 의미 파악, 세밀한 표현 가능
- 영문 및 한자 등 알파벳 기반과 표의문자 계통 모두 고충실도 지원
일관성 있는 이미지 편집: 향상된 멀티태스크 훈련을 통해 의미적 정확성과 시각적 리얼리티 모두 보존
강력한 벤치마크 성능: 다양한 공개 벤치마크에서 생성 및 편집 태스크 모두 동급 최고 성능 달성
텍스트 생성·편집 영역에서 LongText-Bench, ChineseWord, TextCraft 등에서 우수한 성적 기록
창작·디자인·스토리텔링 등 크리에이티브 용도에 폭넓게 활용 가능

성능 및 벤치마크

Qwen-Image는 GenEval, DPG, OneIG-Bench(일반 이미지 생성), GEdit, ImgEdit, GSO(편집) 등 벤치마크에서 모두 최신 SOTA(최첨단) 성능 달성
특히 중국어 텍스트 생성 등에서 기존 최고 모델을 큰 차이로 능가
넓은 일반적 능력과 함께, 정확한 텍스트 렌더링을 결합해 리딩 이미지 생성 모델로 자리매김

데모 예시

중국어 텍스트 표현

예시 프롬프트를 기반으로, 미야자키 애니메이션 스타일과 동시에 실제 상호 “云存储”“云计算”“云模型” 및 특이한 한자(“千问”) 등을 정확하게 표현
인물 포즈나 표정, 장면 내 깊이감 등도 자연스럽게 구현

복잡한 한자 병렬 표현

고급스러운 대련, 휘호, 청화자 등의 디테일까지 섬세하게 표현
글씨체, 레이아웃, 그림(예: 岳阳楼)까지 실제와 유사하게 완벽 생성

영어 텍스트 & 멀티라인

책방 진열대, 안내문, 포스터 등 여러 위치의 텍스트 상세히 반영
“New Arrivals This Week”부터 서적 표지의 짧은 문장까지 실제 같은 폰트와 레이아웃 구현

복잡한 영어 인포그래픽

각 서브모듈별로 아이콘+타이틀+설명문 단락까지 분리해 정확하게 배치
“Habits for Emotional Wellbeing” 중심의 복잡한 인포그래픽도 자연스러운 아트웍과 균형 잡힌 구성으로 완성

소형/긴 텍스트

이미지 내 1/10 이하 소규모 영역까지 장문 손글씨 텍스트 상세 구현
다량의 문장도 손글씨, 레이아웃, 줄 바꿈까지 정밀하게 재현

다국어 혼합

영어와 중국어를 한 이미지 내 동시에 손글씨로 구현
프롬프트의 언어 전환에 따라 자연스럽게 텍스트 생성 가능

포스터 생성

영화 포스터, 하위 부제, 출연진·감독·런칭 정보 등 각각의 텍스트/비주얼 요소를 Sci-Fi, 그래픽디자인 등 다양한 스타일로 자유롭게 조합

한글 PPT 예시

최신 AI/기업 PPT 스타일(Alibaba 로고, 대제목, 부제, 예술작품 이미지 배치, 캘리그래피 폰트, 세부 설명 등)까지 통일감 있게 생성

일반 이미지 생성 및 편집

포토리얼·인상파·애니메·미니멀 등 다양한 아트스타일 지원, 풍부한 창작 활용성 제공
스타일 변환, 오브젝트 추가/삭제, 디테일 향상, 텍스트 편집, 인체 포즈 조정 등 다양한 실전 이미지 편집 명령 지원

결론

Qwen-Image는 이미지 생성의 지평 확대, 시각 콘텐츠 제작의 기술 장벽 낮춤, 창의적 활용 촉진 목적 지향
커뮤니티 협력, 개방성, 지속 가능한 생성형 AI 생태계 구축에 중점
실제 사용자 활용/피드백을 반영하여 기능 향상 및 오픈 생태계 확장 계획

▲

GN⁺ 4달전 [-]

Hacker News 의견

이게 그렇게 큰 이슈가 되지 않는 이유를 잘 모르겠음 —– 이건 gpt-image-1을 모든 면에서 제친 첫 오픈소스 모델일 뿐만 아니라, Flux Kontext보다 편집 능력까지 앞선 모델임. 이건 엄청난 일임
- 지난 한 시간 정도 이 모델을 가지고 놀아봤음. 전체적으로 정말 뛰어나지만, 내가 해본 초반 테스트 기준으로는 꽤 복잡한 프롬프트 준수에서는 확실히 gpt-image-1 (혹은 Imagen 3/4)보다는 부족한 성능을 보임. 대략 ~50% 정도의 성공률이었고, gpt-image-1은 ~75% 수준임. 미로, 슈뢰딩거 방정식 등은 처리하지 못했음. genai showdown 사이트에서 실험했음
- 이들의 페이지만 봐서는 확실하지 않지만, 편집 모델은 아직 정식으로 공개되지 않았음. 깃허브 이슈 코멘트 링크 참고
- 내 생각엔 gpt-image-1보다 확실히 더 많은 걸 할 수 있음. 스타일 변환, 오브젝트 추가/삭제, 텍스트 편집, 사람의 포즈 조작뿐만 아니라 오브젝트 감지, 의미론적 분할, 깊이/에지 추정, 초해상도, 그리고 새로운 시점 합성(NVS) 즉, 기본 이미지를 바탕으로 새로운 시점의 이미지를 만들어낼 수 있음. 정말 기능의 향연임. 초기 결과를 보면 gpt-image-1이 또렷함과 선명도에서 약간 우수해 보임. 솔직히 OpenAI가 후처리로 단순한 언샤프 마스크 같은 걸 적용하고 있는 게 아닌지 의심스러움. 초점이 흐려진 영역에도 이상하게 균일한 선명도를 보이기도 하고, 때때로 과도하다는 느낌도 들었음. 그래도, 전반적으로 이 모델도 거의 비슷한 수준으로 보임. 사실 OpenAI만의 독특한 이미지 생성 기술이 올해는 우위를 유지할 줄 알았는데, 이 정도라니 놀라움. 참고로 Flux Krea는 공개 이후 4일밖에 안 지났음! 만약 이 모델이 gpt-image-1과 진짜 비슷한 품질이라면 놀라운 변화임
- 내가 알기로 이게 40GB VRAM이 필요하다는 점이 대중의 열기를 조금 식히는 것 같음. 참고로, LLM 모델들은 여러 GPU에 분산 배포하는 기술이 꽤 성숙하지만, 이미지 모델들은 GGUF 포맷을 쓰는데도 아직 이쪽 발전이 느린 이유를 모르겠음. 이미지 모델이 더 커질수록 분산 실행을 더 많이 구현하게 되지 않을까 하는 생각임
- 몇 시간밖에 안 지난 상황이고, 데모도 계속 오류가 나서 사람들이 충분히 만져보려면 시간이 좀 더 필요하다고 생각함. 퀀타이즈된 GGUF와 다양한 컴피(Comfy) 워크플로우의 등장도 매우 중요한 요소가 될 것으로 봄. 왜냐하면 대부분의 유저들이 로컬에서 돌리고 싶어할 것이기 때문임. 근데 크기는 다른 모델보다 꽤 큼. 재미있게도 가장 큰 비교 대상은 Flux보다는 Alibaba끼리임. 예를 들어 Wan 2.2를 이미지 생성에 쓰는 게 이미 엄청 인기라서, 대부분 Qwen-Image가 Wan 2.2 대비 얼마나 큰 점프를 했는지 더 궁금해 함. 신규 이미지 모델의 실제 평가 시점은 보통 런칭 후 1주일 정도가 가장 좋은 듯함. 그때쯤엔 유저들이 직접 많이 테스트해서, 3자 관점의 장단점들이 정리됨. 이번 모델도 기대가 큼
좋은 릴리즈임! GenAI Showdown 사이트에 추가했음. 전체적으로 대략 40% 점수를 기록한 꽤 좋은 모델이고, 특히 소비자용 GPU에서 돌릴 수 있는 SOTA 모델이라 봄(퀀타이즈 버전이면 더욱 그러함). 다만, txt2img 프롬프트에 정확히 따라가는 면에서는 OpenAI의 gpt-image-1보다 현격히 떨어지는 건 사실임. 하지만 본 스레드에서도 언급됐듯, 이 모델은 편집 등 다양한 작업이 가능한 점이 장점임. genai showdown에서도 확인 가능함
- 참고로 Imagen 3와 4는 엄연히 다른 모델이기 때문에 섞어서 비교하는 건 적절하지 않다고 생각함
이런 걸 자주 해보는 사람들에겐 당연할 수도 있겠지만, 이걸 돌릴 수 있는 하드웨어 사양이 궁금함. 리눅스에서 16GB GPU랑 64GB RAM이 있는 머신에서 돌려봤음. 이 PC에서는 SD는 문제 없이 작동함. 그런데 Qwen-image는 GPU로 돌리든, CPU로 돌리든 메모리가 부족하다는 에러가 떴음. 이 정도면 많이 부족한 건지, 두 배만 더 있으면 되는 건지, 몇 십 배를 더 올려야 하는 건지, 아니면 정말 미친 하드웨어가 필요한 건지 궁금함
- 이런 거 자주 하는 사람에겐 당연할 수도 있겠지만사실 그리 당연하지 않음. VLM/LLM의 VRAM 사용량 계산은 거의 마법 같은 영역임. 온라인에 대충 10개쯤 계산기가 있지만, 제대로 맞는 게 없음. 퀀타이제이션, KV 캐싱, 액티베이션, 레이어 등 다양한 변수가 작용함. 매우 귀찮은 부분임. 아무튼 이번 모델의 경우 40GB 이상의 VRAM이 필요함. 일반적인 시스템 RAM은(애플 실리콘에서 유니파이드 RAM이면 모를까) 부족함. 심지어 애플 실리콘에서도 메모리 대역폭이 낮아서 추론 속도가 GPU/TPU 대비 매우 느려짐
- 모델 파일 크기와 거의 비슷할 거라고 봄. transformers 폴더를 보면 대략 9개의 5GB 파일이 있는데, 대략 GPU에 45GB VRAM이 필요하다 생각하면 됨. 보통 퀀타이즈된 경량 버전(품질 저하는 감수)이 곧 공개될 것으로 예상함
- Qwen-Image는 풀 모델 기준 최소 24GB VRAM이 필요함. 다만 4비트 퀀타 버전은 AutoGPTQ 같은 라이브러리로 약 8GB VRAM에서도 실행 가능함
- 4비트 퀀타이즈 버전이 공개되려면 며칠 기다려야 할 것 같음. 파라미터 수는 20B임
- 프로덕션 추론 환경에선 1xH100으로 잘 돌아감
다른 이미지 생성 모델과 달리 4o image gen처럼 이미지 전체를 불필요하게 바꾸지 않는 점이 놀라움. 4o에서는 옷만 수정하려고 하면 얼굴까지 바뀌곤 하는데, 이 모델은 AI 특유의 인위적인 흔적을 수정이 필요한 부분에만 넣어주는 듯함
- 그래서 Flux Kontext가 엄청나게 화제가 됐던 것임 — 직접 마스킹할 필요 없이 img2img 인페인팅의 힘을 준 게 혁신적이었음. 에디팅 관련 블로그 참고
- 4o에서도 편집하고 싶은 영역만 선택하면 나머지는 그대로 둘 수 있음
최근 중국 오픈소스 모델들이 미친 듯이 좋게 나오고 있음. 이런 소식을 접할 때마다 진짜로 희망이 생김
이런 모델에서 실제로 텍스트 렌더링은 어떻게 학습시키는지 아는 사람 있음? 내가 써본 모든 모델(OpenAI, Flux 포함)이 다 같은 문제점이 있는데, 텍스트가 자연스럽지 않고 그림 내의 그림자나 반사 표현이 본래 이미지와 다르게 어색함. 아마 비슷한 트릭을 쓰고 있는 듯함?
- 기술 보고서 14쪽에 설명되어 있음. 이미지 위에 텍스트를 덧입혀 합성 데이터를 만든다고 되어 있음. 원래 조명 조건은 고려하지 않은 채로 덮어쓰기만 해서 학습된 듯함. Garbage in, garbage out임. 미래에는 더 현실적인 텍스트 합성 방법이 나와서, 그걸로 학습시키면 텍스트도 자연스럽게 만드는 모델이 탄생하지 않을까 기대함
논문 3.2절 Data Filtering 파트도 확인해 보길 권장함. 원본 논문 PDF 참고
- 흥미로운 점은 영어랑 중국어 외에는 언급되거나 예시가 나온 언어가 없다는 점임
이걸 직접 호스팅해서 쓸 때 합리적인 결과를 낼 수 있는 가장 낮은 그래픽카드 사양이 궁금함
캔버스가 짧음
얼마나 검열이 심한지 궁금함
- 새 모델 나올 때마다 커뮤니티가 항상 가장 궁금해하는게 그 점이고, 실제로 아무 조직도 인간 본성의 불편한 현실을 맞닥뜨리고 싶어하지 않음. 그와 동시에 미국 사회나 기업엔 묘한 조심성과 금욕주의가 만연한 듯함

답변달기