- Qwen-Image-Edit는 Qwen-Image 모델을 기반으로 한 이미지 편집 전용 확장 모델
- 입력 이미지를 동시에 Qwen2.5-VL과 VAE Encoder에 전달해 시맨틱과 외형 편집을 모두 지원하는 구조
-
텍스트 편집 기능이 강력하여 중국어와 영어에서 폰트, 크기, 스타일을 유지하며 직접 수정 가능함
- 다양한 벤치마크에서 최첨단(SOTA) 성능을 달성하여 이미지 편집을 위한 강력한 기반 모델로 자리 잡은 상태임
- 오픈 소스 Apache 2.0 라이선스로 공개되어, 개발자와 연구자들이 자유롭게 활용할 수 있음
소개
- Qwen-Image-Edit는 Qwen-Image의 텍스트 렌더링 능력을 확장해 이미지 편집을 지원하는 모델
- 이미지 입력을 시맨틱 제어(Qwen2.5-VL)와 외형 제어(VAE Encoder)에 동시에 전달하는 구조
- 정밀한 텍스트 편집과 시맨틱·외형 편집을 모두 지원하는 특징이 있음
주요 기능
-
시맨틱 & 외형 편집: 객체 추가, 삭제, 회전, 스타일 변환 같은 시맨틱 변경과 특정 영역만 바꾸는 외형 편집을 지원함
-
정밀 텍스트 편집: 영어와 중국어를 직접 수정 가능하며 원래의 글꼴과 스타일을 보존함
-
성능 우위: 다수의 퍼블릭 벤치마크에서 최첨단 성능을 달성함
빠른 시작
- Hugging Face
diffusers
라이브러리를 통해 사용할 수 있음
- 예제 코드에서는 토끼의 색을 보라색으로 바꾸고 배경을 플래시 라이트로 바꾸는 작업을 수행함
- CUDA 가속과
torch.bfloat16
지원을 통해 효율적 실행 가능함
데모 사례 (Showcase)
-
시맨틱 편집: 캐릭터 IP 생성, 객체 회전(90도, 180도), 스타일 변환(예: 지브리풍) 가능함
-
외형 편집: 간판 추가, 머리카락 제거, 특정 텍스트 색상 변경, 배경 교체, 의상 변경 등을 정밀하게 수행함
-
텍스트 편집: 영어와 중국어 포스터의 크고 작은 글씨까지 정확히 수정 가능함
-
연속 편집 체인: 서예 작품의 글자 오류를 단계적으로 수정하여 최종적으로 완전한 버전을 만들어내는 사례를 시연함
응용 시나리오
- 브랜드 IP 확장: Capybara 캐릭터 기반 MBTI 이모티콘 제작 사례가 소개됨
- 예술 및 창작: 초상화의 다양한 스타일 변환을 통해 가상 아바타 제작 가능성 확보됨
- 산업적 활용: 표지판 삽입 시 반사 효과까지 자연스럽게 생성하는 등 세밀한 편집 지원함
라이선스
- Apache 2.0 라이선스로 공개되어 자유롭게 사용, 수정, 배포 가능함