17P by neo 4일전 | ★ favorite | 댓글과 토론
  • Qwen-Image-Edit는 Qwen-Image 모델을 기반으로 한 이미지 편집 전용 확장 모델
  • 입력 이미지를 동시에 Qwen2.5-VLVAE Encoder에 전달해 시맨틱과 외형 편집을 모두 지원하는 구조
  • 텍스트 편집 기능이 강력하여 중국어와 영어에서 폰트, 크기, 스타일을 유지하며 직접 수정 가능함
  • 다양한 벤치마크에서 최첨단(SOTA) 성능을 달성하여 이미지 편집을 위한 강력한 기반 모델로 자리 잡은 상태임
  • 오픈 소스 Apache 2.0 라이선스로 공개되어, 개발자와 연구자들이 자유롭게 활용할 수 있음

소개

  • Qwen-Image-Edit는 Qwen-Image의 텍스트 렌더링 능력을 확장해 이미지 편집을 지원하는 모델
  • 이미지 입력을 시맨틱 제어(Qwen2.5-VL)와 외형 제어(VAE Encoder)에 동시에 전달하는 구조
  • 정밀한 텍스트 편집과 시맨틱·외형 편집을 모두 지원하는 특징이 있음

주요 기능

  • 시맨틱 & 외형 편집: 객체 추가, 삭제, 회전, 스타일 변환 같은 시맨틱 변경과 특정 영역만 바꾸는 외형 편집을 지원함
  • 정밀 텍스트 편집: 영어와 중국어를 직접 수정 가능하며 원래의 글꼴과 스타일을 보존함
  • 성능 우위: 다수의 퍼블릭 벤치마크에서 최첨단 성능을 달성함

빠른 시작

  • Hugging Face diffusers 라이브러리를 통해 사용할 수 있음
  • 예제 코드에서는 토끼의 색을 보라색으로 바꾸고 배경을 플래시 라이트로 바꾸는 작업을 수행함
  • CUDA 가속과 torch.bfloat16 지원을 통해 효율적 실행 가능함

데모 사례 (Showcase)

  • 시맨틱 편집: 캐릭터 IP 생성, 객체 회전(90도, 180도), 스타일 변환(예: 지브리풍) 가능함
  • 외형 편집: 간판 추가, 머리카락 제거, 특정 텍스트 색상 변경, 배경 교체, 의상 변경 등을 정밀하게 수행함
  • 텍스트 편집: 영어와 중국어 포스터의 크고 작은 글씨까지 정확히 수정 가능함
  • 연속 편집 체인: 서예 작품의 글자 오류를 단계적으로 수정하여 최종적으로 완전한 버전을 만들어내는 사례를 시연함

응용 시나리오

  • 브랜드 IP 확장: Capybara 캐릭터 기반 MBTI 이모티콘 제작 사례가 소개됨
  • 예술 및 창작: 초상화의 다양한 스타일 변환을 통해 가상 아바타 제작 가능성 확보됨
  • 산업적 활용: 표지판 삽입 시 반사 효과까지 자연스럽게 생성하는 등 세밀한 편집 지원함

라이선스

  • Apache 2.0 라이선스로 공개되어 자유롭게 사용, 수정, 배포 가능함