텍스트 기반 이미지 편집 모델 성능 비교 분석 요약
- 
핵심 요점:
- 최신 텍스트 기반 이미지 편집 모델 7종의 12가지 편집 과제 수행 능력을 평가함.
 
- 
Seedream 4가 12개 중 9개 성공으로 가장 높은 성능을 보였으며, Gemini 2.5 Flash가 7개 성공으로 뒤를 이음.
 
- 평가는 단일 프롬프트(One-shot) 방식과 비수동 마스킹(Non-masked) 편집이라는 엄격한 규칙 하에 진행됨.
 
- 모델들은 공간적 위치 교환 및 특정 요소 선택적 제거와 같은 복잡한 지시에서 낮은 성공률을 보임.
 
 
Ⅰ. 서론
- 
평가 목표: 텍스트 명령(Text-instructed)에 따른 이미지 수정에 초점을 맞추어 다양한 최신(SOTA) 이미지 편집 모델들의 성능을 비교 분석함.
 
- 
평가 대상 모델 (7종): Seedream 4, Gemini 2.5 Flash, Qwen-Image-Edit, FLUX.1 Kontext [dev], OpenAI gpt-image-1, OmniGen2, (추가 모델 1종은 목록에서 제외됨).
 
- 
평가 과제: 총 12가지의 다양한 난이도와 유형의 편집 프롬프트 및 도전 과제()를 제시함.
 
- 
경쟁 규칙:
- 
단일 시도 원칙 (Single-attempt): 연속적인 보정 프롬프트를 사용하여 동일 이미지에 반복적으로 편집하는 행위는 허용되지 않으며, 단 한 번의 시도로 목표를 달성해야 함.
 
- 
순수 텍스트 지시 편집 (Purely text-based): 이미지 편집은 오로지 텍스트 지시에 의해서만 이루어져야 하므로, img2img 또는 인페인팅을 위한 수동 마스킹(Manual Masking)과 같은 기능은 허용되지 않음.
 
 
Ⅱ. 본론: 모델별 성능 및 주요 과제 분석
1. 전반적인 모델 성공률 비교
- 
최고 성능: Seedream 4가 12개 과제 중 9개 성공으로 가장 뛰어난 성능을 보임.
 
- 
차상위 성능: Gemini 2.5 Flash가 7개 성공으로 다음을 차지함.
 
- 
중위권: Qwen-Image-Edit가 6개, FLUX.1 Kontext [dev] 가 5개 성공을 기록함.
 
- 
하위권: OpenAI gpt-image-1가 4개, OmniGen2가 1개 성공에 그침.
 
2. 특정 편집 유형에 대한 모델 성능 분석
2.1. 공간적 인식 및 위치 조정 과제: 낮은 성공률 기록
- 
'SHRDLU' (블록 위치 교환): 6개 모델 모두 실패 (** 0/6**). 대부분의 모델이 위치가 아닌 블록의 색상만 교환하는 데 그쳤으며, Gemini 2.5 Flash와 Seedream 4는 색상만 교환함.
 
- 
'기울어진 피사의 사탑 바로 세우기': 6개 중 2개 성공 (** 2/6**). 기본적인 공간 인식이 필요하며, 나머지 환경을 보존하면서 특정 객체만 수직으로 교정하는 데 어려움을 겪음.
 
2.2. 세부 요소 변경 및 보존 과제: 혼합된 결과
- 
'Jaws를 Paws로 변경 등 다중 편집': 6개 중 5개 성공 (** 5/6**). 다수의 변경을 동시에 수행해야 하며, OmniGen2는 편집은 성공했으나 원본의 미적 스타일 보존에 실패함.
 
- 
'수염 난 남성에게 머리 추가': 6개 중 4개 성공 (** 4/6**). Gemini 2.5 Flash의 결과물은 괜찮았으나 머리카락이 너무 날카로워 보이는 문제가 있었으며, OpenAI gpt-image-1은 이미지 전체를 변형시켰음.
 
- 
'화투패 변경': 6개 중 3개 성공 (** 3/6**). 특정 카드(King of Spades)만 바꾸고 다른 카드(Ace of Spades)는 그대로 두는 선택적 편집 능력 시험에서, Qwen-Image-Edit는 원치 않는 Ace of Spades까지 수정함.
 
2.3. 디테일 보존 및 복잡한 객체 조작 과제: 가장 큰 난관
- 
'기린 목 길이 단축': 6개 중 1개 성공 (** 1/6**). 대부분의 모델이 기린의 목을 단축하는 데 실패했거나, Qwen-Image-Edit의 경우 아예 목 전체를 제거하여 프롬프트를 비정상적으로 해석함.
 
- 
'M&M 갈색 사탕 제거': 6개 중 1개 성공 (** 1/6**). 특정 색상의 사탕만 선택적으로 제거(또는 색상 변경)하는 데 어려움을 겪었으며, Gemini 2.5 Flash는 새로운 사탕 배열을 생성함.
 
- 
'낡은 표지판의 캥거루를 모래 벌레 실루엣으로 교체': 6개 중 1개 성공 (** 1/6**). 기존 표지판의 흠집, 녹 등 낡은 질감을 보존하면서 새로운 요소를 이식하는 능력이 부족했음.
 
Ⅲ. 결론
- 
최고 모델의 특징: Seedream 4와 Gemini 2.5 Flash가 전반적으로 우수한 성능을 보였으나, 복잡하고 미묘한 텍스트 지시를 완벽히 이해하고 반영하는 데는 여전히 한계가 존재함.
 
- 
주요 실패 유형: 모델들은 공간적 관계에 대한 정확한 이해 및 이미지 내 특정 미세 요소의 선택적 편집 및 보존 과제에서 일관되게 낮은 성공률을 기록함.
 
- 
향후 발전 방향:
- 
GPT-image-1은 종종 이미지 전체를 의도치 않게 변경하는 경향을 보여, 편집 영역을 국소화하는 정확도를 개선해야 함.
 
- 
'FLUX.1 Kontext [dev]' 와 'Kontext Max' 와 같은 일부 모델의 경우, 크기가 더 큰 모델이 더 작은 개발 버전 모델보다 성능이 떨어지는 이례적인 결과가 나타나, 학습 데이터의 종류(사진 vs. 일러스트)가 성능에 미치는 영향에 대한 분석이 필요함.
 
- 단일 프롬프트로는 어려운 과제(예: 카드 디자인 변경)의 경우, 다중 이미지를 입력으로 받아 참조하는 방식으로 테스트 방식을 발전시킬 필요가 있음.