# 텍스트-이미지 생성 AI 이미지 편집 모델 성능 비교 분석

> Clean Markdown view of GeekNews topic #23980. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=23980](https://news.hada.io/topic?id=23980)
- GeekNews Markdown: [https://news.hada.io/topic/23980.md](https://news.hada.io/topic/23980.md)
- Type: news
- Author: [baeba](https://news.hada.io/@baeba)
- Published: 2025-10-29T09:39:51+09:00
- Updated: 2025-10-29T09:39:51+09:00
- Original source: [genai-showdown.specr.net](https://genai-showdown.specr.net/image-editing)
- Points: 3
- Comments: 0

## Topic Body

### 텍스트 기반 이미지 편집 모델 성능 비교 분석 요약  
  
* **핵심 요점:**  
    * 최신 텍스트 기반 이미지 편집 모델 7종의 12가지 편집 과제 수행 능력을 평가함.  
    * **Seedream 4**가 12개 중 9개 성공으로 가장 높은 성능을 보였으며, **Gemini 2.5 Flash**가 7개 성공으로 뒤를 이음.  
    * 평가는 단일 프롬프트(One-shot) 방식과 비수동 마스킹(Non-masked) 편집이라는 엄격한 규칙 하에 진행됨.  
    * 모델들은 **공간적 위치 교환** 및 **특정 요소 선택적 제거**와 같은 복잡한 지시에서 낮은 성공률을 보임.  
  
---  
  
#### Ⅰ. 서론  
  
* **평가 목표:** 텍스트 명령(Text-instructed)에 따른 이미지 수정에 초점을 맞추어 다양한 최신(SOTA) 이미지 편집 모델들의 성능을 비교 분석함.  
* **평가 대상 모델 (7종):** Seedream 4, Gemini 2.5 Flash, Qwen-Image-Edit, FLUX.1 Kontext [dev], OpenAI gpt-image-1, OmniGen2, (추가 모델 1종은 목록에서 제외됨).  
* **평가 과제:** 총 12가지의 다양한 난이도와 유형의 편집 프롬프트 및 도전 과제()를 제시함.  
* **경쟁 규칙:**  
    * **단일 시도 원칙 (Single-attempt):** 연속적인 보정 프롬프트를 사용하여 동일 이미지에 반복적으로 편집하는 행위는 허용되지 않으며, 단 한 번의 시도로 목표를 달성해야 함.  
    * **순수 텍스트 지시 편집 (Purely text-based):** 이미지 편집은 오로지 텍스트 지시에 의해서만 이루어져야 하므로, img2img 또는 인페인팅을 위한 수동 마스킹(Manual Masking)과 같은 기능은 허용되지 않음.  
  
---  
  
#### Ⅱ. 본론: 모델별 성능 및 주요 과제 분석  
  
##### 1. 전반적인 모델 성공률 비교  
  
* **최고 성능:** **Seedream 4**가 12개 과제 중 9개 성공으로 가장 뛰어난 성능을 보임.  
* **차상위 성능:** **Gemini 2.5 Flash**가 7개 성공으로 다음을 차지함.  
* **중위권:** **Qwen-Image-Edit**가 6개, **FLUX.1 Kontext [dev]** 가 5개 성공을 기록함.  
* **하위권:** **OpenAI gpt-image-1**가 4개, **OmniGen2**가 1개 성공에 그침.  
  
##### 2. 특정 편집 유형에 대한 모델 성능 분석  
  
###### 2.1. 공간적 인식 및 위치 조정 과제: 낮은 성공률 기록  
* **'SHRDLU' (블록 위치 교환):** 6개 모델 모두 실패 (** 0/6**). 대부분의 모델이 위치가 아닌 블록의 색상만 교환하는 데 그쳤으며, **Gemini 2.5 Flash**와 **Seedream 4**는 색상만 교환함.  
* **'기울어진 피사의 사탑 바로 세우기':** 6개 중 2개 성공 (** 2/6**). 기본적인 공간 인식이 필요하며, 나머지 환경을 보존하면서 특정 객체만 수직으로 교정하는 데 어려움을 겪음.  
  
###### 2.2. 세부 요소 변경 및 보존 과제: 혼합된 결과  
* **'Jaws를 Paws로 변경 등 다중 편집':** 6개 중 5개 성공 (** 5/6**). 다수의 변경을 동시에 수행해야 하며, **OmniGen2**는 편집은 성공했으나 원본의 미적 스타일 보존에 실패함.  
* **'수염 난 남성에게 머리 추가':** 6개 중 4개 성공 (** 4/6**). **Gemini 2.5 Flash**의 결과물은 괜찮았으나 머리카락이 너무 날카로워 보이는 문제가 있었으며, **OpenAI gpt-image-1**은 이미지 전체를 변형시켰음.  
* **'화투패 변경':** 6개 중 3개 성공 (** 3/6**). 특정 카드(King of Spades)만 바꾸고 다른 카드(Ace of Spades)는 그대로 두는 **선택적 편집** 능력 시험에서, **Qwen-Image-Edit**는 원치 않는 Ace of Spades까지 수정함.  
  
###### 2.3. 디테일 보존 및 복잡한 객체 조작 과제: 가장 큰 난관  
* **'기린 목 길이 단축':** 6개 중 1개 성공 (** 1/6**). 대부분의 모델이 기린의 목을 단축하는 데 실패했거나, **Qwen-Image-Edit**의 경우 아예 목 전체를 제거하여 프롬프트를 비정상적으로 해석함.  
* **'M&M 갈색 사탕 제거':** 6개 중 1개 성공 (** 1/6**). 특정 색상의 사탕만 선택적으로 제거(또는 색상 변경)하는 데 어려움을 겪었으며, **Gemini 2.5 Flash**는 새로운 사탕 배열을 생성함.  
* **'낡은 표지판의 캥거루를 모래 벌레 실루엣으로 교체':** 6개 중 1개 성공 (** 1/6**). 기존 표지판의 흠집, 녹 등 **낡은 질감을 보존**하면서 새로운 요소를 이식하는 능력이 부족했음.  
  
---  
  
#### Ⅲ. 결론  
  
* **최고 모델의 특징:** **Seedream 4**와 **Gemini 2.5 Flash**가 전반적으로 우수한 성능을 보였으나, 복잡하고 미묘한 텍스트 지시를 완벽히 이해하고 반영하는 데는 여전히 한계가 존재함.  
* **주요 실패 유형:** 모델들은 **공간적 관계에 대한 정확한 이해** 및 **이미지 내 특정 미세 요소의 선택적 편집 및 보존** 과제에서 일관되게 낮은 성공률을 기록함.  
* **향후 발전 방향:**  
    * **GPT-image-1**은 종종 이미지 전체를 의도치 않게 변경하는 경향을 보여, 편집 영역을 국소화하는 정확도를 개선해야 함.  
    * **'FLUX.1 Kontext [dev]'** 와 **'Kontext Max'** 와 같은 일부 모델의 경우, 크기가 더 큰 모델이 더 작은 개발 버전 모델보다 성능이 떨어지는 이례적인 결과가 나타나, 학습 데이터의 종류(사진 vs. 일러스트)가 성능에 미치는 영향에 대한 분석이 필요함.  
    * 단일 프롬프트로는 어려운 과제(예: 카드 디자인 변경)의 경우, **다중 이미지를 입력**으로 받아 참조하는 방식으로 테스트 방식을 발전시킬 필요가 있음.

## Comments


_No public comments on this page._