# GenAI 이미지 대결(Showdown)

> Clean Markdown view of GeekNews topic #23966. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=23966](https://news.hada.io/topic?id=23966)
- GeekNews Markdown: [https://news.hada.io/topic/23966.md](https://news.hada.io/topic/23966.md)
- Type: GN+
- Author: [xguru](https://news.hada.io/@xguru)
- Published: 2025-10-28T10:46:43+09:00
- Updated: 2025-10-28T10:46:43+09:00
- Original source: [genai-showdown.specr.net](https://genai-showdown.specr.net/)
- Points: 1
- Comments: 1

## Topic Body

- 여러 **이미지 생성 AI 모델**을 동일한 프롬프트로 테스트하여, **정확성·창의성·일관성**을 평가한 실험 프로젝트  
- OpenAI 4o, Gemini 2.5 Flash, Imagen 4, Seedream 4, FLUX.1 dev, Midjourney v7 등 **총 14개 모델**이 참가함  
- 모든 모델은 **인페인팅이나 편집 기능 없이**, 주어진 설명만으로 이미지를 생성  
- 각 테스트는 **명확한 최소 통과 기준**을 두고, 시각적 요소의 충족 여부를 기준으로 성공률을 계산함  
- 결과는 모델 간의 성능 격차를 드러내며, **복잡한 개념 이해나 수학적 구조 생성이 여전히 어려움**을 보여줌  
  
---  
  
### 실험 개요  
- **엄격한 규칙**기반으로 각 모델의 순수 생성 능력을 평가한 **비교 벤치마크 실험**임  
  - 인페인팅, 리믹스, 후속 수정 지시 등의 기능은 모두 금지  
  - 각 모델은 프롬프트당 수십 번의 시도만 허용됨  
- 평가 기준은 **정확한 시각적 조건 충족 여부**를 중심으로 함  
  
### 주요 테스트 결과  
- **The Prussian Ring Toss**  
  - 프러시아 병사가 서로의 스파이크 헬멧에 고리를 던지는 장면  
  - 6개 모델 중 5개가 조건 충족, 가장 높은 성공률  
- **Nine-Pointed Star**  
  - 9개의 꼭짓점을 가진 별을 정확히 생성해야 하는 과제  
  - 대다수 모델이 짝수 형태로 수렴해 실패, 3개만 성공  
- **Spheron**  
  - 알렉산더 대왕이 **‘Hippity Hop’ 장난감**을 타고 전투하는 유화 스타일 그림  
  - 역사적 맥락과 현대적 오브젝트 결합 능력 평가, 4개 모델만 성공  
- **Cubed⁵**  
  - 빨강–파랑–초록–보라–노랑 순서로 투명한 유리 큐브 5개를 수직으로 쌓는 장면  
  - 5개 모델이 정확히 재현, **세로 비율이 결과 품질에 큰 영향**  
- **Cephalopodic Puppet Show**  
  - 문어의 8개 다리 각각에 **양말 인형**을 씌운 장면  
  - 개념적 이해가 필요한 테스트로, 절반만 조건 충족  
  
### 추가 테스트 사례  
- **Quantum Entangled Einstein**: 아인슈타인과 양자역학 관련 아이디어 전구 묘사 → 3/6 성공  
- **The Yarrctic Circle**: 얼음으로 된 의족을 단 북극 해적 이미지 → 6/6 전원 성공  
- **The Labyrinth**: 입구·출구·경로가 명확한 2D 미로 생성 → 1/6 성공  
- **A Dicey Situation**: 20면체 주사위(D20)에 **소수만 새겨진 면** 구현 → 0/6 전원 실패  
  
### 분석 및 시사점  
- 단순한 시각적 스타일보다 **논리적 구조와 규칙 기반 묘사**에서 오류가 빈번함  
- 특히 **텍스트·숫자·대칭 구조·색 순서** 등 정밀한 조건이 있는 프롬프트에서 실패율이 높음  
- 반대로 **감정적이거나 상상력이 요구되는 서사형 프롬프트**에서는 비교적 높은 일관성을 보임  
- 전반적으로, GenAI 모델들은 여전히 **복합 개념 이해와 구조적 재현력의 한계**를 드러냄  
  
### 요약  
- 이번 실험은 텍스트-투-이미지 모델 간의 **‘진짜 이해력’** 을 가늠하게 하는 흥미로운 시도임  
- Midjourney와 OpenAI 4o 등 최신 모델도 일부 논리적 장면에서는 완벽히 실패  
- 결과는 **“텍스트를 이해하는 것”과 “그 의미를 정확히 시각화하는 것”은 다른 문제**임을 보여줌  
- 향후 모델 발전의 핵심 과제는 **언어적 맥락과 시각적 구조 간의 정합성 개선**으로 보임

## Comments


### Comment 45540

- Author: neo
- Created: 2025-10-28T10:46:44+09:00
- Points: 1

###### [Hacker News 의견](https://news.ycombinator.com/item?id=45708795) 
- GPT-4o를 쓰면서 회사가 **도덕적 판단자**처럼 굴어 사용자의 요청을 자주 거부하는 게 정말 짜증남  
  합법적인 일조차 “허용되지 않는다”고 막는 게 마치 1964년의 검열을 기업이 강제하는 느낌임  
  GPT-5는 또 대화 시작마다 “좋은 질문이에요”, “훌륭한 관찰이에요” 같은 **아첨 섞인 멘트**로 시작해서 더 못 견디겠음
  - 사람들이 Altman이 ChatGPT에서 NSFW 허용한 걸 비판했지만, 나는 그게 **기업 검열 완화**로 가는 올바른 방향이라 생각함  
    사용자 선호 데이터를 RLHF로 학습시키면 모델이 **아첨병**이 되는 부작용이 생김  
    지금 주요 LLM들이 다 그런 상태지만, 그래도 GPT-4o보다는 낫다고 봄
  - 중국계 모델들을 써보면 훨씬 **제한이 적음**, 물론 몇 가지 예외는 있음
  - 기업용 소프트웨어 중 NSFW 허용하는 걸 본 적이 없음  
    ChatGPT는 기업 대상 제품이라, 만약 **폭력적이거나 선정적인 이미지**를 만들 수 있다면 대기업이 절대 구매하지 않을 것임  
    Fortune 500 기업 소프트웨어 구매 담당자로 일했던 경험상 100% 확신함
- 기사에 날짜가 없어서 이상했는데, Wayback을 보니 **text-to-image 페이지는 4월**, **image editing 페이지는 9월**에 추가된 걸 확인함  
  날짜가 없으니 처음 보면 동시에 만들어진 것처럼 보임
  - SEO 담당자들이 **날짜 없는 글이 검색엔진에 더 잘 걸린다**고 설득해서 그런 듯함  
    그들의 베개 양쪽이 다 뜨겁길 바람
  - 맞음, 꽤 오래된 내용임. 요즘 AI에서는 **일주일만 지나도 구식**이 됨
- 처음엔 “image editing”이란 용어가 헷갈렸음  
  실제론 **새 이미지를 생성**하는 기능인데, 기존 이미지를 수정하는 의미로 쓰인 듯함  
  Qwen3-VL-30B-A3B 같은 **멀티모달 모델**은 기존 이미지를 잘 수정함. imagegpt.com도 괜찮았지만 어떤 모델을 쓰는지는 모르겠음
  - 이런 피드백을 여러 번 받아서 **상단 네비게이션 바를 더 눈에 띄게** 해야겠다고 생각함  
    참고로 Qwen3-VL은 이미지 생성이나 수정이 아니라 **이미지 추론용 모델**임  
    아마 [Qwen-Image-Edit](https://huggingface.co/Qwen/Qwen-Image-Edit)을 백엔드에서 사용했을 가능성이 있음
  - 내가 본 사이트에서는 기존 이미지를 수정하는 걸로 보였음  
    예를 들어 “대머리 남자에게 머리카락 추가” 프롬프트를 주면 원본이 수정된 결과가 나옴  
    기술적으로는 새 이미지를 생성하는 과정이지만, **Photoshop에서 Save As 하는 것과 비슷한 개념**이라 생각함
- 실제 링크는 [https://genai-showdown.specr.net/image-editing](https://genai-showdown.specr.net/image-editing) 임
  - 맞음, 이게 **편집용 링크**임. 다른 건 text-to-image용임
- 모델들이 내부적으로 여러 번 이미지를 생성하고 **가장 좋은 결과만 보여주는 구조**일 거라 추측함  
  GPT-4o는 **temperature가 낮아 일관성은 높지만 창의성은 떨어지고**, Midjourney는 더 높은 temperature로 **풍부한 배경과 질감**을 만들어냄  
  4o의 **세피아톤**은 후처리일 수도 있음  
  실제로는 여러 단계를 거쳐 최종 이미지를 다듬는 워크플로우일 가능성이 큼
  - 직접 로컬에서 이미지 모델을 돌려보면, 대부분의 호스팅 모델이 **여러 번 생성하지 않고 한 번만 실행**한다는 걸 알 수 있음  
    다만 LLM 기반 모델들은 **프롬프트 재작성(prompt rewriting)** 을 자주 사용함  
    DALL·E 3의 사례는 [이 글](https://simonwillison.net/2023/Oct/26/add-a-walrus/)에서 잘 설명되어 있음
  - 생성 시도 횟수와 각 프롬프트별 결과를 공개하면 더 흥미로울 것 같음
- “Alexander the Great on a Hippity Hop”을 보고 바로 **업보트**했음
  - 나도 그 장난감을 완전히 잊고 있었는데, 이걸 보고 **어린 시절 추억**이 떠올랐음
  - 그래도 **말 키메라 이미지**가 더 마음에 듦
- 이미지 모델을 비교 테스트해보고 싶다면 **BrandImageGen.com**에서 무료로 시도해볼 수 있음  
  가입자 피드백을 기다리고 있음
- “초록 코끼리 그리지 마라” 밈은 어디 있냐고 묻고, [GitHub 토론](https://github.com/scpedicini/genai-showdown-public/discussions/4)에서 제안된 걸 발견함
- 여러 이미지 생성 툴을 **비교 리뷰**한 글을 올림  
  [Generative AI Review 링크](https://generative-ai.review/2025/09/september-2025-image-generation-qwen-image-vs-google-imagegen-v4-vs-google-nano-banana/)
- “Editing Showdown” 덕분에 **Seedream 모델**을 처음 알게 됨  
  다만 여러 번 시도 후 **다른 LLM이 평가하는 구조**가 정확히 이해되지 않음. 그 자체로 정확도가 제한적이지 않을까 생각함
  - FAQ에 평가 기준을 명확히 적어둠  
    **PASS/FAIL 방식**으로, 프롬프트에 맞는 이미지를 한 번도 생성하지 못하면 실패로 간주함  
    “길거리의 아무에게 보여줘도 프롬프트를 맞출 수 있을까?”라는 **피셔너리 테스트** 개념임  
    최종 평가는 명확한 기준에 따라 수동으로 결정함
  - **LLM이 LLM을 평가**하는 건 업계 표준임  
    인간 심사자를 상자에 가둬 7600개의 결과를 평가시킬 수는 없음  
    물론 LLM 심사도 완벽하진 않지만, **비교 가능성과 일관성** 면에서는 인간보다 낫고  
    이를 최적화 목표가 아니라 **성능 온도계**로만 쓰면 큰 문제는 없음  
    다만 최적화 대상으로 삼으면 GPT-5처럼 **이상한 결과물**이 나올 수 있음