GenAI 이미지 대결(Showdown)

(genai-showdown.specr.net)

1P by GN⁺ 2달전 | ★ favorite | 댓글 1개

여러 이미지 생성 AI 모델을 동일한 프롬프트로 테스트하여, 정확성·창의성·일관성을 평가한 실험 프로젝트
OpenAI 4o, Gemini 2.5 Flash, Imagen 4, Seedream 4, FLUX.1 dev, Midjourney v7 등 총 14개 모델이 참가함
모든 모델은 인페인팅이나 편집 기능 없이, 주어진 설명만으로 이미지를 생성
각 테스트는 명확한 최소 통과 기준을 두고, 시각적 요소의 충족 여부를 기준으로 성공률을 계산함
결과는 모델 간의 성능 격차를 드러내며, 복잡한 개념 이해나 수학적 구조 생성이 여전히 어려움을 보여줌

실험 개요

엄격한 규칙기반으로 각 모델의 순수 생성 능력을 평가한 비교 벤치마크 실험임
- 인페인팅, 리믹스, 후속 수정 지시 등의 기능은 모두 금지
- 각 모델은 프롬프트당 수십 번의 시도만 허용됨
평가 기준은 정확한 시각적 조건 충족 여부를 중심으로 함

주요 테스트 결과

The Prussian Ring Toss
- 프러시아 병사가 서로의 스파이크 헬멧에 고리를 던지는 장면
- 6개 모델 중 5개가 조건 충족, 가장 높은 성공률
Nine-Pointed Star
- 9개의 꼭짓점을 가진 별을 정확히 생성해야 하는 과제
- 대다수 모델이 짝수 형태로 수렴해 실패, 3개만 성공
Spheron
- 알렉산더 대왕이 ‘Hippity Hop’ 장난감을 타고 전투하는 유화 스타일 그림
- 역사적 맥락과 현대적 오브젝트 결합 능력 평가, 4개 모델만 성공
Cubed⁵
- 빨강–파랑–초록–보라–노랑 순서로 투명한 유리 큐브 5개를 수직으로 쌓는 장면
- 5개 모델이 정확히 재현, 세로 비율이 결과 품질에 큰 영향
Cephalopodic Puppet Show
- 문어의 8개 다리 각각에 양말 인형을 씌운 장면
- 개념적 이해가 필요한 테스트로, 절반만 조건 충족

추가 테스트 사례

Quantum Entangled Einstein: 아인슈타인과 양자역학 관련 아이디어 전구 묘사 → 3/6 성공
The Yarrctic Circle: 얼음으로 된 의족을 단 북극 해적 이미지 → 6/6 전원 성공
The Labyrinth: 입구·출구·경로가 명확한 2D 미로 생성 → 1/6 성공
A Dicey Situation: 20면체 주사위(D20)에 소수만 새겨진 면 구현 → 0/6 전원 실패

분석 및 시사점

단순한 시각적 스타일보다 논리적 구조와 규칙 기반 묘사에서 오류가 빈번함
특히 텍스트·숫자·대칭 구조·색 순서 등 정밀한 조건이 있는 프롬프트에서 실패율이 높음
반대로 감정적이거나 상상력이 요구되는 서사형 프롬프트에서는 비교적 높은 일관성을 보임
전반적으로, GenAI 모델들은 여전히 복합 개념 이해와 구조적 재현력의 한계를 드러냄

요약

이번 실험은 텍스트-투-이미지 모델 간의 ‘진짜 이해력’ 을 가늠하게 하는 흥미로운 시도임
Midjourney와 OpenAI 4o 등 최신 모델도 일부 논리적 장면에서는 완벽히 실패
결과는 “텍스트를 이해하는 것”과 “그 의미를 정확히 시각화하는 것”은 다른 문제임을 보여줌
향후 모델 발전의 핵심 과제는 언어적 맥락과 시각적 구조 간의 정합성 개선으로 보임

▲

GN⁺ 2달전 [-]

Hacker News 의견

GPT-4o를 쓰면서 회사가 도덕적 판단자처럼 굴어 사용자의 요청을 자주 거부하는 게 정말 짜증남
합법적인 일조차 “허용되지 않는다”고 막는 게 마치 1964년의 검열을 기업이 강제하는 느낌임
GPT-5는 또 대화 시작마다 “좋은 질문이에요”, “훌륭한 관찰이에요” 같은 아첨 섞인 멘트로 시작해서 더 못 견디겠음
- 사람들이 Altman이 ChatGPT에서 NSFW 허용한 걸 비판했지만, 나는 그게 기업 검열 완화로 가는 올바른 방향이라 생각함
  사용자 선호 데이터를 RLHF로 학습시키면 모델이 아첨병이 되는 부작용이 생김
  지금 주요 LLM들이 다 그런 상태지만, 그래도 GPT-4o보다는 낫다고 봄
- 중국계 모델들을 써보면 훨씬 제한이 적음, 물론 몇 가지 예외는 있음
- 기업용 소프트웨어 중 NSFW 허용하는 걸 본 적이 없음
  ChatGPT는 기업 대상 제품이라, 만약 폭력적이거나 선정적인 이미지를 만들 수 있다면 대기업이 절대 구매하지 않을 것임
  Fortune 500 기업 소프트웨어 구매 담당자로 일했던 경험상 100% 확신함
기사에 날짜가 없어서 이상했는데, Wayback을 보니 text-to-image 페이지는 4월, image editing 페이지는 9월에 추가된 걸 확인함
날짜가 없으니 처음 보면 동시에 만들어진 것처럼 보임
- SEO 담당자들이 날짜 없는 글이 검색엔진에 더 잘 걸린다고 설득해서 그런 듯함
  그들의 베개 양쪽이 다 뜨겁길 바람
- 맞음, 꽤 오래된 내용임. 요즘 AI에서는 일주일만 지나도 구식이 됨
처음엔 “image editing”이란 용어가 헷갈렸음
실제론 새 이미지를 생성하는 기능인데, 기존 이미지를 수정하는 의미로 쓰인 듯함
Qwen3-VL-30B-A3B 같은 멀티모달 모델은 기존 이미지를 잘 수정함. imagegpt.com도 괜찮았지만 어떤 모델을 쓰는지는 모르겠음
- 이런 피드백을 여러 번 받아서 상단 네비게이션 바를 더 눈에 띄게 해야겠다고 생각함
  참고로 Qwen3-VL은 이미지 생성이나 수정이 아니라 이미지 추론용 모델임
  아마 Qwen-Image-Edit을 백엔드에서 사용했을 가능성이 있음
- 내가 본 사이트에서는 기존 이미지를 수정하는 걸로 보였음
  예를 들어 “대머리 남자에게 머리카락 추가” 프롬프트를 주면 원본이 수정된 결과가 나옴
  기술적으로는 새 이미지를 생성하는 과정이지만, Photoshop에서 Save As 하는 것과 비슷한 개념이라 생각함
실제 링크는 https://genai-showdown.specr.net/image-editing 임
- 맞음, 이게 편집용 링크임. 다른 건 text-to-image용임
모델들이 내부적으로 여러 번 이미지를 생성하고 가장 좋은 결과만 보여주는 구조일 거라 추측함
GPT-4o는 temperature가 낮아 일관성은 높지만 창의성은 떨어지고, Midjourney는 더 높은 temperature로 풍부한 배경과 질감을 만들어냄
4o의 세피아톤은 후처리일 수도 있음
실제로는 여러 단계를 거쳐 최종 이미지를 다듬는 워크플로우일 가능성이 큼
- 직접 로컬에서 이미지 모델을 돌려보면, 대부분의 호스팅 모델이 여러 번 생성하지 않고 한 번만 실행한다는 걸 알 수 있음
  다만 LLM 기반 모델들은 프롬프트 재작성(prompt rewriting) 을 자주 사용함
  DALL·E 3의 사례는 이 글에서 잘 설명되어 있음
- 생성 시도 횟수와 각 프롬프트별 결과를 공개하면 더 흥미로울 것 같음
“Alexander the Great on a Hippity Hop”을 보고 바로 업보트했음
- 나도 그 장난감을 완전히 잊고 있었는데, 이걸 보고 어린 시절 추억이 떠올랐음
- 그래도 말 키메라 이미지가 더 마음에 듦
이미지 모델을 비교 테스트해보고 싶다면 BrandImageGen.com에서 무료로 시도해볼 수 있음
가입자 피드백을 기다리고 있음
“초록 코끼리 그리지 마라” 밈은 어디 있냐고 묻고, GitHub 토론에서 제안된 걸 발견함
여러 이미지 생성 툴을 비교 리뷰한 글을 올림
Generative AI Review 링크
“Editing Showdown” 덕분에 Seedream 모델을 처음 알게 됨
다만 여러 번 시도 후 다른 LLM이 평가하는 구조가 정확히 이해되지 않음. 그 자체로 정확도가 제한적이지 않을까 생각함
- FAQ에 평가 기준을 명확히 적어둠
  PASS/FAIL 방식으로, 프롬프트에 맞는 이미지를 한 번도 생성하지 못하면 실패로 간주함
  “길거리의 아무에게 보여줘도 프롬프트를 맞출 수 있을까?”라는 피셔너리 테스트 개념임
  최종 평가는 명확한 기준에 따라 수동으로 결정함
- LLM이 LLM을 평가하는 건 업계 표준임
  인간 심사자를 상자에 가둬 7600개의 결과를 평가시킬 수는 없음
  물론 LLM 심사도 완벽하진 않지만, 비교 가능성과 일관성 면에서는 인간보다 낫고
  이를 최적화 목표가 아니라 성능 온도계로만 쓰면 큰 문제는 없음
  다만 최적화 대상으로 삼으면 GPT-5처럼 이상한 결과물이 나올 수 있음

답변달기