GenAI 이미지 대결(Showdown)
(genai-showdown.specr.net)- 여러 이미지 생성 AI 모델을 동일한 프롬프트로 테스트하여, 정확성·창의성·일관성을 평가한 실험 프로젝트
- OpenAI 4o, Gemini 2.5 Flash, Imagen 4, Seedream 4, FLUX.1 dev, Midjourney v7 등 총 14개 모델이 참가함
- 모든 모델은 인페인팅이나 편집 기능 없이, 주어진 설명만으로 이미지를 생성
- 각 테스트는 명확한 최소 통과 기준을 두고, 시각적 요소의 충족 여부를 기준으로 성공률을 계산함
- 결과는 모델 간의 성능 격차를 드러내며, 복잡한 개념 이해나 수학적 구조 생성이 여전히 어려움을 보여줌
실험 개요
-
엄격한 규칙기반으로 각 모델의 순수 생성 능력을 평가한 비교 벤치마크 실험임
- 인페인팅, 리믹스, 후속 수정 지시 등의 기능은 모두 금지
- 각 모델은 프롬프트당 수십 번의 시도만 허용됨
- 평가 기준은 정확한 시각적 조건 충족 여부를 중심으로 함
주요 테스트 결과
-
The Prussian Ring Toss
- 프러시아 병사가 서로의 스파이크 헬멧에 고리를 던지는 장면
- 6개 모델 중 5개가 조건 충족, 가장 높은 성공률
-
Nine-Pointed Star
- 9개의 꼭짓점을 가진 별을 정확히 생성해야 하는 과제
- 대다수 모델이 짝수 형태로 수렴해 실패, 3개만 성공
-
Spheron
- 알렉산더 대왕이 ‘Hippity Hop’ 장난감을 타고 전투하는 유화 스타일 그림
- 역사적 맥락과 현대적 오브젝트 결합 능력 평가, 4개 모델만 성공
-
Cubed⁵
- 빨강–파랑–초록–보라–노랑 순서로 투명한 유리 큐브 5개를 수직으로 쌓는 장면
- 5개 모델이 정확히 재현, 세로 비율이 결과 품질에 큰 영향
-
Cephalopodic Puppet Show
- 문어의 8개 다리 각각에 양말 인형을 씌운 장면
- 개념적 이해가 필요한 테스트로, 절반만 조건 충족
추가 테스트 사례
- Quantum Entangled Einstein: 아인슈타인과 양자역학 관련 아이디어 전구 묘사 → 3/6 성공
- The Yarrctic Circle: 얼음으로 된 의족을 단 북극 해적 이미지 → 6/6 전원 성공
- The Labyrinth: 입구·출구·경로가 명확한 2D 미로 생성 → 1/6 성공
- A Dicey Situation: 20면체 주사위(D20)에 소수만 새겨진 면 구현 → 0/6 전원 실패
분석 및 시사점
- 단순한 시각적 스타일보다 논리적 구조와 규칙 기반 묘사에서 오류가 빈번함
- 특히 텍스트·숫자·대칭 구조·색 순서 등 정밀한 조건이 있는 프롬프트에서 실패율이 높음
- 반대로 감정적이거나 상상력이 요구되는 서사형 프롬프트에서는 비교적 높은 일관성을 보임
- 전반적으로, GenAI 모델들은 여전히 복합 개념 이해와 구조적 재현력의 한계를 드러냄
요약
- 이번 실험은 텍스트-투-이미지 모델 간의 ‘진짜 이해력’ 을 가늠하게 하는 흥미로운 시도임
- Midjourney와 OpenAI 4o 등 최신 모델도 일부 논리적 장면에서는 완벽히 실패
- 결과는 “텍스트를 이해하는 것”과 “그 의미를 정확히 시각화하는 것”은 다른 문제임을 보여줌
- 향후 모델 발전의 핵심 과제는 언어적 맥락과 시각적 구조 간의 정합성 개선으로 보임
Hacker News 의견
- GPT-4o를 쓰면서 회사가 도덕적 판단자처럼 굴어 사용자의 요청을 자주 거부하는 게 정말 짜증남
합법적인 일조차 “허용되지 않는다”고 막는 게 마치 1964년의 검열을 기업이 강제하는 느낌임
GPT-5는 또 대화 시작마다 “좋은 질문이에요”, “훌륭한 관찰이에요” 같은 아첨 섞인 멘트로 시작해서 더 못 견디겠음- 사람들이 Altman이 ChatGPT에서 NSFW 허용한 걸 비판했지만, 나는 그게 기업 검열 완화로 가는 올바른 방향이라 생각함
사용자 선호 데이터를 RLHF로 학습시키면 모델이 아첨병이 되는 부작용이 생김
지금 주요 LLM들이 다 그런 상태지만, 그래도 GPT-4o보다는 낫다고 봄 - 중국계 모델들을 써보면 훨씬 제한이 적음, 물론 몇 가지 예외는 있음
- 기업용 소프트웨어 중 NSFW 허용하는 걸 본 적이 없음
ChatGPT는 기업 대상 제품이라, 만약 폭력적이거나 선정적인 이미지를 만들 수 있다면 대기업이 절대 구매하지 않을 것임
Fortune 500 기업 소프트웨어 구매 담당자로 일했던 경험상 100% 확신함
- 사람들이 Altman이 ChatGPT에서 NSFW 허용한 걸 비판했지만, 나는 그게 기업 검열 완화로 가는 올바른 방향이라 생각함
- 기사에 날짜가 없어서 이상했는데, Wayback을 보니 text-to-image 페이지는 4월, image editing 페이지는 9월에 추가된 걸 확인함
날짜가 없으니 처음 보면 동시에 만들어진 것처럼 보임- SEO 담당자들이 날짜 없는 글이 검색엔진에 더 잘 걸린다고 설득해서 그런 듯함
그들의 베개 양쪽이 다 뜨겁길 바람 - 맞음, 꽤 오래된 내용임. 요즘 AI에서는 일주일만 지나도 구식이 됨
- SEO 담당자들이 날짜 없는 글이 검색엔진에 더 잘 걸린다고 설득해서 그런 듯함
- 처음엔 “image editing”이란 용어가 헷갈렸음
실제론 새 이미지를 생성하는 기능인데, 기존 이미지를 수정하는 의미로 쓰인 듯함
Qwen3-VL-30B-A3B 같은 멀티모달 모델은 기존 이미지를 잘 수정함. imagegpt.com도 괜찮았지만 어떤 모델을 쓰는지는 모르겠음- 이런 피드백을 여러 번 받아서 상단 네비게이션 바를 더 눈에 띄게 해야겠다고 생각함
참고로 Qwen3-VL은 이미지 생성이나 수정이 아니라 이미지 추론용 모델임
아마 Qwen-Image-Edit을 백엔드에서 사용했을 가능성이 있음 - 내가 본 사이트에서는 기존 이미지를 수정하는 걸로 보였음
예를 들어 “대머리 남자에게 머리카락 추가” 프롬프트를 주면 원본이 수정된 결과가 나옴
기술적으로는 새 이미지를 생성하는 과정이지만, Photoshop에서 Save As 하는 것과 비슷한 개념이라 생각함
- 이런 피드백을 여러 번 받아서 상단 네비게이션 바를 더 눈에 띄게 해야겠다고 생각함
- 실제 링크는 https://genai-showdown.specr.net/image-editing 임
- 맞음, 이게 편집용 링크임. 다른 건 text-to-image용임
- 모델들이 내부적으로 여러 번 이미지를 생성하고 가장 좋은 결과만 보여주는 구조일 거라 추측함
GPT-4o는 temperature가 낮아 일관성은 높지만 창의성은 떨어지고, Midjourney는 더 높은 temperature로 풍부한 배경과 질감을 만들어냄
4o의 세피아톤은 후처리일 수도 있음
실제로는 여러 단계를 거쳐 최종 이미지를 다듬는 워크플로우일 가능성이 큼- 직접 로컬에서 이미지 모델을 돌려보면, 대부분의 호스팅 모델이 여러 번 생성하지 않고 한 번만 실행한다는 걸 알 수 있음
다만 LLM 기반 모델들은 프롬프트 재작성(prompt rewriting) 을 자주 사용함
DALL·E 3의 사례는 이 글에서 잘 설명되어 있음 - 생성 시도 횟수와 각 프롬프트별 결과를 공개하면 더 흥미로울 것 같음
- 직접 로컬에서 이미지 모델을 돌려보면, 대부분의 호스팅 모델이 여러 번 생성하지 않고 한 번만 실행한다는 걸 알 수 있음
- “Alexander the Great on a Hippity Hop”을 보고 바로 업보트했음
- 나도 그 장난감을 완전히 잊고 있었는데, 이걸 보고 어린 시절 추억이 떠올랐음
- 그래도 말 키메라 이미지가 더 마음에 듦
- 이미지 모델을 비교 테스트해보고 싶다면 BrandImageGen.com에서 무료로 시도해볼 수 있음
가입자 피드백을 기다리고 있음 - “초록 코끼리 그리지 마라” 밈은 어디 있냐고 묻고, GitHub 토론에서 제안된 걸 발견함
- 여러 이미지 생성 툴을 비교 리뷰한 글을 올림
Generative AI Review 링크 - “Editing Showdown” 덕분에 Seedream 모델을 처음 알게 됨
다만 여러 번 시도 후 다른 LLM이 평가하는 구조가 정확히 이해되지 않음. 그 자체로 정확도가 제한적이지 않을까 생각함- FAQ에 평가 기준을 명확히 적어둠
PASS/FAIL 방식으로, 프롬프트에 맞는 이미지를 한 번도 생성하지 못하면 실패로 간주함
“길거리의 아무에게 보여줘도 프롬프트를 맞출 수 있을까?”라는 피셔너리 테스트 개념임
최종 평가는 명확한 기준에 따라 수동으로 결정함 -
LLM이 LLM을 평가하는 건 업계 표준임
인간 심사자를 상자에 가둬 7600개의 결과를 평가시킬 수는 없음
물론 LLM 심사도 완벽하진 않지만, 비교 가능성과 일관성 면에서는 인간보다 낫고
이를 최적화 목표가 아니라 성능 온도계로만 쓰면 큰 문제는 없음
다만 최적화 대상으로 삼으면 GPT-5처럼 이상한 결과물이 나올 수 있음
- FAQ에 평가 기준을 명확히 적어둠