1P by GN⁺ 1일전 | ★ favorite | 댓글 1개
  • 여러 이미지 생성 AI 모델을 동일한 프롬프트로 테스트하여, 정확성·창의성·일관성을 평가한 실험 프로젝트
  • OpenAI 4o, Gemini 2.5 Flash, Imagen 4, Seedream 4, FLUX.1 dev, Midjourney v7 등 총 14개 모델이 참가함
  • 모든 모델은 인페인팅이나 편집 기능 없이, 주어진 설명만으로 이미지를 생성
  • 각 테스트는 명확한 최소 통과 기준을 두고, 시각적 요소의 충족 여부를 기준으로 성공률을 계산함
  • 결과는 모델 간의 성능 격차를 드러내며, 복잡한 개념 이해나 수학적 구조 생성이 여전히 어려움을 보여줌

실험 개요

  • 엄격한 규칙기반으로 각 모델의 순수 생성 능력을 평가한 비교 벤치마크 실험
    • 인페인팅, 리믹스, 후속 수정 지시 등의 기능은 모두 금지
    • 각 모델은 프롬프트당 수십 번의 시도만 허용됨
  • 평가 기준은 정확한 시각적 조건 충족 여부를 중심으로 함

주요 테스트 결과

  • The Prussian Ring Toss
    • 프러시아 병사가 서로의 스파이크 헬멧에 고리를 던지는 장면
    • 6개 모델 중 5개가 조건 충족, 가장 높은 성공률
  • Nine-Pointed Star
    • 9개의 꼭짓점을 가진 별을 정확히 생성해야 하는 과제
    • 대다수 모델이 짝수 형태로 수렴해 실패, 3개만 성공
  • Spheron
    • 알렉산더 대왕이 ‘Hippity Hop’ 장난감을 타고 전투하는 유화 스타일 그림
    • 역사적 맥락과 현대적 오브젝트 결합 능력 평가, 4개 모델만 성공
  • Cubed⁵
    • 빨강–파랑–초록–보라–노랑 순서로 투명한 유리 큐브 5개를 수직으로 쌓는 장면
    • 5개 모델이 정확히 재현, 세로 비율이 결과 품질에 큰 영향
  • Cephalopodic Puppet Show
    • 문어의 8개 다리 각각에 양말 인형을 씌운 장면
    • 개념적 이해가 필요한 테스트로, 절반만 조건 충족

추가 테스트 사례

  • Quantum Entangled Einstein: 아인슈타인과 양자역학 관련 아이디어 전구 묘사 → 3/6 성공
  • The Yarrctic Circle: 얼음으로 된 의족을 단 북극 해적 이미지 → 6/6 전원 성공
  • The Labyrinth: 입구·출구·경로가 명확한 2D 미로 생성 → 1/6 성공
  • A Dicey Situation: 20면체 주사위(D20)에 소수만 새겨진 면 구현 → 0/6 전원 실패

분석 및 시사점

  • 단순한 시각적 스타일보다 논리적 구조와 규칙 기반 묘사에서 오류가 빈번함
  • 특히 텍스트·숫자·대칭 구조·색 순서 등 정밀한 조건이 있는 프롬프트에서 실패율이 높음
  • 반대로 감정적이거나 상상력이 요구되는 서사형 프롬프트에서는 비교적 높은 일관성을 보임
  • 전반적으로, GenAI 모델들은 여전히 복합 개념 이해와 구조적 재현력의 한계를 드러냄

요약

  • 이번 실험은 텍스트-투-이미지 모델 간의 ‘진짜 이해력’ 을 가늠하게 하는 흥미로운 시도임
  • Midjourney와 OpenAI 4o 등 최신 모델도 일부 논리적 장면에서는 완벽히 실패
  • 결과는 “텍스트를 이해하는 것”과 “그 의미를 정확히 시각화하는 것”은 다른 문제임을 보여줌
  • 향후 모델 발전의 핵심 과제는 언어적 맥락과 시각적 구조 간의 정합성 개선으로 보임
Hacker News 의견
  • GPT-4o를 쓰면서 회사가 도덕적 판단자처럼 굴어 사용자의 요청을 자주 거부하는 게 정말 짜증남
    합법적인 일조차 “허용되지 않는다”고 막는 게 마치 1964년의 검열을 기업이 강제하는 느낌임
    GPT-5는 또 대화 시작마다 “좋은 질문이에요”, “훌륭한 관찰이에요” 같은 아첨 섞인 멘트로 시작해서 더 못 견디겠음
    • 사람들이 Altman이 ChatGPT에서 NSFW 허용한 걸 비판했지만, 나는 그게 기업 검열 완화로 가는 올바른 방향이라 생각함
      사용자 선호 데이터를 RLHF로 학습시키면 모델이 아첨병이 되는 부작용이 생김
      지금 주요 LLM들이 다 그런 상태지만, 그래도 GPT-4o보다는 낫다고 봄
    • 중국계 모델들을 써보면 훨씬 제한이 적음, 물론 몇 가지 예외는 있음
    • 기업용 소프트웨어 중 NSFW 허용하는 걸 본 적이 없음
      ChatGPT는 기업 대상 제품이라, 만약 폭력적이거나 선정적인 이미지를 만들 수 있다면 대기업이 절대 구매하지 않을 것임
      Fortune 500 기업 소프트웨어 구매 담당자로 일했던 경험상 100% 확신함
  • 기사에 날짜가 없어서 이상했는데, Wayback을 보니 text-to-image 페이지는 4월, image editing 페이지는 9월에 추가된 걸 확인함
    날짜가 없으니 처음 보면 동시에 만들어진 것처럼 보임
    • SEO 담당자들이 날짜 없는 글이 검색엔진에 더 잘 걸린다고 설득해서 그런 듯함
      그들의 베개 양쪽이 다 뜨겁길 바람
    • 맞음, 꽤 오래된 내용임. 요즘 AI에서는 일주일만 지나도 구식이 됨
  • 처음엔 “image editing”이란 용어가 헷갈렸음
    실제론 새 이미지를 생성하는 기능인데, 기존 이미지를 수정하는 의미로 쓰인 듯함
    Qwen3-VL-30B-A3B 같은 멀티모달 모델은 기존 이미지를 잘 수정함. imagegpt.com도 괜찮았지만 어떤 모델을 쓰는지는 모르겠음
    • 이런 피드백을 여러 번 받아서 상단 네비게이션 바를 더 눈에 띄게 해야겠다고 생각함
      참고로 Qwen3-VL은 이미지 생성이나 수정이 아니라 이미지 추론용 모델
      아마 Qwen-Image-Edit을 백엔드에서 사용했을 가능성이 있음
    • 내가 본 사이트에서는 기존 이미지를 수정하는 걸로 보였음
      예를 들어 “대머리 남자에게 머리카락 추가” 프롬프트를 주면 원본이 수정된 결과가 나옴
      기술적으로는 새 이미지를 생성하는 과정이지만, Photoshop에서 Save As 하는 것과 비슷한 개념이라 생각함
  • 실제 링크는 https://genai-showdown.specr.net/image-editing
    • 맞음, 이게 편집용 링크임. 다른 건 text-to-image용임
  • 모델들이 내부적으로 여러 번 이미지를 생성하고 가장 좋은 결과만 보여주는 구조일 거라 추측함
    GPT-4o는 temperature가 낮아 일관성은 높지만 창의성은 떨어지고, Midjourney는 더 높은 temperature로 풍부한 배경과 질감을 만들어냄
    4o의 세피아톤은 후처리일 수도 있음
    실제로는 여러 단계를 거쳐 최종 이미지를 다듬는 워크플로우일 가능성이 큼
    • 직접 로컬에서 이미지 모델을 돌려보면, 대부분의 호스팅 모델이 여러 번 생성하지 않고 한 번만 실행한다는 걸 알 수 있음
      다만 LLM 기반 모델들은 프롬프트 재작성(prompt rewriting) 을 자주 사용함
      DALL·E 3의 사례는 이 글에서 잘 설명되어 있음
    • 생성 시도 횟수와 각 프롬프트별 결과를 공개하면 더 흥미로울 것 같음
  • “Alexander the Great on a Hippity Hop”을 보고 바로 업보트했음
    • 나도 그 장난감을 완전히 잊고 있었는데, 이걸 보고 어린 시절 추억이 떠올랐음
    • 그래도 말 키메라 이미지가 더 마음에 듦
  • 이미지 모델을 비교 테스트해보고 싶다면 BrandImageGen.com에서 무료로 시도해볼 수 있음
    가입자 피드백을 기다리고 있음
  • “초록 코끼리 그리지 마라” 밈은 어디 있냐고 묻고, GitHub 토론에서 제안된 걸 발견함
  • 여러 이미지 생성 툴을 비교 리뷰한 글을 올림
    Generative AI Review 링크
  • “Editing Showdown” 덕분에 Seedream 모델을 처음 알게 됨
    다만 여러 번 시도 후 다른 LLM이 평가하는 구조가 정확히 이해되지 않음. 그 자체로 정확도가 제한적이지 않을까 생각함
    • FAQ에 평가 기준을 명확히 적어둠
      PASS/FAIL 방식으로, 프롬프트에 맞는 이미지를 한 번도 생성하지 못하면 실패로 간주함
      “길거리의 아무에게 보여줘도 프롬프트를 맞출 수 있을까?”라는 피셔너리 테스트 개념임
      최종 평가는 명확한 기준에 따라 수동으로 결정함
    • LLM이 LLM을 평가하는 건 업계 표준임
      인간 심사자를 상자에 가둬 7600개의 결과를 평가시킬 수는 없음
      물론 LLM 심사도 완벽하진 않지만, 비교 가능성과 일관성 면에서는 인간보다 낫고
      이를 최적화 목표가 아니라 성능 온도계로만 쓰면 큰 문제는 없음
      다만 최적화 대상으로 삼으면 GPT-5처럼 이상한 결과물이 나올 수 있음