GenAI 이미지 대결(Showdown)

▲

GN⁺ 6달전 | parent | ★ favorite | on: GenAI 이미지 대결(Showdown)(genai-showdown.specr.net)

Hacker News 의견

GPT-4o를 쓰면서 회사가 도덕적 판단자처럼 굴어 사용자의 요청을 자주 거부하는 게 정말 짜증남
합법적인 일조차 “허용되지 않는다”고 막는 게 마치 1964년의 검열을 기업이 강제하는 느낌임
GPT-5는 또 대화 시작마다 “좋은 질문이에요”, “훌륭한 관찰이에요” 같은 아첨 섞인 멘트로 시작해서 더 못 견디겠음
- 사람들이 Altman이 ChatGPT에서 NSFW 허용한 걸 비판했지만, 나는 그게 기업 검열 완화로 가는 올바른 방향이라 생각함
  사용자 선호 데이터를 RLHF로 학습시키면 모델이 아첨병이 되는 부작용이 생김
  지금 주요 LLM들이 다 그런 상태지만, 그래도 GPT-4o보다는 낫다고 봄
- 중국계 모델들을 써보면 훨씬 제한이 적음, 물론 몇 가지 예외는 있음
- 기업용 소프트웨어 중 NSFW 허용하는 걸 본 적이 없음
  ChatGPT는 기업 대상 제품이라, 만약 폭력적이거나 선정적인 이미지를 만들 수 있다면 대기업이 절대 구매하지 않을 것임
  Fortune 500 기업 소프트웨어 구매 담당자로 일했던 경험상 100% 확신함
기사에 날짜가 없어서 이상했는데, Wayback을 보니 text-to-image 페이지는 4월, image editing 페이지는 9월에 추가된 걸 확인함
날짜가 없으니 처음 보면 동시에 만들어진 것처럼 보임
- SEO 담당자들이 날짜 없는 글이 검색엔진에 더 잘 걸린다고 설득해서 그런 듯함
  그들의 베개 양쪽이 다 뜨겁길 바람
- 맞음, 꽤 오래된 내용임. 요즘 AI에서는 일주일만 지나도 구식이 됨
처음엔 “image editing”이란 용어가 헷갈렸음
실제론 새 이미지를 생성하는 기능인데, 기존 이미지를 수정하는 의미로 쓰인 듯함
Qwen3-VL-30B-A3B 같은 멀티모달 모델은 기존 이미지를 잘 수정함. imagegpt.com도 괜찮았지만 어떤 모델을 쓰는지는 모르겠음
- 이런 피드백을 여러 번 받아서 상단 네비게이션 바를 더 눈에 띄게 해야겠다고 생각함
  참고로 Qwen3-VL은 이미지 생성이나 수정이 아니라 이미지 추론용 모델임
  아마 Qwen-Image-Edit을 백엔드에서 사용했을 가능성이 있음
- 내가 본 사이트에서는 기존 이미지를 수정하는 걸로 보였음
  예를 들어 “대머리 남자에게 머리카락 추가” 프롬프트를 주면 원본이 수정된 결과가 나옴
  기술적으로는 새 이미지를 생성하는 과정이지만, Photoshop에서 Save As 하는 것과 비슷한 개념이라 생각함
실제 링크는 https://genai-showdown.specr.net/image-editing 임
- 맞음, 이게 편집용 링크임. 다른 건 text-to-image용임
모델들이 내부적으로 여러 번 이미지를 생성하고 가장 좋은 결과만 보여주는 구조일 거라 추측함
GPT-4o는 temperature가 낮아 일관성은 높지만 창의성은 떨어지고, Midjourney는 더 높은 temperature로 풍부한 배경과 질감을 만들어냄
4o의 세피아톤은 후처리일 수도 있음
실제로는 여러 단계를 거쳐 최종 이미지를 다듬는 워크플로우일 가능성이 큼
- 직접 로컬에서 이미지 모델을 돌려보면, 대부분의 호스팅 모델이 여러 번 생성하지 않고 한 번만 실행한다는 걸 알 수 있음
  다만 LLM 기반 모델들은 프롬프트 재작성(prompt rewriting) 을 자주 사용함
  DALL·E 3의 사례는 이 글에서 잘 설명되어 있음
- 생성 시도 횟수와 각 프롬프트별 결과를 공개하면 더 흥미로울 것 같음
“Alexander the Great on a Hippity Hop”을 보고 바로 업보트했음
- 나도 그 장난감을 완전히 잊고 있었는데, 이걸 보고 어린 시절 추억이 떠올랐음
- 그래도 말 키메라 이미지가 더 마음에 듦
이미지 모델을 비교 테스트해보고 싶다면 BrandImageGen.com에서 무료로 시도해볼 수 있음
가입자 피드백을 기다리고 있음
“초록 코끼리 그리지 마라” 밈은 어디 있냐고 묻고, GitHub 토론에서 제안된 걸 발견함
여러 이미지 생성 툴을 비교 리뷰한 글을 올림
Generative AI Review 링크
“Editing Showdown” 덕분에 Seedream 모델을 처음 알게 됨
다만 여러 번 시도 후 다른 LLM이 평가하는 구조가 정확히 이해되지 않음. 그 자체로 정확도가 제한적이지 않을까 생각함
- FAQ에 평가 기준을 명확히 적어둠
  PASS/FAIL 방식으로, 프롬프트에 맞는 이미지를 한 번도 생성하지 못하면 실패로 간주함
  “길거리의 아무에게 보여줘도 프롬프트를 맞출 수 있을까?”라는 피셔너리 테스트 개념임
  최종 평가는 명확한 기준에 따라 수동으로 결정함
- LLM이 LLM을 평가하는 건 업계 표준임
  인간 심사자를 상자에 가둬 7600개의 결과를 평가시킬 수는 없음
  물론 LLM 심사도 완벽하진 않지만, 비교 가능성과 일관성 면에서는 인간보다 낫고
  이를 최적화 목표가 아니라 성능 온도계로만 쓰면 큰 문제는 없음
  다만 최적화 대상으로 삼으면 GPT-5처럼 이상한 결과물이 나올 수 있음