1P by GN⁺ 5일전 | ★ favorite | 댓글 1개
  • 여러 생성형 AI 이미지 편집 도구의 결과를 비교하는 형식의 콘텐츠
  • 각 도구가 동일한 입력에 대해 생성한 편집 결과를 시각적으로 비교하는 구조
  • 페이지에는 “Loading editing comparisons...”라는 문구가 표시되어, 편집 비교 로딩 중임을 나타냄
  • 제목 외에 구체적인 도구 이름, 비교 기준, 결과 설명 등은 제공되지 않음
  • 전체적으로 AI 이미지 편집 성능 비교를 위한 인터페이스로 보이지만, 세부 내용은 원문에 없음

페이지 개요

  • 제목은 “Generative AI Image Editing Showdown” 으로, 여러 AI 이미지 편집 모델의 비교를 암시
  • 본문에는 “Loading editing comparisons...”라는 문구만 존재하며, 비교 결과나 설명은 포함되지 않음
  • 추가적인 텍스트, 데이터, 이미지, 도구 목록, 평가 기준 등은 원문에 없음

제공 정보의 한계

  • 원문에 편집 결과나 비교 내용에 대한 구체적 설명 없음
  • 따라서 비교 목적, 사용된 AI 모델, 평가 방식 등은 명시되지 않음
  • 전체적으로 콘텐츠가 로딩 중인 상태로, 실질적인 정보는 제공되지 않음
Hacker News 의견
  • 모두가 Gemini 2.5 Flash Image / Nano Banana를 과소평가하고 있음
    다른 모델보다 훨씬 강력하면서도 이미지당 가격은 동일하고, 텍스트 인코더 덕분에 훨씬 복잡하고 미묘한 프롬프트를 처리할 수 있음
    내가 만든 gemimg Python 패키지로 예시를 공개했고, 더 다양한 사례를 담은 블로그 글도 준비 중임
    Google의 AI Studio에서는 비율 제어까지 가능한 무료 생성도 지원함
    다만 Seedream 4.0이 이번 테스트에서 이긴 건 의외였음

    • 사실 Nano Banana는 출시 당시 꽤 바이럴을 탔음
      ChatGPT 내장 기능이나 Ghibli 스타일 유행을 제외하면, 가장 잘 알려진 이미지 편집 모델 중 하나라고 생각함
    • Seedream이 프롬프트 충실도 면에서는 우세했지만, 약간의 색상 그라데이션 변화를 일으키는 경향이 있음
      내 용도에는 큰 문제는 아니지만, 색감 일관성이 중요한 사람에게는 Nano Banana가 더 나을 수 있음
    • Nano Banana를 사용할 때 절반 정도는 AI Studio가 이유 없이 실패했다고 나옴
      저작권 경계선에 있는 요청도 아니었는데 이런 오류가 잦음
      그래도 성공할 때는 결과가 매우 인상적
    • 내 지저분한 부엌 사진을 정리하려고 Nano Banana를 썼는데 처음엔 완전히 실패했음
      두 번째 시도에서는 먼저 이미지 분석으로 지저분한 물건 목록을 뽑고, 그다음 프롬프트로 제거하니 훨씬 나은 결과가 나왔음
      결국 프롬프트 엔지니어링의 중요성을 다시 느꼈음
    • Gemini는 잘 작동할 때는 훌륭하지만, 가끔은 완전히 엉뚱한 결과를 내고 어떤 프롬프트를 써도 맞지 않음
      Flux가 놀라울 정도로 좋지만, 대부분의 사람(나 포함)은 결국 ChatGPT나 Gemini처럼 익숙한 모델을 기본으로 쓰게 됨
  • 이런 비교는 벤치마크 차트보다 훨씬 실용적
    Nano Banana를 자주 쓰는데, 외부 건축물이나 조경 편집에는 약함
    보도, 배수로, 색상 매칭 같은 건 거의 불가능에 가까움

    • 나는 Qwen Image Edit로 낮 사진을 밤으로 바꾸는 실험을 하는데, 대부분의 모델이 엣지 정렬을 놓침
      Nano Banana도 경계 처리가 부정확해서 사진이 어긋남
  • 2022년에 기준을 세운 입장에서 보면, 지금의 데모들은 SD1·2·3 시절과 비교할 수 없을 정도로 놀라움
    이제 모델들이 프롬프트와 이미지를 실제로 이해하는 시대가 온 것 같음
    엔지니어링이 계속 발전하면서 창의성이 폭발적으로 확장되는 시기임

  • 프롬프트나 시도 횟수를 바꾸고, 가장 마음에 드는 결과만 보여주는 방식은 테스트의 객관성을 희석시킴
    모든 모델에 동일한 프롬프트와 시드로 5회 생성 같은 통일된 조건이 필요함
    예를 들어 Gemini 2.5 Flash는 “Girl with Pearl Earring” 테스트에서 과도한 자유도를 부여받았고,
    반면 OpenAI gpt-image-1은 더 적은 시도로 훨씬 나은 결과를 냈음에도 실패로 처리됨

    • 참고로 gpt-image-1 예시는 “You Only Move Twice” 테스트용이었음
    • 차라리 “최악의 이미지” 대회를 열면, 어떤 모델이 덜 답답한지 더 명확히 드러날 것 같음
  • 내가 Replicate 블로그에 올린 글에서는 여러 모델을 직접 비교했음
    그중 Qwen Image Edit가 가장 저렴하고 빠르면서도 대부분의 편집 작업을 잘 처리했음
    이미지 편집 앱을 만든다면 이 모델을 선택할 것 같음

  • 비교 자체는 흥미로웠지만, 마지막 기린 이미지는 단순히 몸이 구부러졌을 뿐 짧아지지 않았음
    그래도 Gemini 결과를 자주 선택하게 됐고, pass/fail 대신 10점 척도 평가가 있었으면 좋겠음

    • “어색하게 구부러진 기린”이라는 표현이 너무 웃겼음
      그런 전시가 실제로 있다면 꼭 가보고 싶음
  • 최근에는 AI 이미지 생성을 거의 안 함
    1년 반 전쯤엔 로컬에서 직접 모델을 돌리는 게 유행이었지만, 지금은 대부분 클라우드 기반으로 옮겨감
    그래도 현실 사진 편집에서는 여전히 어딘가 부자연스러운 질감이 느껴짐
    예를 들어 사람 머리카락이 과하게 윤기 나거나, 나무가 플라스틱처럼 보임

    • 이미지 모델의 크기와 연산 요구량이 너무 커져서 개인이 셀프 호스팅하기 어려워졌음
      Flux Kontext를 로컬에서 돌릴 수는 있지만, 양자화된 모델로 느리게 생성해야 해서 비효율적임
      게다가 ChatGPT에서 무료로 이미지를 만들 수 있으니 굳이 로컬을 고집할 이유가 줄었음
      머리카락 테스트에서는 Gemini 2.5 Flash만이 색감과 질감을 제대로 맞췄고,
      Seedream 4는 전체 색보정이 바뀌는 문제가 있어서 선호하지 않음
  • Reve도 테스트에 포함되면 좋겠다고 생각함

    • Nano Banana로는 캐릭터의 시선 변경이 잘 안 됐는데, Reve는 첫 시도에 완벽한 결과를 냈음
      캐릭터가 들고 있던 물체를 제거하고, 시선을 카메라로 돌리며, 자세까지 자연스럽게 조정했음
      게다가 4개의 결과 모두 사용 가능할 정도로 품질이 높았음
      이후 Reve의 모델 소개 글을 읽고 바로 가입을 결심했음
    • 추천 고마움, 나중에 테스트 목록에 추가해볼 예정임
    • 좋은 팁 감사함
  • 시도는 좋았지만, “그림 속 탑이 오른쪽으로 기울어져 있다” 같은 잘못된 프롬프트는 오히려 모델이 더 기울게 만듦

    • 그 문장은 실제 입력 프롬프트가 아니라 시작용 문장이었음
      모델별로 프롬프트를 조정하기 때문에 시도 횟수가 달라졌던 것임
  • 전체적으로 재미있는 테스트였음
    프롬프트가 완벽하지 않다는 지적도 있지만, 오히려 일반 사용자가 입력할 법한 수준이라 현실적임

    • 나는 SD 1.5 시절부터 프롬프트를 다뤄왔기 때문에 모델별로 필요한 프롬프트 변형을 잘 알고 있음
      FAQ에 설명된 것처럼, 모델이 특정 단어에 갇히지 않도록 여러 버전의 프롬프트를 시도함
      예를 들어 “Turn on the lights” 같은 명령형 문장은 단순한 지시가 아니라,
      멀티모달 LLM의 이해력을 시험하기 위한 프롬프트임
      이런 문장은 SDXL 같은 전통 모델에서는 절대 통하지 않음