GN⁺ 8달전 | parent | ★ favorite | on: Gemini 2.5 Flash Image(developers.googleblog.com)
Hacker News 의견
  • 이것이 바로 이미지 편집 모델 분야의 gpt 4 시점임을 느낌
    Nano banana라고 불리는 gemini 2.5 flash가 믿기지 않을 정도로 뛰어남
    lmarena에서 무려 171 elo 포인트 상승을 기록함
    Twitter에서 nano banana로 검색하면 엄청난 결과들을 볼 수 있음
    예시로 이 트윗 참고

    • 몇 주 동안 직접 테스트해 봄
      정말 인상적인 결과물이 나오기도 하지만, 원하는 이미지를 얻으려면 프롬프트를 여러 번 반복해서 시도해야 하는 상황임
      만능은 아니지만 확실히 엄청난 발전이고 현존하는 최고 수준임

    • 세 번째 예시에서 손이 이상하게 표현되는 점이 있음
      어느 방향으로 놓일지 모델이 결정하지 못하는 듯 보임
      다만 이건 gemini가 만든 문제가 아니라, 원본 이미지에 있던 문제임

    • "nano banana"와 관련된 모든 조합이 고유한 UI를 가진 도메인으로 등록된 것처럼 보임
      인기있는 모델명을 활용하는 중간 마진업자들이 신용(credit) 차익을 노리고 있는 것 아닌지 궁금함

    • AI가 등장하기 전에는 구글이 세계적 엔지니어 인재를 광고 판매에만 쓴다며 비판이 많았음
      하지만 AI 시대가 도래하면서 그 인재들이 이제 시제품 광고(프로덕트 플레이스먼트)에 활용될 수 있게 됨
      정말 멀리 온 것 같음

    • 또 다른 아쉬운 점은 핑크색 패딩 점퍼가 편집된 모습이 참고 이미지와 미묘하게 다름
      상품 홍보용으로 이 모델을 사용하거나 세부사항에 민감하다면 불만이 생길 수 있을 것 같음

  • GenAI 이미지 비교 사이트를 업데이트했음
    이 사이트는 텍스트-이미지 프롬프트 준수에 엄격히 초점을 맞추고 있음
    새로운 Google Gemini 2.5 Flash 모델(nano-banana)도 반영됨
    모델이 12개의 프롬프트 중 8개를 정확히 맞추고, 최고 모델들인 Imagen 및 gpt-image-1에 거의 근접하는 결과를 냄
    이전 Gemini Flash 2.0 대비 큰 업그레이드임
    1위인 gpt-image-1은 미로와 9각별에서만 근소하게 앞섬
    gpt-image-1이 거의 6개월 동안 선두를 지켜온 점이 가장 놀라운 사실임 (이 분야에서는 6개월이 거의 영원과 같음)
    다만 gpt-image-1은 "에디터"로서는 거의 쓸모가 없는데, 이미지를 전체적으로 바꾸지, Kontext, Qwen, Nano-Banana처럼 인페인팅(일부만 수정) 방식이 아님
    OpenAI_4O, Imagen_4, Gemini Flash 2, Nano-Banana 등 비교 링크

    • 문장 편집 벤치마크가 별도로 필요함을 느낌

    • gpt-image-1이 "에디터"로서는 무용지물
      이 글을 찾으려고 쓰레드를 들어왔음
      모델별 프롬프트 준수를 비교하기에 정말 좋은 접근이라 생각함
      최근 인페인팅 스타일 프롬프트가 떠오르고 있는 만큼 편집 기능도 추가할 생각 있는지 궁금함

    • 왜 Hunyuan, OpenAI 4o, Gwen은 문어 테스트에서 통과 처리되는지 잘 모르겠음
      "각 촉수"를 모두 커버하지 않았음
      Midjourney는 양말 인형을 8개 팔에 9개나 입힘

    • Imagen 4와 Gemini 2.5 Flash 이미지 결과물이 일부 테스트 케이스에서 너무 비슷하게 보여 흥미로움
      아마 Gemini 2.5 Flash가 백그라운드에서 먼저 Imagen(확산모델)으로 베이스라인 이미지를 만들고, Gemini 쪽에서 프롬프트 준수를 위해 그 위에 편집을 더하는 방식일 가능성이 있음

    • 사이트가 정말 마음에 듦
      혹시 다양한 모델들이 스타일 가이드(동일한 스타일로 그린 일러스트 등)를 얼마나 잘 지키는지도 비교하는 사이트를 아는지?
      개인적으로 이런 기능을 사이트에 추가해주면 좋겠음
      예를 들어 한 작가 스타일로 여러 그림을 제공한 뒤, 동일한 스타일로 일러스트를 만들 수 있는지 비교하고 싶음
      책 삽화 등에서 일관된 스타일이 필요한 경우 매우 유용할 것 같음

  • Gemini 2.5 Flash Image만이 유일하게 여러 이미지를 한 번에, 이상한 꼼수 없이 다룰 수 있음
    예를 들어 Flux Kontext는 "첫 번째 이미지를 두 번째 이미지에 합성"하려면 번거롭게 사전에 이미지를 결합해야 함
    하지만 이 모델은 그런 불편함 없이 사용 가능하며, 심지어 두 개 이상 이미지를 넣을 수도 있음(물론 너무 많으면 혼란스러워질 수 있음)
    간단히 테스트해본 바로는 긴 프롬프트일 때도 준수도가 좋고 구문적 표현이 더 효과적으로 작동하는 듯 보임
    아직 다 밝혀지지 않은, 더 많은 제어 방법도 있을 것 같아 계속 실험 중임
    가격도 경쟁 모델들과 비슷해 시장에 큰 변화를 가져올 거라 기대함

    • 이 기능이 정말 재밌음
      옆집 이웃이 휴가 중이라 물고기 밥을 주고 있음
      물고기 어항 사진을 찍어서 Gemini에게 "도시 명소에 어항 놓기" 프롬프트로 생성하고 있음
      매일 한 장씩 보내주니 이웃이 아주 좋아함
      이런 작은 장난이 서로의 일상에 웃음을 더해줌
  • 아쉽게도 다른 AI 제품들과 마찬가지로 지나치게 엄격한 안전정책이 적용되는 문제가 있음
    프롬프트 절반이 거절당함
    인간 편집이 불가능하다면 캐릭터 일관성 유지는 어떻게 할 수 있을지 의문임
    나는 대부분 사람을 포함하는 사진을 편집하려고 하지만 이 모델로는 불가능함
    구글이 딥페이크 문제를 의식하는 건 이해하지만, 어차피 이 방향은 막을 수 없고 결국 사회가 적응해야 할 운명임
    도구가 점점 사용자를 제한하는 추세가 답답함
    결국 자유를 되찾기 위한 새로운 OSS 운동이 필요하다고 생각함

    • 어릴 때 크리스마스 옷을 입고 같이 찍은 연인과 그녀의 사촌 사진이 하나 있음
      두 사람은 오랜 기간 서로 떨어져 살아 지금은 소중한 추억임
      사진 자체의 상태가 나쁠 뿐만 아니라, 품질도 저화질임
      그런데 아직까지 그 어떤 AI 모델도 이를 복원해주지 않음

    • 이틀 전에 Veo를 무료로 사용해 영상 제작을 시도함
      아무렇지 않은 단어들까지 모두 지웠지만 여전히 거부당했음
      아마 "나 자신"을 생성하려 한 게 문제였던 것 같아 결국 포기함

  • 가족 사진을 디지털로 변환했는데, 색상 편향, 얼룩, 손자국, 필름 얼룩 등 복구가 까다로운 손상이 많음
    수백 장을 일일이 고치기는 어렵기에 AI 기반 이미지 생성이 세부 디테일(특히 얼굴)을 바꾸지 않고, 대량으로 복구할 만큼 발전하길 기다려왔음
    이 모델은 디테일을 보존하면서 잃어버린 부분만 복원해주는 데 꽤 좋아 보여서 이제 시도해볼 때가 온 것 같음

    • 위에서 언급한 모든 손상은 아이스(ICE) 기능이 포함된 필름 스캐너와 자동 복원 소프트웨어(Vuescan 등)를 통해 자동으로 고칠 수 있음
      수백~수천 장의 사진을 실험적이고 독점적인 클라우드 AI에 올려, 이상한 압축 및 아티팩트가 섞인 품질 미달의 결과만 받을 필요는 없다는 생각임

    • 이런 활용법의 의미를 잘 모르겠음
      손상 없는 사진을 상상만 해도 되는 것 아닌지?
      폰 카메라 AI 업스케일링도 마찬가지
      멀리 있는 무언가를 보고 싶으면 그냥 상상하면 됨
      결국 AI 도구가 포토샵 숙련자가 직접 툴로 할 수 있는 일을 자동화해주는 수준이 필요하다고 생각함
      새로운 디테일을 임의 생성하는 건 시간 낭비처럼 느껴짐

    • 혹시 비디오 파일을 복원/향상해주는 소프트웨어를 아는지 궁금함
      어머니의 2000년대 비디오 및 VHS 카세트를 디지털화하는 중임
      디지털화 세팅은 이미 되어 있지만, 비디오의 화질을 더 향상시키고 싶음

    • 잘 사용되길 바람
      예시 중 "사진 복원" 프롬프트의 결과물을 보면, 여성의 얼굴에 AI 특징이 강하게 드러남
      물론 시간이 지나면 더 개선되리라 기대함

    • 몇 달 전에 이미 Flux Kontext(https://bfl.ai/models/flux-kontext)에서 그 단계에 도달했다 생각함

  • Gemini 2.5 Flash Image에서 생성/편집한 모든 이미지는 SynthID라는 보이지 않는 디지털 워터마크가 삽입되어 AI 생성/편집 여부를 표시하게 됨
    목적과 선의는 이해하지만, 이제는 성인이 스스로 책임지는 게 아니라 대기업이 할 수 있는 일과 없는 일을 정해주는 상황이 아쉬움
    감시받는 느낌임

    • 인간이 기술을 쓸 때 과연 책임 있는 어른이었던 적이 있었냐고 되묻고 싶음
      딥페이크는 이미 현실 인식의 불안을 더욱 악화시킬 가능성이 큼
      수많은 가짜에 속는 이들도, 이제 어떤 것도 믿지 않는 이들도 생길 수 있음
      정치인들은 자신에게 불리한 영상이 등장할 때 "가짜"라고 주장할 것임
      이미 어느 정도 포스트-팩트 시대를 살고 있지만, 앞으로는 상황이 더 심각해질 것임

    • 사실상 사용자가 만든 이미지라고 보기 어려움
      예를 들어 예술가가 의뢰받은 작품에 워터마크를 넣더라도, 그림이 본인 작업임을 알리는 것뿐이고 그걸 "고자질"이라 볼 수 없음
      꼭 그런 의도로 말한 것은 아닐 수도 있지만, 한번쯤 생각해 볼 가치가 있겠음

    • "숨길 게 없으면 두려울 것도 없다" 식 논리에 동의하지는 않지만, AI 생성/편집 이미지 워터마크가 왜 문제되는지 궁금함
      참고로, 개인적으로는 AI 이미지는 워터마크가 필수라고 생각함

    • 이 모델을 꼭 써야 하는 것도 아니니 개인적으로는 문제라 생각하지 않음

    • 기술의 군비 경쟁임
      removemysynthid.com 참고

  • 대부분의 이미지 생성기처럼 피아노 건반 테스트에서 실패함(검은 건반이 잘못됨)
    테스트 예시

    • 피아노 건반 테스트란 무엇인지 궁금함
      링크는 AI Studio에 구글 드라이브 접근권한을 요구해서 사용하기 어렵다고 느낌

    • 개념 공간에 아이디어(예: 8음 반복 등)까지 포함하는 모델이 있는지 궁금함
      피아노를 표현할 때 "피아노" 단어 근처의 단어만으로는 고정된 개념(예: 반복되는 옥타브)을 나타내는 데 약해서, 이 부분이 부족한 듯함
      단어만으로는 이미지와 의미를 일관성 있게 연결하기 어려운 것 같다고 느낌

    • 이 모델의 진짜 강점은 생성 품질 그 자체보다는, "세대 간의 일관성"에 있는 듯함
      예시 링크

    • 흥미로움
      실제 피아노를 접해본 사람은 금방 이상하다고 눈치챌만큼, 텍스트 렌더링 테스트와 비슷하게 "겉보기에는" 비슷한 이미지를 뽑아내지만 실제로는 틀린 경우임
      일반적인 프롬프트라면 그냥 구글 이미지 첫 결과를 가져다 "여기 피아노 키보드 사진 가져왔어" 같은 형태도 무난하게 받아들일 듯함

    • 내 수평 텍스트 테스트에서도 실패함

  • 포크/스파게티, 패션 버블 예시를 직접 재현하려 했는데 공식 결과와 매우 다름
    출력 결과 역시 일관성 있음
    광고 페이지에서 이미지를 복사해 사용해서 해상도가 다를 수 있지만, 프롬프트는 똑같이 썼음
    사용 중인 것이 새로운 모델이 맞는 것 같고, 이전과 비교하면 정말 큰 발전임

    • 결과물의 일관성이 흥미로움
      나만의 이미지 모델 표준 테스트용 세대 여러 번 돌려봤는데(아직까지 피아노 옥타브를 제대로 그리는 모델은 한 번도 못 봄), Gemini 2.5 Flash Image도 예외 아님
      여러 번 해서 결과 비교해보면 전혀 변화가 없음
      ChatGPT는 에디터 프롬프트를 주면 원했던 변경 외 다른 부분도 바뀌는 경우가 많았으나, 여기선 그런 변화가 아예 없는 상황임
      이미지 예시

    • 광고에서 보여주는 것보다 실제 결과물이 훨씬 평범하거나 모호하게 나타남
      예시에서 버블 서브젝트 생성도 그저 피사체 속에 모호한 거품 모양을 생성할 뿐임
      포크 예시는 국수 위에 포크만 추가됨
      두 케이스 다 실제로는 프롬프트를 더 잘 따른다고도 볼 수 있지만, 보기에 덜 인상적인 결과임

  • 포토샵 전문가가 안 된 것이 다행이라고 느낌
    한때 매력적으로 여긴 적 있지만 결국 선택하지 않아 다행임
    이제 nano-banana 하나면 충분함
    다른 모델들도 곧 따라올 예정이라 확신함
    r/photoshopbattles 커뮤니티도 이젠 안녕임

    • 리터칭은 하나의 예술임
      전문가에게는 이런 AI도 효율을 높이는 또 다른 도구에 불과함
      포토샵을 쓸 줄 아는 것만이 아니라, 현명한 판단력이 중요함
      물론 일이 늘지 않는다면, 같은 업무를 더 적은 리터처들이 할 가능성도 있다고 봄
      단가가 내려가면 모두가 더 많은 리터칭을 할까? 그건 잘 모르겠음

    • 흥미로운 견해임
      나는 프로그래머지만 2000년대 초 포토샵도 배워서 이미지 편집을 정말 즐겼음
      지금의 생성모델이 그 시절 내가 만들던 것보다 훨씬 잘 나오긴 하지만, 이 경험과 실력이 전혀 무의미하다고 생각하지 않음
      실제로 AI 결과물을 다듬는 데 포토샵(또는 요즘은 Affinity Designer/Photo)이 엄청나게 유용함
      후회한 적 없음

    • 10년 전에 이 댓글을 썼다면, 적어도 프로그램과 실력은 내 소유이고 Google이 구독료를 올리거나 서비스 중단해도 내 것이었을 거라는 말을 했을 것임
      이제는 PS도 구독제이고, 괜찮은 공개 모델이 나올 날을 기다려야 함

    • 포토샵은 여전히 쓸모 있음
      AI 이미지는 훌륭하지만, 베이스 컴포지션은 직접 만들고 싶고, AI 결과물의 아티팩트 정리나 다양한 AI 레이어 합성엔 여전히 수작업 스킬이 필수임

    • 결국 프로그래밍 등 다른 분야도 자동화에 무너질 운명임
      단지 시간이 조금 더 걸릴 뿐임(5~10년?)
      엔지니어링은 실수와 기술적 부채 때문에 시간이 더 오래 걸릴 수 있음
      이미지는 망치면 다시 뽑으면 되지만, 프로그램은 망치면 직후 유지보수 불가능한 코드덩어리가 됨
      그러나 언젠가는 이 흐름이 우리 분야에도 닥칠 것임

  • Gemini에게 이미지 생성을 요청하면 절반은 불가 답변이 옴
    구글의 기능은 실제로 써보기가 너무 힘든 느낌임
    어떤 건 한 제품에, 어떤 건 또 다른 제품에 흩어져 있고, 어디서 접근해야 하는지도 혼란스러움

    • 맞음
      웹사이트에서 "Gemini에서 사용해보세요"라고 안내하는데, 정작 Gemini 2.5 Flash를 선택하면 내가 이걸 제대로 쓰고 있는 건지조차 헷갈림

    • Gemini 앱이나 사이트에서는 아예 해당 모델이 없음
      AI Studio 등 다른 경로로 사용해야 함
      구글 측 UI/UX가 전반적으로 정말 헷갈림