Gemini 2.5 Flash Image

(developers.googleblog.com)

Google이 최첨단 이미지 생성 및 편집 모델인 Gemini 2.5 Flash Image를 공개함
사용자는 여러 이미지를 하나로 합성, 캐릭터 일관성 유지, 자연어 기반의 타겟 이미지 변환 기능을 활용 가능함
이 모델은 Google AI Studio, Gemini API, Vertex AI 등을 통해 개발자와 엔터프라이즈에 제공됨
이미지 합성, 템플릿 기반 생성, 프로그래머블 편집 등 다양한 활용 예제가 마련되어 있음
AI가 만든 이미지에는 인비저블 디지털 워터마크 SynthID가 삽입되어, 생성/편집 이미지임을 식별 가능함

Gemini 2.5 Flash Image 소개

Google은 Gemini 2.5 Flash Image(코드명 nano-banana)를 공개함. 이 모델은 이미지 생성·편집, 다중 이미지 합성, 캐릭터 일관성 유지, 자연어 명령 기반 포괄적 이미지 수정 기능 등을 지원함. 또한 Gemini의 세계 지식을 활용해 기존 이미지 생성 모델 대비 심도 있는 편집 및 생성 품질을 제공함

Gemini 2.0 Flash의 이전 버전은 낮은 지연 시간, 비용 효율성, 사용 편의성을 제공하는 장점이 있었으나, 커뮤니티 요구에 따라 더 높은 품질과 창의적 제어 기능이 강화됨

이 모델은 Gemini API, Google AI Studio, Vertex AI를 통해 프리뷰 형태로 즉시 사용 가능함. 가격은 100만 출력 토큰당 $30.00이며, 한 이미지마다 1290 토큰($0.039)으로 과금됨. 입력과 출력의 여타 모달리티도 Gemini 2.5 Flash 가격 정책을 따름

실제 활용 사례

Google AI Studio의 build mode를 새롭게 개편해, 커스텀 AI 앱으로 Gemini 2.5 Flash Image 기능을 손쉽게 테스트·개발할 수 있음. 직접 프롬프트로 앱을 만들거나, 사전 제공 템플릿을 자유롭게 리믹스해 사용할 수 있음. 완성된 앱은 AI Studio에서 바로 배포하거나, 코드를 GitHub에 저장 가능함

예시 프롬프트: “사용자가 이미지를 업로드하고 다양한 필터를 적용하는 이미지 편집 앱을 만들어줘”

캐릭터 일관성 유지

이미지 생성에서 핵심 난제였던 캐릭터나 오브젝트의 외형 일관성을 효과적으로 유지 가능함. 동일한 인물을 여러 환경에 자연스럽게 배치, 한 제품을 다양한 각도 및 설정에서 제작, 브랜드 관련 에셋의 일관성 있는 생성 등이 가능함

Google AI Studio의 맞춤형 템플릿 앱을 통해 캐릭터 일관성 시연이 가능하며, 이를 기반으로 직접 코드를 커스터마이즈할 수 있음

이외에도, 비주얼 템플릿 기반 이미지 생성에 강점을 보임. 부동산 카드, 직원 배지, 카탈로그 제품 목업 등도 단일 디자인 템플릿에서 대량 생성이 가능함

프롬프트 기반 이미지 편집

자연어 명령만으로 부분 변환, 정밀한 국소 편집을 지원함. 예를 들어, 배경 흐림, 의류 얼룩 제거, 사진 인물 삭제, 피사체 자세 변경, 흑백 사진 컬러화 등이 단일 프롬프트로 가능함

이러한 기능을 직접 체험할 수 있도록, UI 및 프롬프트 기반의 포토 에디팅 템플릿 앱도 제공됨

네이티브 세계 지식

기존 이미지 생성 모델은 미적 이미지는 잘 만들지만, 실제 세계에 대한 의미론적·심층적 이해가 부족함이 문제였음. Gemini 2.5 Flash Image는 세계 지식 기반이 적용되어, 새로운 용도에서 강점이 도드라짐

예를 들어, 손그림 다이어그램을 읽고 이해하거나, 현실적 질문 답변, 복잡한 편집 명령 수행이 가능함. 이러한 특성은 AI Studio용 인터랙티브 교육 튜터 앱에서 직접 체험 가능함

다중 이미지 합성

여러 입력 이미지를 해석·융합하여 합성 이미지를 만들 수 있음. 오브젝트를 다른 장면에 배치, 방을 새로운 색상·질감으로 리스타일, 이미지 융합 등을 한 번의 프롬프트로 수행함

이를 위해 제품 이미지를 드래그해 새로운 장면에 빠르게 합성하는 템플릿 앱도 AI Studio에서 제공함

개발 시작 안내

개발자는 공식 문서로 즉시 시작 가능하며, 현재 프리뷰로 제공 중임. 본문에서 소개한 데모 앱 모두 Google AI Studio에서 vibe code로 제작되어, 프롬프트만으로 리믹스·커스터마이즈 가능함

OpenRouter.ai와 협력해 전 세계 300만명 이상의 개발자가 이용할 수 있으며, 현재 OpenRouter에서 이미지 생성을 지원하는 첫 모델임. fal.ai와의 제휴로, 더 넓은 생성 미디어 개발자 커뮤니티에서도 사용 확장 예정임

Gemini 2.5 Flash Image로 생성·편집된 이미지는 모두 보이지 않는 SynthID 디지털 워터마크가 포함되어, AI 생성 이미지임을 식별할 수 있음

Python 예제 코드

from google import genai
from PIL import Image
from io import BytesIO

client = genai.Client()

prompt = "Create a picture of my cat eating a nano-banana in a fancy restaurant under the gemini constellation"

image = Image.open('/path/to/image.png')

response = client.models.generate_content(
    model="gemini-2.5-flash-image-preview",
    contents=[prompt, image],
)

for part in response.candidates[0].content.parts:
  if part.text is not None:
    print(part.text)
  elif part.inline_data is not None:
    image = Image.open(BytesIO(part.inline_data.data))   
    image.save("generated_image.png")

위 코드는 프롬프트와 이미지를 함께 입력해, Gemini 2.5 Flash Image에서 결과 생성하는 예를 보여줌

개발자 피드백 및 향후 계획

Google은 장문의 텍스트 렌더링, 캐릭터 일관성 고도화, 실제 사실감 및 디테일 개선에 계속 집중할 예정임. 피드백은 개발자 포럼과 X(구 트위터)에서 접수하며, 다양한 개발자 활용을 기대함

GN⁺ 9달전 [-]

Hacker News 의견

이것이 바로 이미지 편집 모델 분야의 gpt 4 시점임을 느낌
Nano banana라고 불리는 gemini 2.5 flash가 믿기지 않을 정도로 뛰어남
lmarena에서 무려 171 elo 포인트 상승을 기록함
Twitter에서 nano banana로 검색하면 엄청난 결과들을 볼 수 있음
예시로 이 트윗 참고
- 몇 주 동안 직접 테스트해 봄
  정말 인상적인 결과물이 나오기도 하지만, 원하는 이미지를 얻으려면 프롬프트를 여러 번 반복해서 시도해야 하는 상황임
  만능은 아니지만 확실히 엄청난 발전이고 현존하는 최고 수준임
- 세 번째 예시에서 손이 이상하게 표현되는 점이 있음
  어느 방향으로 놓일지 모델이 결정하지 못하는 듯 보임
  다만 이건 gemini가 만든 문제가 아니라, 원본 이미지에 있던 문제임
- "nano banana"와 관련된 모든 조합이 고유한 UI를 가진 도메인으로 등록된 것처럼 보임
  인기있는 모델명을 활용하는 중간 마진업자들이 신용(credit) 차익을 노리고 있는 것 아닌지 궁금함
- AI가 등장하기 전에는 구글이 세계적 엔지니어 인재를 광고 판매에만 쓴다며 비판이 많았음
  하지만 AI 시대가 도래하면서 그 인재들이 이제 시제품 광고(프로덕트 플레이스먼트)에 활용될 수 있게 됨
  정말 멀리 온 것 같음
- 또 다른 아쉬운 점은 핑크색 패딩 점퍼가 편집된 모습이 참고 이미지와 미묘하게 다름
  상품 홍보용으로 이 모델을 사용하거나 세부사항에 민감하다면 불만이 생길 수 있을 것 같음
GenAI 이미지 비교 사이트를 업데이트했음
이 사이트는 텍스트-이미지 프롬프트 준수에 엄격히 초점을 맞추고 있음
새로운 Google Gemini 2.5 Flash 모델(nano-banana)도 반영됨
모델이 12개의 프롬프트 중 8개를 정확히 맞추고, 최고 모델들인 Imagen 및 gpt-image-1에 거의 근접하는 결과를 냄
이전 Gemini Flash 2.0 대비 큰 업그레이드임
1위인 gpt-image-1은 미로와 9각별에서만 근소하게 앞섬
gpt-image-1이 거의 6개월 동안 선두를 지켜온 점이 가장 놀라운 사실임 (이 분야에서는 6개월이 거의 영원과 같음)
다만 gpt-image-1은 "에디터"로서는 거의 쓸모가 없는데, 이미지를 전체적으로 바꾸지, Kontext, Qwen, Nano-Banana처럼 인페인팅(일부만 수정) 방식이 아님
OpenAI_4O, Imagen_4, Gemini Flash 2, Nano-Banana 등 비교 링크
- 문장 편집 벤치마크가 별도로 필요함을 느낌
- gpt-image-1이 "에디터"로서는 무용지물
  이 글을 찾으려고 쓰레드를 들어왔음
  모델별 프롬프트 준수를 비교하기에 정말 좋은 접근이라 생각함
  최근 인페인팅 스타일 프롬프트가 떠오르고 있는 만큼 편집 기능도 추가할 생각 있는지 궁금함
- 왜 Hunyuan, OpenAI 4o, Gwen은 문어 테스트에서 통과 처리되는지 잘 모르겠음
  "각 촉수"를 모두 커버하지 않았음
  Midjourney는 양말 인형을 8개 팔에 9개나 입힘
- Imagen 4와 Gemini 2.5 Flash 이미지 결과물이 일부 테스트 케이스에서 너무 비슷하게 보여 흥미로움
  아마 Gemini 2.5 Flash가 백그라운드에서 먼저 Imagen(확산모델)으로 베이스라인 이미지를 만들고, Gemini 쪽에서 프롬프트 준수를 위해 그 위에 편집을 더하는 방식일 가능성이 있음
- 사이트가 정말 마음에 듦
  혹시 다양한 모델들이 스타일 가이드(동일한 스타일로 그린 일러스트 등)를 얼마나 잘 지키는지도 비교하는 사이트를 아는지?
  개인적으로 이런 기능을 사이트에 추가해주면 좋겠음
  예를 들어 한 작가 스타일로 여러 그림을 제공한 뒤, 동일한 스타일로 일러스트를 만들 수 있는지 비교하고 싶음
  책 삽화 등에서 일관된 스타일이 필요한 경우 매우 유용할 것 같음
Gemini 2.5 Flash Image만이 유일하게 여러 이미지를 한 번에, 이상한 꼼수 없이 다룰 수 있음
예를 들어 Flux Kontext는 "첫 번째 이미지를 두 번째 이미지에 합성"하려면 번거롭게 사전에 이미지를 결합해야 함
하지만 이 모델은 그런 불편함 없이 사용 가능하며, 심지어 두 개 이상 이미지를 넣을 수도 있음(물론 너무 많으면 혼란스러워질 수 있음)
간단히 테스트해본 바로는 긴 프롬프트일 때도 준수도가 좋고 구문적 표현이 더 효과적으로 작동하는 듯 보임
아직 다 밝혀지지 않은, 더 많은 제어 방법도 있을 것 같아 계속 실험 중임
가격도 경쟁 모델들과 비슷해 시장에 큰 변화를 가져올 거라 기대함
- 이 기능이 정말 재밌음
  옆집 이웃이 휴가 중이라 물고기 밥을 주고 있음
  물고기 어항 사진을 찍어서 Gemini에게 "도시 명소에 어항 놓기" 프롬프트로 생성하고 있음
  매일 한 장씩 보내주니 이웃이 아주 좋아함
  이런 작은 장난이 서로의 일상에 웃음을 더해줌
아쉽게도 다른 AI 제품들과 마찬가지로 지나치게 엄격한 안전정책이 적용되는 문제가 있음
프롬프트 절반이 거절당함
인간 편집이 불가능하다면 캐릭터 일관성 유지는 어떻게 할 수 있을지 의문임
나는 대부분 사람을 포함하는 사진을 편집하려고 하지만 이 모델로는 불가능함
구글이 딥페이크 문제를 의식하는 건 이해하지만, 어차피 이 방향은 막을 수 없고 결국 사회가 적응해야 할 운명임
도구가 점점 사용자를 제한하는 추세가 답답함
결국 자유를 되찾기 위한 새로운 OSS 운동이 필요하다고 생각함
- 어릴 때 크리스마스 옷을 입고 같이 찍은 연인과 그녀의 사촌 사진이 하나 있음
  두 사람은 오랜 기간 서로 떨어져 살아 지금은 소중한 추억임
  사진 자체의 상태가 나쁠 뿐만 아니라, 품질도 저화질임
  그런데 아직까지 그 어떤 AI 모델도 이를 복원해주지 않음
- 이틀 전에 Veo를 무료로 사용해 영상 제작을 시도함
  아무렇지 않은 단어들까지 모두 지웠지만 여전히 거부당했음
  아마 "나 자신"을 생성하려 한 게 문제였던 것 같아 결국 포기함
가족 사진을 디지털로 변환했는데, 색상 편향, 얼룩, 손자국, 필름 얼룩 등 복구가 까다로운 손상이 많음
수백 장을 일일이 고치기는 어렵기에 AI 기반 이미지 생성이 세부 디테일(특히 얼굴)을 바꾸지 않고, 대량으로 복구할 만큼 발전하길 기다려왔음
이 모델은 디테일을 보존하면서 잃어버린 부분만 복원해주는 데 꽤 좋아 보여서 이제 시도해볼 때가 온 것 같음
- 위에서 언급한 모든 손상은 아이스(ICE) 기능이 포함된 필름 스캐너와 자동 복원 소프트웨어(Vuescan 등)를 통해 자동으로 고칠 수 있음
  수백~수천 장의 사진을 실험적이고 독점적인 클라우드 AI에 올려, 이상한 압축 및 아티팩트가 섞인 품질 미달의 결과만 받을 필요는 없다는 생각임
- 이런 활용법의 의미를 잘 모르겠음
  손상 없는 사진을 상상만 해도 되는 것 아닌지?
  폰 카메라 AI 업스케일링도 마찬가지
  멀리 있는 무언가를 보고 싶으면 그냥 상상하면 됨
  결국 AI 도구가 포토샵 숙련자가 직접 툴로 할 수 있는 일을 자동화해주는 수준이 필요하다고 생각함
  새로운 디테일을 임의 생성하는 건 시간 낭비처럼 느껴짐
- 혹시 비디오 파일을 복원/향상해주는 소프트웨어를 아는지 궁금함
  어머니의 2000년대 비디오 및 VHS 카세트를 디지털화하는 중임
  디지털화 세팅은 이미 되어 있지만, 비디오의 화질을 더 향상시키고 싶음
- 잘 사용되길 바람
  예시 중 "사진 복원" 프롬프트의 결과물을 보면, 여성의 얼굴에 AI 특징이 강하게 드러남
  물론 시간이 지나면 더 개선되리라 기대함
- 몇 달 전에 이미 Flux Kontext(https://bfl.ai/models/flux-kontext)에서 그 단계에 도달했다 생각함
Gemini 2.5 Flash Image에서 생성/편집한 모든 이미지는 SynthID라는 보이지 않는 디지털 워터마크가 삽입되어 AI 생성/편집 여부를 표시하게 됨
목적과 선의는 이해하지만, 이제는 성인이 스스로 책임지는 게 아니라 대기업이 할 수 있는 일과 없는 일을 정해주는 상황이 아쉬움
감시받는 느낌임
- 인간이 기술을 쓸 때 과연 책임 있는 어른이었던 적이 있었냐고 되묻고 싶음
  딥페이크는 이미 현실 인식의 불안을 더욱 악화시킬 가능성이 큼
  수많은 가짜에 속는 이들도, 이제 어떤 것도 믿지 않는 이들도 생길 수 있음
  정치인들은 자신에게 불리한 영상이 등장할 때 "가짜"라고 주장할 것임
  이미 어느 정도 포스트-팩트 시대를 살고 있지만, 앞으로는 상황이 더 심각해질 것임
- 사실상 사용자가 만든 이미지라고 보기 어려움
  예를 들어 예술가가 의뢰받은 작품에 워터마크를 넣더라도, 그림이 본인 작업임을 알리는 것뿐이고 그걸 "고자질"이라 볼 수 없음
  꼭 그런 의도로 말한 것은 아닐 수도 있지만, 한번쯤 생각해 볼 가치가 있겠음
- "숨길 게 없으면 두려울 것도 없다" 식 논리에 동의하지는 않지만, AI 생성/편집 이미지 워터마크가 왜 문제되는지 궁금함
  참고로, 개인적으로는 AI 이미지는 워터마크가 필수라고 생각함
- 이 모델을 꼭 써야 하는 것도 아니니 개인적으로는 문제라 생각하지 않음
- 기술의 군비 경쟁임
  removemysynthid.com 참고
대부분의 이미지 생성기처럼 피아노 건반 테스트에서 실패함(검은 건반이 잘못됨)
테스트 예시
- 피아노 건반 테스트란 무엇인지 궁금함
  링크는 AI Studio에 구글 드라이브 접근권한을 요구해서 사용하기 어렵다고 느낌
- 개념 공간에 아이디어(예: 8음 반복 등)까지 포함하는 모델이 있는지 궁금함
  피아노를 표현할 때 "피아노" 단어 근처의 단어만으로는 고정된 개념(예: 반복되는 옥타브)을 나타내는 데 약해서, 이 부분이 부족한 듯함
  단어만으로는 이미지와 의미를 일관성 있게 연결하기 어려운 것 같다고 느낌
- 이 모델의 진짜 강점은 생성 품질 그 자체보다는, "세대 간의 일관성"에 있는 듯함
  예시 링크
- 흥미로움
  실제 피아노를 접해본 사람은 금방 이상하다고 눈치챌만큼, 텍스트 렌더링 테스트와 비슷하게 "겉보기에는" 비슷한 이미지를 뽑아내지만 실제로는 틀린 경우임
  일반적인 프롬프트라면 그냥 구글 이미지 첫 결과를 가져다 "여기 피아노 키보드 사진 가져왔어" 같은 형태도 무난하게 받아들일 듯함
- 내 수평 텍스트 테스트에서도 실패함
포크/스파게티, 패션 버블 예시를 직접 재현하려 했는데 공식 결과와 매우 다름
출력 결과 역시 일관성 있음
광고 페이지에서 이미지를 복사해 사용해서 해상도가 다를 수 있지만, 프롬프트는 똑같이 썼음
사용 중인 것이 새로운 모델이 맞는 것 같고, 이전과 비교하면 정말 큰 발전임
- 결과물의 일관성이 흥미로움
  나만의 이미지 모델 표준 테스트용 세대 여러 번 돌려봤는데(아직까지 피아노 옥타브를 제대로 그리는 모델은 한 번도 못 봄), Gemini 2.5 Flash Image도 예외 아님
  여러 번 해서 결과 비교해보면 전혀 변화가 없음
  ChatGPT는 에디터 프롬프트를 주면 원했던 변경 외 다른 부분도 바뀌는 경우가 많았으나, 여기선 그런 변화가 아예 없는 상황임
  이미지 예시
- 광고에서 보여주는 것보다 실제 결과물이 훨씬 평범하거나 모호하게 나타남
  예시에서 버블 서브젝트 생성도 그저 피사체 속에 모호한 거품 모양을 생성할 뿐임
  포크 예시는 국수 위에 포크만 추가됨
  두 케이스 다 실제로는 프롬프트를 더 잘 따른다고도 볼 수 있지만, 보기에 덜 인상적인 결과임
포토샵 전문가가 안 된 것이 다행이라고 느낌
한때 매력적으로 여긴 적 있지만 결국 선택하지 않아 다행임
이제 nano-banana 하나면 충분함
다른 모델들도 곧 따라올 예정이라 확신함
r/photoshopbattles 커뮤니티도 이젠 안녕임
- 리터칭은 하나의 예술임
  전문가에게는 이런 AI도 효율을 높이는 또 다른 도구에 불과함
  포토샵을 쓸 줄 아는 것만이 아니라, 현명한 판단력이 중요함
  물론 일이 늘지 않는다면, 같은 업무를 더 적은 리터처들이 할 가능성도 있다고 봄
  단가가 내려가면 모두가 더 많은 리터칭을 할까? 그건 잘 모르겠음
- 흥미로운 견해임
  나는 프로그래머지만 2000년대 초 포토샵도 배워서 이미지 편집을 정말 즐겼음
  지금의 생성모델이 그 시절 내가 만들던 것보다 훨씬 잘 나오긴 하지만, 이 경험과 실력이 전혀 무의미하다고 생각하지 않음
  실제로 AI 결과물을 다듬는 데 포토샵(또는 요즘은 Affinity Designer/Photo)이 엄청나게 유용함
  후회한 적 없음
- 10년 전에 이 댓글을 썼다면, 적어도 프로그램과 실력은 내 소유이고 Google이 구독료를 올리거나 서비스 중단해도 내 것이었을 거라는 말을 했을 것임
  이제는 PS도 구독제이고, 괜찮은 공개 모델이 나올 날을 기다려야 함
- 포토샵은 여전히 쓸모 있음
  AI 이미지는 훌륭하지만, 베이스 컴포지션은 직접 만들고 싶고, AI 결과물의 아티팩트 정리나 다양한 AI 레이어 합성엔 여전히 수작업 스킬이 필수임
- 결국 프로그래밍 등 다른 분야도 자동화에 무너질 운명임
  단지 시간이 조금 더 걸릴 뿐임(5~10년?)
  엔지니어링은 실수와 기술적 부채 때문에 시간이 더 오래 걸릴 수 있음
  이미지는 망치면 다시 뽑으면 되지만, 프로그램은 망치면 직후 유지보수 불가능한 코드덩어리가 됨
  그러나 언젠가는 이 흐름이 우리 분야에도 닥칠 것임
Gemini에게 이미지 생성을 요청하면 절반은 불가 답변이 옴
구글의 기능은 실제로 써보기가 너무 힘든 느낌임
어떤 건 한 제품에, 어떤 건 또 다른 제품에 흩어져 있고, 어디서 접근해야 하는지도 혼란스러움
- 맞음
  웹사이트에서 "Gemini에서 사용해보세요"라고 안내하는데, 정작 Gemini 2.5 Flash를 선택하면 내가 이걸 제대로 쓰고 있는 건지조차 헷갈림
- Gemini 앱이나 사이트에서는 아예 해당 모델이 없음
  AI Studio 등 다른 경로로 사용해야 함
  구글 측 UI/UX가 전반적으로 정말 헷갈림

답변달기

Gemini 2.5 Flash Image