Gemini 2.5 Flash Image - 최신 이미지 생성 및 편집 모델 공개

(developers.googleblog.com)

10P by GN⁺ 9달전 | ★ favorite | 댓글 2개

Google이 Nano-Banana로 알려진, 이미지 생성·편집 능력이 한층 강화된 Gemini 2.5 Flash Image를 공개
캐릭터 일관성 유지, 자연어 기반 부분 편집, 세계 지식 활용, 다중 이미지 결합 등을 지원함
개발자는 Gemini API, Google AI Studio, Vertex AI, OpenRouter, fal.ai 등을 통해 모델을 바로 사용할 수 있음
가격은 100만 출력 토큰당 30달러, 이미지 한 장당 약 0.039달러
모든 결과물은 보이지 않는 디지털 SynthID 워터마크가 삽입됨

Gemini 2.5 Flash Image 소개

Google은 차세대 이미지 생성 및 편집 모델인 Gemini 2.5 Flash Image(코드명 nano-banana)를 발표함
이번 업데이트로 여러 이미지를 하나로 합성, 특정 인물이나 객체의 일관성 유지, 자연어를 활용한 세밀한 변형, 그리고 Gemini의 세계 지식을 바탕으로 한 이미지 생성 및 편집 기능이 가능해짐
초기 버전인 Gemini 2.0 Flash에서도 낮은 지연시간, 비용 효율성, 사용 용이성이 장점이었으나, 사용자의 피드백을 반영하여 이번에 더 높은 품질의 이미지와 강화된 창의적 제어 기능이 추가됨
현재 Gemini API, Google AI Studio, Vertex AI 등에서 사용 가능하며, 과금은 100만 출력 토큰당 $30로 책정됨(이미지 1개 당 약 $0.039)
기타 입·출력 방식도 Gemini 2.5 Flash와 동일한 가격 정책을 따름
공식 사이트 https://deepmind.google/models/gemini/image/

주요 기능과 시나리오

Google AI Studio의 “Build Mode” 업그레이드
- Gemini 2.5 Flash Image로 앱 개발이 더 간편해짐
- 개발자는 사용자 정의 AI 앱을 빠르게 제작, 테스트, 리믹스 가능하며, Google AI Studio에서 직접 배포하거나 코드를 GitHub에 저장할 수 있음
- 예를 들어 “사용자가 이미지를 업로드하고 필터를 적용할 수 있는 이미지 편집 앱 제작”과 같은 프롬프트로 간단하게 앱을 만들 수 있음
- 기본 제공 템플릿 선택/리믹스 기능도 무료로 제공됨
캐릭터 일관성 유지
- 이미지 생성 과정에서 동일한 캐릭터의 외형 유지가 큰 도전 과제였음
- Gemini 2.5 Flash Image는 같은 인물을 다양한 환경에 배치하거나, 제품을 여러 각도/장소에서 표현, 브랜드 자산 일관성 확보 등에 효과적으로 활용 가능함
- Google AI Studio 템플릿 앱을 통해 캐릭터 일관성 시연 및 코드 커스터마이즈가 쉬움
- 이 기능은 부동산 카드, 직원 배지, 대량 상품 목업 등 템플릿 기반 디자인 일관성 확보에도 응용될 수 있음
자연어 프롬프트 기반 이미지 편집
- 사용자는 자연어 지시만으로 이미지 일부를 변형할 수 있음
- 예시로는 배경 블러, 티셔츠 얼룩 지우기, 인물 삭제, 포즈 변경, 흑백 이미지를 컬러 이미지로 변환 등이 있음
- UI/프롬프트 기반 편집이 가능한 템플릿 앱이 제공되어 실제 적용 경험이 가능함
세계 지식 기반 네이티브 활용
- 기존 모델이 미적인 이미지 생성에 강점이 있었던 반면, 현실 세계에 대한 의미론적 이해는 약했음
- Gemini 2.5 Flash Image는 세계 지식을 기반으로, 손으로 그린 다이어그램 인식, 실제 세계 질문 대응, 복잡한 편집 명령 수행 등이 가능함
- 직접 적용 예시로, 간단한 캔버스를 상호작용 교육 튜터로 변환하는 앱이 제공됨
멀티 이미지 융합
- 이 모델은 여러 이미지를 이해하고 자연스럽게 합성 가능함
- 예를 들어 상품을 새로운 배경에 삽입, 방 전체의 컬러톤·질감 변경, 단일 프롬프트로 이미지 융합*을 지원함
- 템플릿 앱을 이용해 드래그앤드롭 방식으로 제품을 배치, 포토리얼리스틱한 융합 이미지 생성 가능

시작 및 파트너십

개발자 문서를 통해 바로 시작 가능하며, 현재는 프리뷰 상태이나 곧 안정화 예정임
데모 앱들은 모두 Google AI Studio에서 코드 리믹스와 커스터마이즈 가능함
OpenRouter.ai와 제휴하여 300만 개발자에게 모델을 제공하며, OpenRouter의 480여 개 지원 모델 중 최초로 이미지 생성 가능 모델임
fal.ai와의 협업으로 더 넓은 개발자 커뮤니티에게 지원 확대

디지털 워터마크 및 피드백

Gemini 2.5 Flash Image로 생성·편집한 모든 이미지는 보이지 않는 SynthID 디지털 워터마크가 삽입되어 AI 생성물임을 감지할 수 있음
텍스트 품질, 캐릭터 일관성, 이미지 세부 묘사 등 지속적 기능 개선 중임
개발자 피드백은 Google 개발자 포럼 또는 X(구 Twitter)를 통해 수시로 받음

간단한 사용 예시 (Python 코드)

Python에서 genai SDK와 PIL, io 라이브러리를 통해 원하는 프롬프트와 이미지로 Gemini 2.5 Flash Image 활용 가능함
예시: “내 고양이가 레스토랑에서 nano-banana를 먹는 모습"과 같은 자유로운 프롬프트 적용 가능
출력 결과물은 코드 내에서 단순 텍스트와 이미지 파일로 모두 저장 가능

향후 발전 방향

장문 텍스트 렌더링, 보다 신뢰성 높은 캐릭터 일관성, 사실적 세부 표현 등 지속적 수준 향상 개발 중
커뮤니티의 적극적 참여와 피드백 유도
Gemini 2.5 Flash Image로 다양한 창작과 개발 경험 확대 기대

GeekNews Weekly에 포함된 글입니다. 에디터 코멘트 보기

xguru 9달전 [-]

Google Nano Banana란 무엇인가? Google의 비밀 이미지 AI

답변달기

GN⁺ 9달전 [-]

Hacker News 의견

이건 이미지 편집 모델의 GPT-4 순간 같음. 트위터에서 놀라운 결과물 보기
- nano banana, 즉 gemini 2.5 flash는 성능이 엄청나서 lmarena에서 171 elo 포인트가 뛰었음
- Twitter에서 nano banana 검색하면 놀라운 결과들을 볼 수 있음
- 요즘 "nano banana" 도메인이 전부 등록돼서 각자 이미지 생성 UI를 제공하는데, 다들 인기 모델 이름을 이용한 중간 상인 같은 느낌임
- 왜 이름이 nano banana인지 궁금함
이게 바로 유명한 nano-banana 모델이고, 지금은 LMArena에서 gemini-2.5-flash-image-preview로 이름이 바뀜
- nano-banana가 뭔지 모르는 사람을 위한 링크 Google Nano Banana란 무엇인가? Google의 비밀 이미지 AI
- 나도 그게 궁금해서 들어왔는데 답을 얻어서 고마움
Gemini로 이미지를 만들려고 하면 절반은 불가능하다고 답변함
- 게다가 Google이 발표한 기능들이 여기저기 흩어져 있어서 어떤 제품에서 쓸 수 있는지, 어디서 결제해야 하는지 전혀 감이 안 오는 혼란스러움이 있음
이미지 모델들은 결국 시간 흡혈귀 같음
- 방 하나 만드는 건 쉽지만 같은 방을 여러 각도에서 일관성 있게 만드는 건 사실상 불가능함
- 이미지 일관성이 필요한 작업에는 쓰기 어려움
가족 사진을 디지털화했는데 손상된 게 많아서 복구가 힘들었음
- 이번 모델은 디테일을 바꾸지 않고 복원하는 게 좋아 보여서 드디어 쓸만한 시점이 온 것 같음
- 사실 이런 결함들은 필름 스캐너 + ICE 기능과 Vuescan 같은 소프트웨어로 자동 복구 가능함
  - 수백 장을 실험적인 클라우드 AI에 맡기는 건 불필요해 보임
- 혹시 비디오 화질 개선 소프트웨어 아는지 궁금함
  - Video 2000과 VHS 테이프를 디지털화 중인데, 추억 영상을 조금이라도 개선하고 싶음
- 잘 되길 바라지만, 예시 중 하나는 얼굴이 지나치게 AI화된 느낌이 있었음
- 사실 Flux Kontext라는 모델이 몇 달 전부터 이미 이 수준에 도달했음
모델 성능은 인상적이지만, 동시에 사회적 영향이 걱정됨
- Facebook 댓글만 봐도 불안해짐
- Google의 SynthID를 테스트해봤는데 꽤 괜찮았음
  - 압축, 크롭, 리사이즈, 색 보정, 오버페인팅에도 워터마크가 남아있음
- 나도 최근 SpaceX 발사 이벤트 중 딥페이크 사기에 속아 15k BTC를 잃었음
  - 기술이 너무 정교해서 공격이 점점 더 위험해짐
- Facebook 댓글은 봇이 돌리는 게 확실해 보임
램프 예시는 꽤 인상적이었음
- 전원 연결, 조명, 그림자까지 자연스럽게 표현됨
ChatGPT의 이미지 생성보다 훨씬 빠른 속도가 마음에 듦
- ChatGPT는 너무 느려서 알림으로 결과를 받아야 할 정도였음
- “Gemini 2.5 Flash Image를 써본 OpenAI 투자자들의 모습” 같은 이미지를 떠올리니 웃김
예전부터 하고 싶었던 작업이 있었음
- 이미지1에서 특정 객체를 이미지2의 객체로 교체하는 것인데, 위치까지 정확히 지정하고 싶었음
- 여러 모델을 시도했지만 다 실패했고, 이번 모델은 거의 맞췄지만 결국 다른 객체를 교체했음
- 혹시 특정 위치를 참조 이미지로 교체하는 데 특화된 모델이 있는지 궁금함
- Alibaba의 ACE++ 모델이 그런 기능을 지원함
  - phind.design에서 사용 중인데, 꽤 특수한 작업이라 흔하진 않음

답변달기

Gemini 2.5 Flash Image - 최신 이미지 생성 및 편집 모델 공개

Gemini 2.5 Flash Image 소개

주요 기능과 시나리오

Google AI Studio의 “Build Mode” 업그레이드

캐릭터 일관성 유지

자연어 프롬프트 기반 이미지 편집

세계 지식 기반 네이티브 활용

멀티 이미지 융합

시작 및 파트너십

디지털 워터마크 및 피드백

간단한 사용 예시 (Python 코드)

향후 발전 방향

함께 보면 좋은 글 β

댓글과 토론

Hacker News 의견