Gemini 2.5 Flash Image - 최신 이미지 생성 및 편집 모델 공개
(developers.googleblog.com)- Google이 Nano-Banana로 알려진, 이미지 생성·편집 능력이 한층 강화된 Gemini 2.5 Flash Image를 공개
- 캐릭터 일관성 유지, 자연어 기반 부분 편집, 세계 지식 활용, 다중 이미지 결합 등을 지원함
- 개발자는 Gemini API, Google AI Studio, Vertex AI, OpenRouter, fal.ai 등을 통해 모델을 바로 사용할 수 있음
- 가격은 100만 출력 토큰당 30달러, 이미지 한 장당 약 0.039달러
- 모든 결과물은 보이지 않는 디지털 SynthID 워터마크가 삽입됨
Gemini 2.5 Flash Image 소개
- Google은 차세대 이미지 생성 및 편집 모델인 Gemini 2.5 Flash Image(코드명 nano-banana)를 발표함
- 이번 업데이트로 여러 이미지를 하나로 합성, 특정 인물이나 객체의 일관성 유지, 자연어를 활용한 세밀한 변형, 그리고 Gemini의 세계 지식을 바탕으로 한 이미지 생성 및 편집 기능이 가능해짐
- 초기 버전인 Gemini 2.0 Flash에서도 낮은 지연시간, 비용 효율성, 사용 용이성이 장점이었으나, 사용자의 피드백을 반영하여 이번에 더 높은 품질의 이미지와 강화된 창의적 제어 기능이 추가됨
- 현재 Gemini API, Google AI Studio, Vertex AI 등에서 사용 가능하며, 과금은 100만 출력 토큰당 $30로 책정됨(이미지 1개 당 약 $0.039)
- 기타 입·출력 방식도 Gemini 2.5 Flash와 동일한 가격 정책을 따름
- 공식 사이트 https://deepmind.google/models/gemini/image/
주요 기능과 시나리오
-
Google AI Studio의 “Build Mode” 업그레이드
- Gemini 2.5 Flash Image로 앱 개발이 더 간편해짐
- 개발자는 사용자 정의 AI 앱을 빠르게 제작, 테스트, 리믹스 가능하며, Google AI Studio에서 직접 배포하거나 코드를 GitHub에 저장할 수 있음
- 예를 들어 “사용자가 이미지를 업로드하고 필터를 적용할 수 있는 이미지 편집 앱 제작”과 같은 프롬프트로 간단하게 앱을 만들 수 있음
- 기본 제공 템플릿 선택/리믹스 기능도 무료로 제공됨
-
캐릭터 일관성 유지
- 이미지 생성 과정에서 동일한 캐릭터의 외형 유지가 큰 도전 과제였음
- Gemini 2.5 Flash Image는 같은 인물을 다양한 환경에 배치하거나, 제품을 여러 각도/장소에서 표현, 브랜드 자산 일관성 확보 등에 효과적으로 활용 가능함
- Google AI Studio 템플릿 앱을 통해 캐릭터 일관성 시연 및 코드 커스터마이즈가 쉬움
- 이 기능은 부동산 카드, 직원 배지, 대량 상품 목업 등 템플릿 기반 디자인 일관성 확보에도 응용될 수 있음
-
자연어 프롬프트 기반 이미지 편집
- 사용자는 자연어 지시만으로 이미지 일부를 변형할 수 있음
- 예시로는 배경 블러, 티셔츠 얼룩 지우기, 인물 삭제, 포즈 변경, 흑백 이미지를 컬러 이미지로 변환 등이 있음
- UI/프롬프트 기반 편집이 가능한 템플릿 앱이 제공되어 실제 적용 경험이 가능함
-
세계 지식 기반 네이티브 활용
- 기존 모델이 미적인 이미지 생성에 강점이 있었던 반면, 현실 세계에 대한 의미론적 이해는 약했음
- Gemini 2.5 Flash Image는 세계 지식을 기반으로, 손으로 그린 다이어그램 인식, 실제 세계 질문 대응, 복잡한 편집 명령 수행 등이 가능함
- 직접 적용 예시로, 간단한 캔버스를 상호작용 교육 튜터로 변환하는 앱이 제공됨
-
멀티 이미지 융합
- 이 모델은 여러 이미지를 이해하고 자연스럽게 합성 가능함
- 예를 들어 상품을 새로운 배경에 삽입, 방 전체의 컬러톤·질감 변경, 단일 프롬프트로 이미지 융합*을 지원함
- 템플릿 앱을 이용해 드래그앤드롭 방식으로 제품을 배치, 포토리얼리스틱한 융합 이미지 생성 가능
시작 및 파트너십
- 개발자 문서를 통해 바로 시작 가능하며, 현재는 프리뷰 상태이나 곧 안정화 예정임
- 데모 앱들은 모두 Google AI Studio에서 코드 리믹스와 커스터마이즈 가능함
- OpenRouter.ai와 제휴하여 300만 개발자에게 모델을 제공하며, OpenRouter의 480여 개 지원 모델 중 최초로 이미지 생성 가능 모델임
- fal.ai와의 협업으로 더 넓은 개발자 커뮤니티에게 지원 확대
디지털 워터마크 및 피드백
- Gemini 2.5 Flash Image로 생성·편집한 모든 이미지는 보이지 않는 SynthID 디지털 워터마크가 삽입되어 AI 생성물임을 감지할 수 있음
- 텍스트 품질, 캐릭터 일관성, 이미지 세부 묘사 등 지속적 기능 개선 중임
- 개발자 피드백은 Google 개발자 포럼 또는 X(구 Twitter)를 통해 수시로 받음
간단한 사용 예시 (Python 코드)
- Python에서 genai SDK와 PIL, io 라이브러리를 통해 원하는 프롬프트와 이미지로 Gemini 2.5 Flash Image 활용 가능함
- 예시: “내 고양이가 레스토랑에서 nano-banana를 먹는 모습"과 같은 자유로운 프롬프트 적용 가능
- 출력 결과물은 코드 내에서 단순 텍스트와 이미지 파일로 모두 저장 가능
향후 발전 방향
- 장문 텍스트 렌더링, 보다 신뢰성 높은 캐릭터 일관성, 사실적 세부 표현 등 지속적 수준 향상 개발 중
- 커뮤니티의 적극적 참여와 피드백 유도
- Gemini 2.5 Flash Image로 다양한 창작과 개발 경험 확대 기대
GeekNews Weekly에 포함된 글입니다.
에디터 코멘트 보기
댓글과 토론
Hacker News 의견
- 이건 이미지 편집 모델의 GPT-4 순간 같음. 트위터에서 놀라운 결과물 보기
- nano banana, 즉 gemini 2.5 flash는 성능이 엄청나서 lmarena에서 171 elo 포인트가 뛰었음
- Twitter에서 nano banana 검색하면 놀라운 결과들을 볼 수 있음
- 요즘 "nano banana" 도메인이 전부 등록돼서 각자 이미지 생성 UI를 제공하는데, 다들 인기 모델 이름을 이용한 중간 상인 같은 느낌임
- 왜 이름이 nano banana인지 궁금함
- 이게 바로 유명한 nano-banana 모델이고, 지금은 LMArena에서 gemini-2.5-flash-image-preview로 이름이 바뀜
- nano-banana가 뭔지 모르는 사람을 위한 링크 Google Nano Banana란 무엇인가? Google의 비밀 이미지 AI
- 나도 그게 궁금해서 들어왔는데 답을 얻어서 고마움
- Gemini로 이미지를 만들려고 하면 절반은 불가능하다고 답변함
- 게다가 Google이 발표한 기능들이 여기저기 흩어져 있어서 어떤 제품에서 쓸 수 있는지, 어디서 결제해야 하는지 전혀 감이 안 오는 혼란스러움이 있음
- 이미지 모델들은 결국 시간 흡혈귀 같음
- 방 하나 만드는 건 쉽지만 같은 방을 여러 각도에서 일관성 있게 만드는 건 사실상 불가능함
- 이미지 일관성이 필요한 작업에는 쓰기 어려움
- 가족 사진을 디지털화했는데 손상된 게 많아서 복구가 힘들었음
- 이번 모델은 디테일을 바꾸지 않고 복원하는 게 좋아 보여서 드디어 쓸만한 시점이 온 것 같음
- 사실 이런 결함들은 필름 스캐너 + ICE 기능과 Vuescan 같은 소프트웨어로 자동 복구 가능함
- 수백 장을 실험적인 클라우드 AI에 맡기는 건 불필요해 보임
- 혹시 비디오 화질 개선 소프트웨어 아는지 궁금함
- Video 2000과 VHS 테이프를 디지털화 중인데, 추억 영상을 조금이라도 개선하고 싶음
- 잘 되길 바라지만, 예시 중 하나는 얼굴이 지나치게 AI화된 느낌이 있었음
- 사실 Flux Kontext라는 모델이 몇 달 전부터 이미 이 수준에 도달했음
- 모델 성능은 인상적이지만, 동시에 사회적 영향이 걱정됨
- Facebook 댓글만 봐도 불안해짐
- Google의 SynthID를 테스트해봤는데 꽤 괜찮았음
- 압축, 크롭, 리사이즈, 색 보정, 오버페인팅에도 워터마크가 남아있음
- 나도 최근 SpaceX 발사 이벤트 중 딥페이크 사기에 속아 15k BTC를 잃었음
- 기술이 너무 정교해서 공격이 점점 더 위험해짐
- Facebook 댓글은 봇이 돌리는 게 확실해 보임
- 램프 예시는 꽤 인상적이었음
- 전원 연결, 조명, 그림자까지 자연스럽게 표현됨
- ChatGPT의 이미지 생성보다 훨씬 빠른 속도가 마음에 듦
- ChatGPT는 너무 느려서 알림으로 결과를 받아야 할 정도였음
- “Gemini 2.5 Flash Image를 써본 OpenAI 투자자들의 모습” 같은 이미지를 떠올리니 웃김
- 예전부터 하고 싶었던 작업이 있었음
- 이미지1에서 특정 객체를 이미지2의 객체로 교체하는 것인데, 위치까지 정확히 지정하고 싶었음
- 여러 모델을 시도했지만 다 실패했고, 이번 모델은 거의 맞췄지만 결국 다른 객체를 교체했음
- 혹시 특정 위치를 참조 이미지로 교체하는 데 특화된 모델이 있는지 궁금함
- Alibaba의 ACE++ 모델이 그런 기능을 지원함
- phind.design에서 사용 중인데, 꽤 특수한 작업이라 흔하진 않음