나노 바나나 프로: 구글 딥마인드의 Gemini 3 Pro 기반 이미지 생성 모델
(blog.google)- Nano Banana Pro는 Gemini 3 Pro를 기반으로 한 구글 딥마인드의 최신 이미지 생성 및 편집 모델로, 시각적 아이디어를 정밀하게 구현하는 기능 제공
- 텍스트 렌더링 향상과 다국어 지원을 통해 포스터, 목업, 인포그래픽 등에서 읽기 쉬운 문구를 직접 이미지에 삽입 가능
- 최대 14개 이미지 결합, 5명 인물 일관성 유지, 2K~4K 해상도 지원 등으로 고품질 시각 콘텐츠 제작 지원
- Google Ads, Workspace, Gemini 앱, AI Studio 등 다양한 구글 제품군에 통합되어 소비자, 전문가, 개발자 모두 활용 가능
- SynthID 워터마크로 AI 생성 이미지의 투명성을 보장하며, AI 콘텐츠 식별 기능을 Gemini 앱에 직접 제공
Nano Banana Pro 개요
- Nano Banana Pro는 Gemini 3 Pro의 추론 능력과 세계 지식을 활용해 시각 정보를 정교하게 시각화하는 모델
- 이전 버전인 Nano Banana (Gemini 2.5 Flash Image) 이후 출시된 업그레이드 버전
- 아이디어 구상, 데이터 시각화, 손글씨 노트 다이어그램화 등 다양한 디자인 작업 지원
주요 기능
-
정확하고 맥락이 풍부한 시각 자료 생성
- Gemini 3의 고급 추론 기능을 통해 교육용 인포그래픽, 다이어그램 등 사실 기반 콘텐츠 생성
- Google Search의 실시간 정보와 연동해 날씨, 스포츠, 레시피 등 실시간 데이터 시각화 가능
-
다국어 텍스트 렌더링
- 이미지 내 텍스트를 정확하고 읽기 쉽게 표현하며, 여러 언어로 번역 및 현지화 가능
- 다양한 폰트, 질감, 서체 스타일을 활용해 포스터나 브랜드 콘텐츠 제작에 적합
-
고품질 시각 표현
- 최대 14개 이미지 결합, 5명 인물 일관성 유지로 복잡한 합성 이미지 제작
- 로컬 편집, 카메라 각도 조정, 색상 보정, 조명 전환 등 세밀한 편집 제어 제공
- 2K 및 4K 해상도와 다양한 화면비 지원으로 인쇄 및 디지털 플랫폼 모두 대응
활용 환경
-
소비자 및 학생용
- Gemini 앱의 ‘Create images’ 기능에서 Nano Banana Pro 사용 가능
- 무료 이용자는 제한된 생성량 제공 후 기본 Nano Banana로 전환
- Google AI Plus, Pro, Ultra 구독자는 더 높은 생성 한도 제공
-
전문가용
- Google Ads의 이미지 생성 기능이 Nano Banana Pro로 업그레이드
- Google Workspace의 Slides와 Vids에서도 사용 가능
-
개발자 및 기업용
- Gemini API, Google AI Studio, Vertex AI, Antigravity, Gemini Enterprise 등에서 확장 지원
-
크리에이터용
- Flow 도구를 통해 영상 제작자와 마케터가 장면 단위로 세밀한 제어 가능
AI 생성 이미지 식별 및 투명성
- 모든 Nano Banana Pro 생성 이미지는 SynthID 디지털 워터마크가 삽입되어 출처 식별 가능
- Gemini 앱에서 이미지를 업로드해 “Google AI 생성 여부”를 직접 확인 가능
- 무료 및 Pro 이용자 이미지에는 가시적 워터마크(Gemini sparkle) 추가
- Ultra 구독자 및 AI Studio 개발자 도구에서는 워터마크 제거된 깨끗한 캔버스 제공
- SynthID는 향후 오디오 및 비디오 콘텐츠로 확장 예정
관련 자료
- Build with Nano Banana Pro: 개발자용 Gemini 3 Pro Image 모델 소개
- Prompting Tips for Nano Banana Pro: 효과적인 프롬프트 작성 가이드
- AI Image Verification in Gemini App: SynthID 기반 이미지 검증 기능 설명
원문에 추가 정보 없음
Hacker News 의견
-
이번 주 Google이 마치 고질라처럼 움직이는 느낌이었음
처음으로 AI Studio에 카드를 연결해봤는데, 결제 과정이 너무 복잡했음
모든 설정을 마쳤는데도 “permission denied” 오류가 계속 뜸
이렇게까지 해서 돈을 내야 한다면, 모델이 아무리 좋아도 의미가 없음- 불편한 경험을 드려 죄송함
접근성을 높이기 위해 팀이 열심히 개선 중임
결제 관련 마찰을 줄이기 위해 AI Studio 내장 결제 시스템을 준비 중이며, 1월 전 세계 출시 예정이라고 함 - Google API는 전반적으로 진입 장벽이 너무 높음
다른 서비스는 API 키 하나면 끝인데, Google은 계정 생성 → 앱 생성 → 서비스 활성화 → OAuth 앱 생성 → JSON 다운로드까지 해야 함 - 단순히 API만 쓰고 싶다면 Fal.ai의 Nano-Banana-Pro를 추천함
가입 절차가 훨씬 간단하고 다양한 AI 모델을 제공함 - 나도 Claude와 OpenAI의 유료 플랜을 쓰고 있지만, Gemini는 결제가 너무 어려워서 시도조차 힘듦
단순 테스트를 위해 GCP 프로젝트를 만드는 건 너무 과함 - Google의 AI 제품에 더 나은 개발자 프런트엔드를 만드는 것만으로도 비즈니스 기회가 있을 정도로 불편함이 큼
- 불편한 경험을 드려 죄송함
-
Nano Banana Pro로 모든 편집 관련 프롬프트를 다시 테스트했음
SHRDLU, M&M Van Halen, Scorpio Street 테스트를 통과함
결과는 여기서 확인 가능
NB Pro가 원본 NB보다 확실히 향상된 성능을 보였음- 기린 편집 테스트에서는 Seedream보다 NB Pro의 결과가 더 좋아 보였는데, 평가가 반대로 되어 있음
테스트 자체가 적절하지 않았던 것 같음 - NB Pro는 기린 테스트를 통과했어야 함
결과가 완벽하진 않지만 요청한 대로 수행했음 -
피사의 사탑 테스트가 흥미로웠음
명확한 지식이 필요한 프롬프트는 통과하지만, 단순히 기울어진 물체를 바로 세우는 건 여전히 어려움 - 각 테스트에서 원본 이미지를 항상 함께 보여주면 비교가 쉬울 것 같음
슬라이더 대신 원본-결과 동시 표시가 더 직관적일 듯함 - 사이트가 정말 유용함. 텍스트-이미지 벤치마크도 NB Pro로 진행할 계획이 있는지 궁금함
- 기린 편집 테스트에서는 Seedream보다 NB Pro의 결과가 더 좋아 보였는데, 평가가 반대로 되어 있음
-
몇 달 동안 Nano Banana 프롬프트 엔지니어링 분석을 진행했는데, Google이 새 버전을 내놓음
새 모델은 gemimg 패키지에서 바로 작동함
다만 가격이 비싸서 기본 모델로 설정하긴 어려움
문서에 따르면 모델이 중간 이미지(Thinking 단계) 를 최대 두 장 생성한다고 함
이게 비용 상승의 원인일 수도 있음- “왼쪽 눈에 딸기, 오른쪽 눈에 블랙베리” 프롬프트 예시가 흥미로웠음
모델이 관찰자 기준으로 좌우를 인식해 잘못 배치함
이런 상대적 지시 오류는 의료 현장에서도 흔한 문제임
관련 예시 링크 - Max의 Nano Banana 가이드가 여전히 유효함
NB Pro에서도 대부분의 프롬프트가 잘 작동함
가이드 링크
내 실험 결과도 공유함 - 입력 이미지당 비용은 $0.0011로, $0.06이 아님
- gemimg 0.3.2 버전을 배포했으며, NB Pro에서 이미지 오류 대부분이 수정됨
“Studio Ghibli 스타일 변환”은 ChatGPT보다 훨씬 정확함
다만 너무 사실적인 이미지가 언캐니 밸리로 빠지는 경우도 있음 - gemimg 래퍼는 여전히 유용함
기술 변화에 대응하는 적응력 있는 도구 설계가 중요함을 다시 느꼈음
- “왼쪽 눈에 딸기, 오른쪽 눈에 블랙베리” 프롬프트 예시가 흥미로웠음
-
짧은 프롬프트로 인포그래픽 전체를 생성하는 능력이 놀라움
“Datasette 프로젝트 작동 방식”을 요청했더니 완성도 높은 결과를 얻었음
결과 링크 -
AI 이미지가 더 이상 명백한 아티팩트를 만들지 않지만, 여전히 스타일로 인해 AI 티가 남음
특히 인포그래픽은 인간이 만든 것과 구분 가능했음
특정 데이터셋이 과대표집된 결과로 보임- 인간은 미세한 시각적 차이에 매우 민감함
평균값으로 훈련된 모델은 “평균적인 이미지 공간”을 만들어냄
관련 예시를 보면, 미세 조정으로 현실적인 결과도 가능함 - 단순히 데이터 문제만은 아님
일부 모델은 의도적으로 스타일을 제거해 인공적인 느낌을 줌
오픈 모델은 LoRA로 세밀한 조정이 가능하지만, 폐쇄형 모델은 어렵다는 점이 문제임 - 대부분의 모델이 웹 전체 데이터를 학습해 예측 가능한 평균 결과를 냄
독창적인 이미지를 원한다면 프롬프트 자체가 더 창의적이어야 함 - 여전히 질감, 비율, 조명 등에서 미묘한 오류가 남음
그래서 이미지 편집 기능이 다음 과제로 여겨짐 - 인간 피드백으로 미세 조정된 모델이 “평균 취향”을 학습해 개성이 사라짐
초기 모델은 품질은 낮았지만 더 흥미로운 결과를 냈음
- 인간은 미세한 시각적 차이에 매우 민감함
-
SynthID는 좋은 첫걸음이지만, 워터마크가 없는 AI 콘텐츠를 구분할 수 없다는 한계가 있음
대형 기업들이 표준화된 식별자를 도입해야 함- 정부가 워터마크를 의무화하는 건 위험하다고 생각함
포토샵에도 그런 규제가 있었다면 창의성이 크게 제한됐을 것임 - Apple은 언젠가 “Real Photos” 같은 기능을 내놓을 것 같음
실제 카메라로 찍은 사진임을 증명하고, iMessage에서 인증 표시를 붙이는 식으로 - 기업들이 워터마크를 적용하는 이유는 데이터 재학습 관리 때문임
결국 주요 상업 모델들은 기본적으로 워터마크를 강제하게 될 것임 - 표준 식별자가 생기면, 그걸 제거하는 소프트웨어도 생길 것임
끝없는 고양이와 쥐의 게임이 될 것임 - 이런 문제를 해결하려는 C2PA 프로젝트가 존재함
- 정부가 워터마크를 의무화하는 건 위험하다고 생각함
-
2D 애니메이터는 아직 안심해도 됨
스프라이트 시트를 생성해보니, 프레임을 단순 반복할 뿐 자연스러운 중간 동작(interpolation) 을 만들지 못했음 -
공식 자료 모음
Developer Blog
DeepMind Page
Model Card PDF
SynthID 소개 -
이 모델은 처음으로 내 피아노 테스트를 통과한 이미지 생성 모델임
옥타브별 검은 건반 패턴을 정확히 반복함
이전 모델들은 항상 건반 배열을 잘못 표현했음- 하지만 88건반 표준을 벗어나면 여전히 오류가 많음
특정 음을 색칠하라는 요청도 무작위로 처리함
피아노는 표준화된 물체라 학습 데이터가 많을 텐데도 이해가 부족함 - 반복 패턴을 장기간 유지하는 건 어려운 일임
88건반 전체의 일관성을 유지한 건 인상적임
- 하지만 88건반 표준을 벗어나면 여전히 오류가 많음
-
이제 모델이 텍스트를 이미지 안에 자연스럽게 렌더링할 수 있음
과거엔 불가능했던 기능이 이제는 기본처럼 느껴짐- 나도 동의함. 하지만 아이콘 생성처럼 시각과 코드가 겹치는 영역은 여전히 약함
곡선, 간격, 균형을 맞추는 세밀한 디자인은 아직 사람이 직접 하는 게 더 나음
- 나도 동의함. 하지만 아이콘 생성처럼 시각과 코드가 겹치는 영역은 여전히 약함