나노 바나나 프로: 구글 딥마인드의 Gemini 3 Pro 기반 이미지 생성 모델

(blog.google)

11P by GN⁺ 3달전 | ★ favorite | 댓글 1개

Nano Banana Pro는 Gemini 3 Pro를 기반으로 한 구글 딥마인드의 최신 이미지 생성 및 편집 모델로, 시각적 아이디어를 정밀하게 구현하는 기능 제공
텍스트 렌더링 향상과 다국어 지원을 통해 포스터, 목업, 인포그래픽 등에서 읽기 쉬운 문구를 직접 이미지에 삽입 가능
최대 14개 이미지 결합, 5명 인물 일관성 유지, 2K~4K 해상도 지원 등으로 고품질 시각 콘텐츠 제작 지원
Google Ads, Workspace, Gemini 앱, AI Studio 등 다양한 구글 제품군에 통합되어 소비자, 전문가, 개발자 모두 활용 가능
SynthID 워터마크로 AI 생성 이미지의 투명성을 보장하며, AI 콘텐츠 식별 기능을 Gemini 앱에 직접 제공

Nano Banana Pro 개요

Nano Banana Pro는 Gemini 3 Pro의 추론 능력과 세계 지식을 활용해 시각 정보를 정교하게 시각화하는 모델
- 이전 버전인 Nano Banana (Gemini 2.5 Flash Image) 이후 출시된 업그레이드 버전
- 아이디어 구상, 데이터 시각화, 손글씨 노트 다이어그램화 등 다양한 디자인 작업 지원

주요 기능

정확하고 맥락이 풍부한 시각 자료 생성
- Gemini 3의 고급 추론 기능을 통해 교육용 인포그래픽, 다이어그램 등 사실 기반 콘텐츠 생성
- Google Search의 실시간 정보와 연동해 날씨, 스포츠, 레시피 등 실시간 데이터 시각화 가능
다국어 텍스트 렌더링
- 이미지 내 텍스트를 정확하고 읽기 쉽게 표현하며, 여러 언어로 번역 및 현지화 가능
- 다양한 폰트, 질감, 서체 스타일을 활용해 포스터나 브랜드 콘텐츠 제작에 적합
고품질 시각 표현
- 최대 14개 이미지 결합, 5명 인물 일관성 유지로 복잡한 합성 이미지 제작
- 로컬 편집, 카메라 각도 조정, 색상 보정, 조명 전환 등 세밀한 편집 제어 제공
- 2K 및 4K 해상도와 다양한 화면비 지원으로 인쇄 및 디지털 플랫폼 모두 대응

활용 환경

소비자 및 학생용
- Gemini 앱의 ‘Create images’ 기능에서 Nano Banana Pro 사용 가능
- 무료 이용자는 제한된 생성량 제공 후 기본 Nano Banana로 전환
- Google AI Plus, Pro, Ultra 구독자는 더 높은 생성 한도 제공
전문가용
- Google Ads의 이미지 생성 기능이 Nano Banana Pro로 업그레이드
- Google Workspace의 Slides와 Vids에서도 사용 가능
개발자 및 기업용
- Gemini API, Google AI Studio, Vertex AI, Antigravity, Gemini Enterprise 등에서 확장 지원
크리에이터용
- Flow 도구를 통해 영상 제작자와 마케터가 장면 단위로 세밀한 제어 가능

AI 생성 이미지 식별 및 투명성

모든 Nano Banana Pro 생성 이미지는 SynthID 디지털 워터마크가 삽입되어 출처 식별 가능
- Gemini 앱에서 이미지를 업로드해 “Google AI 생성 여부”를 직접 확인 가능
- 무료 및 Pro 이용자 이미지에는 가시적 워터마크(Gemini sparkle) 추가
- Ultra 구독자 및 AI Studio 개발자 도구에서는 워터마크 제거된 깨끗한 캔버스 제공
SynthID는 향후 오디오 및 비디오 콘텐츠로 확장 예정

관련 자료

Build with Nano Banana Pro: 개발자용 Gemini 3 Pro Image 모델 소개
Prompting Tips for Nano Banana Pro: 효과적인 프롬프트 작성 가이드
AI Image Verification in Gemini App: SynthID 기반 이미지 검증 기능 설명

원문에 추가 정보 없음

▲

GN⁺ 3달전 [-]

Hacker News 의견

이번 주 Google이 마치 고질라처럼 움직이는 느낌이었음
처음으로 AI Studio에 카드를 연결해봤는데, 결제 과정이 너무 복잡했음
모든 설정을 마쳤는데도 “permission denied” 오류가 계속 뜸
이렇게까지 해서 돈을 내야 한다면, 모델이 아무리 좋아도 의미가 없음
- 불편한 경험을 드려 죄송함
  접근성을 높이기 위해 팀이 열심히 개선 중임
  결제 관련 마찰을 줄이기 위해 AI Studio 내장 결제 시스템을 준비 중이며, 1월 전 세계 출시 예정이라고 함
- Google API는 전반적으로 진입 장벽이 너무 높음
  다른 서비스는 API 키 하나면 끝인데, Google은 계정 생성 → 앱 생성 → 서비스 활성화 → OAuth 앱 생성 → JSON 다운로드까지 해야 함
- 단순히 API만 쓰고 싶다면 Fal.ai의 Nano-Banana-Pro를 추천함
  가입 절차가 훨씬 간단하고 다양한 AI 모델을 제공함
- 나도 Claude와 OpenAI의 유료 플랜을 쓰고 있지만, Gemini는 결제가 너무 어려워서 시도조차 힘듦
  단순 테스트를 위해 GCP 프로젝트를 만드는 건 너무 과함
- Google의 AI 제품에 더 나은 개발자 프런트엔드를 만드는 것만으로도 비즈니스 기회가 있을 정도로 불편함이 큼
Nano Banana Pro로 모든 편집 관련 프롬프트를 다시 테스트했음
SHRDLU, M&M Van Halen, Scorpio Street 테스트를 통과함
결과는 여기서 확인 가능
NB Pro가 원본 NB보다 확실히 향상된 성능을 보였음
- 기린 편집 테스트에서는 Seedream보다 NB Pro의 결과가 더 좋아 보였는데, 평가가 반대로 되어 있음
  테스트 자체가 적절하지 않았던 것 같음
- NB Pro는 기린 테스트를 통과했어야 함
  결과가 완벽하진 않지만 요청한 대로 수행했음
- 피사의 사탑 테스트가 흥미로웠음
  명확한 지식이 필요한 프롬프트는 통과하지만, 단순히 기울어진 물체를 바로 세우는 건 여전히 어려움
- 각 테스트에서 원본 이미지를 항상 함께 보여주면 비교가 쉬울 것 같음
  슬라이더 대신 원본-결과 동시 표시가 더 직관적일 듯함
- 사이트가 정말 유용함. 텍스트-이미지 벤치마크도 NB Pro로 진행할 계획이 있는지 궁금함
몇 달 동안 Nano Banana 프롬프트 엔지니어링 분석을 진행했는데, Google이 새 버전을 내놓음
새 모델은 gemimg 패키지에서 바로 작동함
다만 가격이 비싸서 기본 모델로 설정하긴 어려움
문서에 따르면 모델이 중간 이미지(Thinking 단계) 를 최대 두 장 생성한다고 함
이게 비용 상승의 원인일 수도 있음
- “왼쪽 눈에 딸기, 오른쪽 눈에 블랙베리” 프롬프트 예시가 흥미로웠음
  모델이 관찰자 기준으로 좌우를 인식해 잘못 배치함
  이런 상대적 지시 오류는 의료 현장에서도 흔한 문제임
  관련 예시 링크
- Max의 Nano Banana 가이드가 여전히 유효함
  NB Pro에서도 대부분의 프롬프트가 잘 작동함
  가이드 링크
  내 실험 결과도 공유함
- 입력 이미지당 비용은 $0.0011로, $0.06이 아님
- gemimg 0.3.2 버전을 배포했으며, NB Pro에서 이미지 오류 대부분이 수정됨
  “Studio Ghibli 스타일 변환”은 ChatGPT보다 훨씬 정확함
  다만 너무 사실적인 이미지가 언캐니 밸리로 빠지는 경우도 있음
- gemimg 래퍼는 여전히 유용함
  기술 변화에 대응하는 적응력 있는 도구 설계가 중요함을 다시 느꼈음
짧은 프롬프트로 인포그래픽 전체를 생성하는 능력이 놀라움
“Datasette 프로젝트 작동 방식”을 요청했더니 완성도 높은 결과를 얻었음
결과 링크
- 이 기능은 SaaS에서 이벤트 전단 생성 기능을 혁신적으로 바꿀 수 있음
  지금은 텍스트를 따로 렌더링했는데, 이제는 한 번에 처리 가능할 듯함
- 피아노 키보드에서 중앙 C를 찾는 데는 실패했음
  결과 이미지 참고
- 정보가 거의 없는 프로젝트(player.html)에 대해서도 인포그래픽을 잘 생성함
  GitHub 링크
  인스타그램용 정사각형 포맷으로도 자동 변환해줌
- Datasette 인포그래픽이 실제 작동 방식과 일치하는지 궁금함
AI 이미지가 더 이상 명백한 아티팩트를 만들지 않지만, 여전히 스타일로 인해 AI 티가 남음
특히 인포그래픽은 인간이 만든 것과 구분 가능했음
특정 데이터셋이 과대표집된 결과로 보임
- 인간은 미세한 시각적 차이에 매우 민감함
  평균값으로 훈련된 모델은 “평균적인 이미지 공간”을 만들어냄
  관련 예시를 보면, 미세 조정으로 현실적인 결과도 가능함
- 단순히 데이터 문제만은 아님
  일부 모델은 의도적으로 스타일을 제거해 인공적인 느낌을 줌
  오픈 모델은 LoRA로 세밀한 조정이 가능하지만, 폐쇄형 모델은 어렵다는 점이 문제임
- 대부분의 모델이 웹 전체 데이터를 학습해 예측 가능한 평균 결과를 냄
  독창적인 이미지를 원한다면 프롬프트 자체가 더 창의적이어야 함
- 여전히 질감, 비율, 조명 등에서 미묘한 오류가 남음
  그래서 이미지 편집 기능이 다음 과제로 여겨짐
- 인간 피드백으로 미세 조정된 모델이 “평균 취향”을 학습해 개성이 사라짐
  초기 모델은 품질은 낮았지만 더 흥미로운 결과를 냈음
SynthID는 좋은 첫걸음이지만, 워터마크가 없는 AI 콘텐츠를 구분할 수 없다는 한계가 있음
대형 기업들이 표준화된 식별자를 도입해야 함
- 정부가 워터마크를 의무화하는 건 위험하다고 생각함
  포토샵에도 그런 규제가 있었다면 창의성이 크게 제한됐을 것임
- Apple은 언젠가 “Real Photos” 같은 기능을 내놓을 것 같음
  실제 카메라로 찍은 사진임을 증명하고, iMessage에서 인증 표시를 붙이는 식으로
- 기업들이 워터마크를 적용하는 이유는 데이터 재학습 관리 때문임
  결국 주요 상업 모델들은 기본적으로 워터마크를 강제하게 될 것임
- 표준 식별자가 생기면, 그걸 제거하는 소프트웨어도 생길 것임
  끝없는 고양이와 쥐의 게임이 될 것임
- 이런 문제를 해결하려는 C2PA 프로젝트가 존재함
2D 애니메이터는 아직 안심해도 됨
스프라이트 시트를 생성해보니, 프레임을 단순 반복할 뿐 자연스러운 중간 동작(interpolation) 을 만들지 못했음
공식 자료 모음
Developer Blog
DeepMind Page
Model Card PDF
SynthID 소개
이 모델은 처음으로 내 피아노 테스트를 통과한 이미지 생성 모델임
옥타브별 검은 건반 패턴을 정확히 반복함
이전 모델들은 항상 건반 배열을 잘못 표현했음
- 하지만 88건반 표준을 벗어나면 여전히 오류가 많음
  특정 음을 색칠하라는 요청도 무작위로 처리함
  피아노는 표준화된 물체라 학습 데이터가 많을 텐데도 이해가 부족함
- 반복 패턴을 장기간 유지하는 건 어려운 일임
  88건반 전체의 일관성을 유지한 건 인상적임
이제 모델이 텍스트를 이미지 안에 자연스럽게 렌더링할 수 있음
과거엔 불가능했던 기능이 이제는 기본처럼 느껴짐
- 나도 동의함. 하지만 아이콘 생성처럼 시각과 코드가 겹치는 영역은 여전히 약함
  곡선, 간격, 균형을 맞추는 세밀한 디자인은 아직 사람이 직접 하는 게 더 나음

답변달기