10P by GN⁺ 3일전 | ★ favorite | 댓글 1개
  • Nano Banana ProGemini 3 Pro를 기반으로 한 구글 딥마인드의 최신 이미지 생성 및 편집 모델로, 시각적 아이디어를 정밀하게 구현하는 기능 제공
  • 텍스트 렌더링 향상다국어 지원을 통해 포스터, 목업, 인포그래픽 등에서 읽기 쉬운 문구를 직접 이미지에 삽입 가능
  • 최대 14개 이미지 결합, 5명 인물 일관성 유지, 2K~4K 해상도 지원 등으로 고품질 시각 콘텐츠 제작 지원
  • Google Ads, Workspace, Gemini 앱, AI Studio 등 다양한 구글 제품군에 통합되어 소비자, 전문가, 개발자 모두 활용 가능
  • SynthID 워터마크로 AI 생성 이미지의 투명성을 보장하며, AI 콘텐츠 식별 기능을 Gemini 앱에 직접 제공

Nano Banana Pro 개요

  • Nano Banana Pro는 Gemini 3 Pro의 추론 능력과 세계 지식을 활용해 시각 정보를 정교하게 시각화하는 모델
    • 이전 버전인 Nano Banana (Gemini 2.5 Flash Image) 이후 출시된 업그레이드 버전
    • 아이디어 구상, 데이터 시각화, 손글씨 노트 다이어그램화 등 다양한 디자인 작업 지원

주요 기능

  • 정확하고 맥락이 풍부한 시각 자료 생성
    • Gemini 3의 고급 추론 기능을 통해 교육용 인포그래픽, 다이어그램 등 사실 기반 콘텐츠 생성
    • Google Search의 실시간 정보와 연동해 날씨, 스포츠, 레시피 등 실시간 데이터 시각화 가능
  • 다국어 텍스트 렌더링
    • 이미지 내 텍스트를 정확하고 읽기 쉽게 표현하며, 여러 언어로 번역 및 현지화 가능
    • 다양한 폰트, 질감, 서체 스타일을 활용해 포스터나 브랜드 콘텐츠 제작에 적합
  • 고품질 시각 표현
    • 최대 14개 이미지 결합, 5명 인물 일관성 유지로 복잡한 합성 이미지 제작
    • 로컬 편집, 카메라 각도 조정, 색상 보정, 조명 전환 등 세밀한 편집 제어 제공
    • 2K 및 4K 해상도와 다양한 화면비 지원으로 인쇄 및 디지털 플랫폼 모두 대응

활용 환경

  • 소비자 및 학생용
    • Gemini 앱의 ‘Create images’ 기능에서 Nano Banana Pro 사용 가능
    • 무료 이용자는 제한된 생성량 제공 후 기본 Nano Banana로 전환
    • Google AI Plus, Pro, Ultra 구독자는 더 높은 생성 한도 제공
  • 전문가용
    • Google Ads의 이미지 생성 기능이 Nano Banana Pro로 업그레이드
    • Google WorkspaceSlidesVids에서도 사용 가능
  • 개발자 및 기업용
    • Gemini API, Google AI Studio, Vertex AI, Antigravity, Gemini Enterprise 등에서 확장 지원
  • 크리에이터용
    • Flow 도구를 통해 영상 제작자와 마케터가 장면 단위로 세밀한 제어 가능

AI 생성 이미지 식별 및 투명성

  • 모든 Nano Banana Pro 생성 이미지는 SynthID 디지털 워터마크가 삽입되어 출처 식별 가능
    • Gemini 앱에서 이미지를 업로드해 “Google AI 생성 여부”를 직접 확인 가능
    • 무료 및 Pro 이용자 이미지에는 가시적 워터마크(Gemini sparkle) 추가
    • Ultra 구독자 및 AI Studio 개발자 도구에서는 워터마크 제거된 깨끗한 캔버스 제공
  • SynthID는 향후 오디오 및 비디오 콘텐츠로 확장 예정

관련 자료

  • Build with Nano Banana Pro: 개발자용 Gemini 3 Pro Image 모델 소개
  • Prompting Tips for Nano Banana Pro: 효과적인 프롬프트 작성 가이드
  • AI Image Verification in Gemini App: SynthID 기반 이미지 검증 기능 설명

원문에 추가 정보 없음

Hacker News 의견
  • 이번 주 Google이 마치 고질라처럼 움직이는 느낌이었음
    처음으로 AI Studio에 카드를 연결해봤는데, 결제 과정이 너무 복잡했음
    모든 설정을 마쳤는데도 “permission denied” 오류가 계속 뜸
    이렇게까지 해서 돈을 내야 한다면, 모델이 아무리 좋아도 의미가 없음

    • 불편한 경험을 드려 죄송함
      접근성을 높이기 위해 팀이 열심히 개선 중임
      결제 관련 마찰을 줄이기 위해 AI Studio 내장 결제 시스템을 준비 중이며, 1월 전 세계 출시 예정이라고 함
    • Google API는 전반적으로 진입 장벽이 너무 높음
      다른 서비스는 API 키 하나면 끝인데, Google은 계정 생성 → 앱 생성 → 서비스 활성화 → OAuth 앱 생성 → JSON 다운로드까지 해야 함
    • 단순히 API만 쓰고 싶다면 Fal.ai의 Nano-Banana-Pro를 추천함
      가입 절차가 훨씬 간단하고 다양한 AI 모델을 제공함
    • 나도 ClaudeOpenAI의 유료 플랜을 쓰고 있지만, Gemini는 결제가 너무 어려워서 시도조차 힘듦
      단순 테스트를 위해 GCP 프로젝트를 만드는 건 너무 과함
    • Google의 AI 제품에 더 나은 개발자 프런트엔드를 만드는 것만으로도 비즈니스 기회가 있을 정도로 불편함이 큼
  • Nano Banana Pro로 모든 편집 관련 프롬프트를 다시 테스트했음
    SHRDLU, M&M Van Halen, Scorpio Street 테스트를 통과함
    결과는 여기서 확인 가능
    NB Pro가 원본 NB보다 확실히 향상된 성능을 보였음

    • 기린 편집 테스트에서는 Seedream보다 NB Pro의 결과가 더 좋아 보였는데, 평가가 반대로 되어 있음
      테스트 자체가 적절하지 않았던 것 같음
    • NB Pro는 기린 테스트를 통과했어야 함
      결과가 완벽하진 않지만 요청한 대로 수행했음
    • 피사의 사탑 테스트가 흥미로웠음
      명확한 지식이 필요한 프롬프트는 통과하지만, 단순히 기울어진 물체를 바로 세우는 건 여전히 어려움
    • 각 테스트에서 원본 이미지를 항상 함께 보여주면 비교가 쉬울 것 같음
      슬라이더 대신 원본-결과 동시 표시가 더 직관적일 듯함
    • 사이트가 정말 유용함. 텍스트-이미지 벤치마크도 NB Pro로 진행할 계획이 있는지 궁금함
  • 몇 달 동안 Nano Banana 프롬프트 엔지니어링 분석을 진행했는데, Google이 새 버전을 내놓음
    새 모델은 gemimg 패키지에서 바로 작동함
    다만 가격이 비싸서 기본 모델로 설정하긴 어려움
    문서에 따르면 모델이 중간 이미지(Thinking 단계) 를 최대 두 장 생성한다고 함
    이게 비용 상승의 원인일 수도 있음

    • “왼쪽 눈에 딸기, 오른쪽 눈에 블랙베리” 프롬프트 예시가 흥미로웠음
      모델이 관찰자 기준으로 좌우를 인식해 잘못 배치함
      이런 상대적 지시 오류는 의료 현장에서도 흔한 문제임
      관련 예시 링크
    • Max의 Nano Banana 가이드가 여전히 유효함
      NB Pro에서도 대부분의 프롬프트가 잘 작동함
      가이드 링크
      내 실험 결과도 공유함
    • 입력 이미지당 비용은 $0.0011로, $0.06이 아님
    • gemimg 0.3.2 버전을 배포했으며, NB Pro에서 이미지 오류 대부분이 수정됨
      “Studio Ghibli 스타일 변환”은 ChatGPT보다 훨씬 정확함
      다만 너무 사실적인 이미지가 언캐니 밸리로 빠지는 경우도 있음
    • gemimg 래퍼는 여전히 유용함
      기술 변화에 대응하는 적응력 있는 도구 설계가 중요함을 다시 느꼈음
  • 짧은 프롬프트로 인포그래픽 전체를 생성하는 능력이 놀라움
    “Datasette 프로젝트 작동 방식”을 요청했더니 완성도 높은 결과를 얻었음
    결과 링크

    • 이 기능은 SaaS에서 이벤트 전단 생성 기능을 혁신적으로 바꿀 수 있음
      지금은 텍스트를 따로 렌더링했는데, 이제는 한 번에 처리 가능할 듯함
    • 피아노 키보드에서 중앙 C를 찾는 데는 실패했음
      결과 이미지 참고
    • 정보가 거의 없는 프로젝트(player.html)에 대해서도 인포그래픽을 잘 생성함
      GitHub 링크
      인스타그램용 정사각형 포맷으로도 자동 변환해줌
    • Datasette 인포그래픽이 실제 작동 방식과 일치하는지 궁금함
  • AI 이미지가 더 이상 명백한 아티팩트를 만들지 않지만, 여전히 스타일로 인해 AI 티가 남음
    특히 인포그래픽은 인간이 만든 것과 구분 가능했음
    특정 데이터셋이 과대표집된 결과로 보임

    • 인간은 미세한 시각적 차이에 매우 민감함
      평균값으로 훈련된 모델은 “평균적인 이미지 공간”을 만들어냄
      관련 예시를 보면, 미세 조정으로 현실적인 결과도 가능함
    • 단순히 데이터 문제만은 아님
      일부 모델은 의도적으로 스타일을 제거해 인공적인 느낌을 줌
      오픈 모델은 LoRA로 세밀한 조정이 가능하지만, 폐쇄형 모델은 어렵다는 점이 문제임
    • 대부분의 모델이 웹 전체 데이터를 학습해 예측 가능한 평균 결과를 냄
      독창적인 이미지를 원한다면 프롬프트 자체가 더 창의적이어야 함
    • 여전히 질감, 비율, 조명 등에서 미묘한 오류가 남음
      그래서 이미지 편집 기능이 다음 과제로 여겨짐
    • 인간 피드백으로 미세 조정된 모델이 “평균 취향”을 학습해 개성이 사라짐
      초기 모델은 품질은 낮았지만 더 흥미로운 결과를 냈음
  • SynthID는 좋은 첫걸음이지만, 워터마크가 없는 AI 콘텐츠를 구분할 수 없다는 한계가 있음
    대형 기업들이 표준화된 식별자를 도입해야 함

    • 정부가 워터마크를 의무화하는 건 위험하다고 생각함
      포토샵에도 그런 규제가 있었다면 창의성이 크게 제한됐을 것임
    • Apple은 언젠가 “Real Photos” 같은 기능을 내놓을 것 같음
      실제 카메라로 찍은 사진임을 증명하고, iMessage에서 인증 표시를 붙이는 식으로
    • 기업들이 워터마크를 적용하는 이유는 데이터 재학습 관리 때문임
      결국 주요 상업 모델들은 기본적으로 워터마크를 강제하게 될 것임
    • 표준 식별자가 생기면, 그걸 제거하는 소프트웨어도 생길 것임
      끝없는 고양이와 쥐의 게임이 될 것임
    • 이런 문제를 해결하려는 C2PA 프로젝트가 존재함
  • 2D 애니메이터는 아직 안심해도 됨
    스프라이트 시트를 생성해보니, 프레임을 단순 반복할 뿐 자연스러운 중간 동작(interpolation) 을 만들지 못했음

  • 공식 자료 모음
    Developer Blog
    DeepMind Page
    Model Card PDF
    SynthID 소개

  • 이 모델은 처음으로 내 피아노 테스트를 통과한 이미지 생성 모델임
    옥타브별 검은 건반 패턴을 정확히 반복함
    이전 모델들은 항상 건반 배열을 잘못 표현했음

    • 하지만 88건반 표준을 벗어나면 여전히 오류가 많음
      특정 음을 색칠하라는 요청도 무작위로 처리함
      피아노는 표준화된 물체라 학습 데이터가 많을 텐데도 이해가 부족함
    • 반복 패턴을 장기간 유지하는 건 어려운 일임
      88건반 전체의 일관성을 유지한 건 인상적임
  • 이제 모델이 텍스트를 이미지 안에 자연스럽게 렌더링할 수 있음
    과거엔 불가능했던 기능이 이제는 기본처럼 느껴짐

    • 나도 동의함. 하지만 아이콘 생성처럼 시각과 코드가 겹치는 영역은 여전히 약함
      곡선, 간격, 균형을 맞추는 세밀한 디자인은 아직 사람이 직접 하는 게 더 나음