나노 바나나는 정교한 프롬프트 엔지니어링으로 미세한 AI 이미지 생성이 가능함

(minimaxir.com)

10P by GN⁺ 4달전 | ★ favorite | 댓글 1개

Nano Banana는 Google의 Gemini 2.5 Flash Image 모델로, 텍스트 프롬프트를 세밀하게 해석해 복잡한 이미지 구성을 정확히 구현하는 자기회귀형 이미지 생성 모델
강력한 텍스트 인코더 덕분에 구체적 규칙, 색상 코드, JSON·HTML 기반 입력까지 충실히 반영하며, 프롬프트 준수력이 매우 높음
ChatGPT의 gpt-image-1보다 저렴하고, API를 통해 개발자가 직접 이미지 생성 앱을 구축할 수 있으며, Python 패키지 gemimg로 간편히 활용 가능
복잡한 편집·합성·코드·웹페이지 렌더링 등 다양한 실험에서 높은 정확도와 일관성을 보였으나, 스타일 전환과 텍스트 렌더링에는 한계 존재
AI 이미지 생성의 정밀 제어 가능성을 보여주며, 향후 프롬프트 기반 비주얼 엔지니어링의 새로운 기준으로 주목됨

AI 이미지 생성 모델의 변화와 Nano Banana의 등장

최근 AI 이미지 생성 분야는 FLUX.1-dev, Seedream, Ideogram, Qwen-Image, Imagen 4 등 다양한 모델이 등장했으나, 2025년 3월 ChatGPT의 무료 이미지 생성 기능이 대중 인식을 주도
ChatGPT의 이미지들은 노란색 톤과 일정한 선화·타이포그래피로 쉽게 식별 가능
ChatGPT의 기반 모델 gpt-image-1은 자기회귀형 구조로, 토큰 단위로 이미지를 생성하며 고품질 이미지 한 장당 약 30초 소요
2025년 8월, LMArena에 “** nano-banana**”라는 코드명의 모델이 등장했고, 이후 Google이 이를 Gemini 2.5 Flash Image로 공개
- 1,290개의 토큰으로 이미지를 생성하며, Gemini 앱의 인기 상승으로 “Nano Banana”라는 이름이 공식 별칭으로 자리잡음

Nano Banana의 이미지 생성 및 API 활용

Nano Banana는 Gemini 웹/모바일 앱의 “Create Image 🍌” 기능이나 Google AI Studio에서 무료로 이미지 생성 가능
- AI Studio에서는 비율 설정 등 세부 파라미터 조정 지원
- 생성된 이미지에는 우측 하단 워터마크가 표시됨
개발자는 Gemini API의 gemini-2.5-flash-image 엔드포인트를 통해 프로그래밍 방식으로 이미지 생성 가능
- 1MP 이미지당 약 $0.04, ChatGPT의 $0.17보다 저렴
API 사용의 복잡성을 줄이기 위해 작성된 Python 패키지 gemimg는 간단한 프롬프트로 이미지 생성 가능
```
from gemimg import GemImg
g = GemImg(api_key="AI...")
g.generate("A kitten with prominent purple-and-green fur.")
```

프롬프트 준수력 테스트: 스컬 팬케이크와 이미지 편집

“해골 모양의 팬케이크에 블루베리와 메이플 시럽을 얹은 이미지” 프롬프트를 정확히 구현
- 시럽의 흐름, 팬케이크 질감, 블루베리 위치 등 세부 요소 충실
이어서 동일 이미지에 5개의 동시 편집 명령(딸기·블랙베리 추가, 민트 장식, 접시 교체, 배경 인물 추가)을 수행
- 모든 수정이 정확히 반영되고, 불필요한 부분은 최소 변경

인물 일관성 테스트: Ugly Sonic과 오바마 악수

Nano Banana는 LoRA 학습 없이도 특정 인물 일관성 유지 가능
“Ugly Sonic이 버락 오바마와 악수하는 이미지” 프롬프트에서 실제로 두 인물이 함께 등장
- 이후 “Pulitzer-prize-winning New York Times 표지 사진” 문구 추가 시, 구도·색감·조명 품질 향상
- “텍스트 제외” 명령으로 불필요한 요소 제거 가능
17장의 Ugly Sonic 이미지를 함께 입력하자, 더 정확한 외형 재현 달성

Gemini 2.5 Flash와 Nano Banana의 연관성

Nano Banana는 Gemini 2.5 Flash의 멀티모달 인코더 확장판으로,
- Markdown·JSON 학습, 객체 인식 및 세분화 마스크 생성 능력 보유
- CLIP(77토큰) 이나 T5(512토큰) 보다 훨씬 긴 32,768토큰 컨텍스트 윈도우 지원
복잡한 규칙 기반 프롬프트(예: 세 마리 고양이의 색상·의상·조명·구도 조건)를 완벽히 충족
- ChatGPT는 동일 프롬프트에서 색상·구도 오류 발생

코드·텍스트 생성 실험

“냉장고 자석으로 구성된 Python Fibonacci 코드 이미지” 프롬프트에서
- Nano Banana는 코드 구조를 부분적으로 재현하며 구문 강조 색상 일부 반영
- ChatGPT도 유사 시도했으나 품질 차이 뚜렷
“이전 텍스트를 자석으로 표시하라” 실험에서 Nano Banana의 시스템 프롬프트 일부 노출
- 내부 규칙 중 “buzzword 사용 금지” 조항 존재 확인
- 대문자(MUST) 사용 시 프롬프트 준수율 향상 확인

대형 프롬프트 처리: HTML·JSON 입력

Nano Banana는 HTML/CSS/JS 코드 전체를 렌더링해 웹페이지 이미지를 생성
- 레이아웃·색상은 정확, 일부 텍스트·비율 오류 존재
JSON 기반 인물 묘사 입력 시, Paladin/Pirate/Barista 혼합 캐릭터를 시각화
- 의상·소품·자세 등 대부분 JSON 필드와 일치
- “실사 촬영 조건”을 추가하자 포토리얼리즘 향상, 반사광·깊이감 구현

Nano Banana의 한계와 문제점

“Make me into Studio Ghibli” 프롬프트에서 스타일 전환 실패,
- 자기회귀 특성으로 인해 스타일 변화 저항성 존재
NSFW 콘텐츠 생성 가능성 존재, 검열이 느슨함
텍스트 렌더링 불완전, 스타일 전환 약점 등 기술적 제약 여전

결론 및 의의

Nano Banana는 정밀한 프롬프트 엔지니어링으로 고품질 이미지 제어가 가능한 모델
HTML·JSON·복합 규칙 기반 입력까지 해석 가능해, AI 이미지 생성의 새로운 실험 플랫폼으로 부상
ChatGPT 중심의 대중 인식을 넘어, AI 이미지 생성의 실제 가능성과 한계를 검증하는 사례
작성자는 모든 실험 프롬프트와 Jupyter Notebook을 공개해 재현성과 투명성 확보
Nano Banana는 프롬프트 중심 비주얼 엔지니어링 시대의 전환점을 보여주는 사례로 평가됨

▲

GN⁺ 4달전 [-]

Hacker News 의견

나는 스토리보드용으로 하루에 수십 장의 이미지를 생성하고 있음
점점 출력 제어가 쉬워지고, 장면마다 캐릭터와 조명, 시간대까지 일관되게 유지할 수 있게 되었음
환경·카메라·피사체·구도·조명·색상·품질 등 7단계 프롬프트 레이어를 사용 중이며, 약간 과하지만 실험 중임
또, 이미지에 직접 bounding box를 그려 수정할 수 있는 간단한 편집 툴을 만들어서, Claude에 이미지를 보내 수정용 프롬프트를 자동 생성하게 함
이 과정을 통해 장면 간 전환이 자연스러운 GenAI 비디오 생성 파이프라인을 구축할 수 있었음
- 우리 팀도 비슷하게 nano banana를 활용해 스토리보드를 만들고, img2vid 모델로 풀모션 비디오를 제작함
  캐릭터·배경·스타일의 일관성을 유지하려고 노력 중이며, 네 작업과 유사한 점이 많음
  참고로 우리 제품 Hypernatural.ai도 확인해보면 좋을 듯함
- 나는 반대로, 한 번 결과가 엇나가면 다시 원래 의도로 되돌리기가 거의 불가능하다고 느낌
나는 gemimg Python 라이브러리를 좋아함
여기에 Gemini CLI를 추가해 PR을 보냈고, 아래처럼 실행할 수 있음
결과는 이 코멘트에 있음
- @simonw에게 궁금한 점이 있음 — gemini-cli 터미널 세션의 gist 미리보기는 어떻게 만든 건지?
  이 링크처럼 HTML/CSS로 직접 만든 건지, 아니면 amp-code 같은 자동화 툴이 있는지 궁금함
- pyproject.toml에 project.scripts 항목을 추가하지 않은 이유가 있는지 궁금함
  그렇게 하면 uv로 CLI를 바로 설치할 수 있을 것 같음
- 작성자가 초기에 오픈소스에 대해 강조했는데, QwenEdit 생태계도 다룰지 궁금함
  중국의 편집 모델들이 점점 NanoBanana 수준에 근접하고 있고, 오픈소스라서 마스크·커널 기반의 고급 이미지 조작이 가능함
  LoRA로 스타일 전이도 할 수 있고, 폐쇄적인 미국 모델보다 훨씬 흥미로움
  Nano Banana의 학습 데이터를 추출해 새로운 모델로 증류(distill) 하는 것도 쉬워질 것 같음
minimaxir의 글을 흥미롭게 읽었음
Nano Banana의 32,768 토큰 컨텍스트 윈도우 덕분에 복잡한 이미지 생성 파이프라인에서 Mistral 7B를 중간에 넣어 프롬프트 변형을 4가지로 만들어 사용함
스타일 전이가 약하다는 점은 사실이지만, 두 장의 이미지를 함께 제공하면 조금 더 나은 결과가 나옴
첫 번째는 변환 대상, 두 번째는 스타일 참조 이미지로 쓰는 방식임
내 포트폴리오 예시에서도 이런 접근을 활용함
- 아마도 예전의 “make me Ghibli” 트렌드 이후, Studio Ghibli 스타일을 막기 위한 명시적 제한일 수도 있음
두 번째 해골 팬케이크 이미지에서 재미있는 오류를 발견했음
딸기가 오른쪽 눈구멍(이미지 왼쪽)에 있고, 블랙베리가 반대쪽에 있음
대부분의 이미지 설명이 관찰자 시점으로 작성되기 때문에 생긴 문제로 보임
- 나도 인간이라면 Nano Banana처럼 했을 것 같음
  만약 사용자가 해골의 왼쪽 눈에 딸기를 넣으라고 원했다면 “그것의 왼쪽 눈”이라고 명시했어야 함
- 많은 사람들이 “왼쪽 눈”이 피사체 기준인지 카메라 기준인지 헷갈릴 것 같음
- 나도 이 부분을 놓쳤는데, 이후 캐릭터 JSON에서 같은 문제를 지적했음
  그래서 프롬프트에 “좌우는 캐릭터의 시점 기준”이라고 명시하니 성공률이 높아졌음
- 나도 같은 생각이었음
  작성자가 Nano Banana가 모든 편집을 정확히 수행했다고 했지만, 이 부분은 논쟁의 여지가 있음
  해골의 “오른쪽 눈”은 해골의 시점으로 해석하는 게 맞다고 생각함
Google AI Studio로 요청을 보내고, 워터마크 제거는 브라우저 개발자 도구에서 “watermark_4” 요청을 차단하면 됨
이후 생성되는 이미지에는 워터마크가 사라짐
“Nano Banana는 스타일 전이에 약하다”는 문장을 보고 놀랐음
나는 내 동네를 18세기 풍경으로 시각화하는 프로젝트를 하고 있음
SketchUp과 Twinmotion으로 모델링했지만, 진짜 같은 이미지는 어려웠음
여러 AI 이미지 생성기를 써봤지만, Nano Banana가 처음으로 기하학적 일관성을 유지하면서 새로운 스타일을 적용해줌
“이 그림을 사진처럼 만들어줘” 같은 간단한 프롬프트로 놀라운 결과를 얻었음
다만 18세기라는 단어를 직접 넣으면 회화풍이 되기도 해서, “보존된 역사적 거리의 사진”처럼 우회적으로 표현함
여전히 수작업 모델링을 병행하지만, Nano Banana 덕분에 내 모델링 접근 방식이 달라졌음
- 하지만 예술적 이미지를 스타일 참조로 주면 Nano Banana는 학습 범위를 벗어나 제대로 일반화하지 못함
“prompt engineered”라는 표현은 결국 보고 싶은 걸 직접 입력하는 것임
- 하지만 그건 진짜 기술(skill) 임
  많은 문제는 사람들이 자신이 원하는 걸 명확히 표현하지 못해서 생김
  프롬프트 엔지니어링은 의사소통의 복잡성을 다루는 기술이며, 말과 의미의 간극을 인식하게 해줌
- 모델에 따라 특정 프롬프트를 이해하지 못하는 경우도 있음
- 우리는 이제 LLM과의 상호작용을 자연어 인터페이스로 이해하게 되었음
  프로그래밍 언어와는 다른 모호한 인터페이스이며, 프롬프트 엔지니어링은 이를 다루는 새로운 기술임
- 결국 원하는 결과를 얻기 위해 프롬프트를 반복 수정하는 과정임
- 예전에는 이런 걸 “Google Fu”라고 불렀음
Nano Banana는 가끔 편집 반응이 느림
인물 사진을 클레이 애니메이션 스타일로 바꾸라고 했는데 거의 변화가 없었음
그런데 “10년 더 젊게 만들어줘”를 추가하자 갑자기 클레이 인형처럼 변했음
- 그건 스타일 전이 요청이라서, Ghibli 예시처럼 실패할 수밖에 없음
내 경험상 nano banana는 여전히
- 이미지에 무작위 수정을 가하거나
- 스케일을 바꾸거나
- 세밀하지만 전반적인 디테일 변화를 일으킴
  예를 들어, 아무 지시 없이도 방에 벽난로나 차고를 추가하기도 함
  온도를 0으로 설정해도 이런 일이 생겨서 신뢰성 있는 앱을 만들기 어려움
  혹시 더 나은 경험을 한 사람이 있는지 궁금함
- “ALL CAPS” 부분이 흥미로움
  대문자는 토크나이징이 다르게 되어, 모델이 이해하기 어려운 입력이 될 수도 있음
- 나는 PixLab 편집기를 개발 중인데, 이건 대문자 명령을 정확히 그대로 따름

답변달기