나노 바나나는 정교한 프롬프트 엔지니어링으로 미세한 A

▲

GN⁺ 5달전 | parent | ★ favorite | on: 나노 바나나는 정교한 프롬프트 엔지니어링으로 미세한 AI 이미지 생성이 가능함(minimaxir.com)

Hacker News 의견

나는 스토리보드용으로 하루에 수십 장의 이미지를 생성하고 있음
점점 출력 제어가 쉬워지고, 장면마다 캐릭터와 조명, 시간대까지 일관되게 유지할 수 있게 되었음
환경·카메라·피사체·구도·조명·색상·품질 등 7단계 프롬프트 레이어를 사용 중이며, 약간 과하지만 실험 중임
또, 이미지에 직접 bounding box를 그려 수정할 수 있는 간단한 편집 툴을 만들어서, Claude에 이미지를 보내 수정용 프롬프트를 자동 생성하게 함
이 과정을 통해 장면 간 전환이 자연스러운 GenAI 비디오 생성 파이프라인을 구축할 수 있었음
- 우리 팀도 비슷하게 nano banana를 활용해 스토리보드를 만들고, img2vid 모델로 풀모션 비디오를 제작함
  캐릭터·배경·스타일의 일관성을 유지하려고 노력 중이며, 네 작업과 유사한 점이 많음
  참고로 우리 제품 Hypernatural.ai도 확인해보면 좋을 듯함
- 나는 반대로, 한 번 결과가 엇나가면 다시 원래 의도로 되돌리기가 거의 불가능하다고 느낌
나는 gemimg Python 라이브러리를 좋아함
여기에 Gemini CLI를 추가해 PR을 보냈고, 아래처럼 실행할 수 있음
결과는 이 코멘트에 있음
- @simonw에게 궁금한 점이 있음 — gemini-cli 터미널 세션의 gist 미리보기는 어떻게 만든 건지?
  이 링크처럼 HTML/CSS로 직접 만든 건지, 아니면 amp-code 같은 자동화 툴이 있는지 궁금함
- pyproject.toml에 project.scripts 항목을 추가하지 않은 이유가 있는지 궁금함
  그렇게 하면 uv로 CLI를 바로 설치할 수 있을 것 같음
- 작성자가 초기에 오픈소스에 대해 강조했는데, QwenEdit 생태계도 다룰지 궁금함
  중국의 편집 모델들이 점점 NanoBanana 수준에 근접하고 있고, 오픈소스라서 마스크·커널 기반의 고급 이미지 조작이 가능함
  LoRA로 스타일 전이도 할 수 있고, 폐쇄적인 미국 모델보다 훨씬 흥미로움
  Nano Banana의 학습 데이터를 추출해 새로운 모델로 증류(distill) 하는 것도 쉬워질 것 같음
minimaxir의 글을 흥미롭게 읽었음
Nano Banana의 32,768 토큰 컨텍스트 윈도우 덕분에 복잡한 이미지 생성 파이프라인에서 Mistral 7B를 중간에 넣어 프롬프트 변형을 4가지로 만들어 사용함
스타일 전이가 약하다는 점은 사실이지만, 두 장의 이미지를 함께 제공하면 조금 더 나은 결과가 나옴
첫 번째는 변환 대상, 두 번째는 스타일 참조 이미지로 쓰는 방식임
내 포트폴리오 예시에서도 이런 접근을 활용함
- 아마도 예전의 “make me Ghibli” 트렌드 이후, Studio Ghibli 스타일을 막기 위한 명시적 제한일 수도 있음
두 번째 해골 팬케이크 이미지에서 재미있는 오류를 발견했음
딸기가 오른쪽 눈구멍(이미지 왼쪽)에 있고, 블랙베리가 반대쪽에 있음
대부분의 이미지 설명이 관찰자 시점으로 작성되기 때문에 생긴 문제로 보임
- 나도 인간이라면 Nano Banana처럼 했을 것 같음
  만약 사용자가 해골의 왼쪽 눈에 딸기를 넣으라고 원했다면 “그것의 왼쪽 눈”이라고 명시했어야 함
- 많은 사람들이 “왼쪽 눈”이 피사체 기준인지 카메라 기준인지 헷갈릴 것 같음
- 나도 이 부분을 놓쳤는데, 이후 캐릭터 JSON에서 같은 문제를 지적했음
  그래서 프롬프트에 “좌우는 캐릭터의 시점 기준”이라고 명시하니 성공률이 높아졌음
- 나도 같은 생각이었음
  작성자가 Nano Banana가 모든 편집을 정확히 수행했다고 했지만, 이 부분은 논쟁의 여지가 있음
  해골의 “오른쪽 눈”은 해골의 시점으로 해석하는 게 맞다고 생각함
Google AI Studio로 요청을 보내고, 워터마크 제거는 브라우저 개발자 도구에서 “watermark_4” 요청을 차단하면 됨
이후 생성되는 이미지에는 워터마크가 사라짐
“Nano Banana는 스타일 전이에 약하다”는 문장을 보고 놀랐음
나는 내 동네를 18세기 풍경으로 시각화하는 프로젝트를 하고 있음
SketchUp과 Twinmotion으로 모델링했지만, 진짜 같은 이미지는 어려웠음
여러 AI 이미지 생성기를 써봤지만, Nano Banana가 처음으로 기하학적 일관성을 유지하면서 새로운 스타일을 적용해줌
“이 그림을 사진처럼 만들어줘” 같은 간단한 프롬프트로 놀라운 결과를 얻었음
다만 18세기라는 단어를 직접 넣으면 회화풍이 되기도 해서, “보존된 역사적 거리의 사진”처럼 우회적으로 표현함
여전히 수작업 모델링을 병행하지만, Nano Banana 덕분에 내 모델링 접근 방식이 달라졌음
- 하지만 예술적 이미지를 스타일 참조로 주면 Nano Banana는 학습 범위를 벗어나 제대로 일반화하지 못함
“prompt engineered”라는 표현은 결국 보고 싶은 걸 직접 입력하는 것임
- 하지만 그건 진짜 기술(skill) 임
  많은 문제는 사람들이 자신이 원하는 걸 명확히 표현하지 못해서 생김
  프롬프트 엔지니어링은 의사소통의 복잡성을 다루는 기술이며, 말과 의미의 간극을 인식하게 해줌
- 모델에 따라 특정 프롬프트를 이해하지 못하는 경우도 있음
- 우리는 이제 LLM과의 상호작용을 자연어 인터페이스로 이해하게 되었음
  프로그래밍 언어와는 다른 모호한 인터페이스이며, 프롬프트 엔지니어링은 이를 다루는 새로운 기술임
- 결국 원하는 결과를 얻기 위해 프롬프트를 반복 수정하는 과정임
- 예전에는 이런 걸 “Google Fu”라고 불렀음
Nano Banana는 가끔 편집 반응이 느림
인물 사진을 클레이 애니메이션 스타일로 바꾸라고 했는데 거의 변화가 없었음
그런데 “10년 더 젊게 만들어줘”를 추가하자 갑자기 클레이 인형처럼 변했음
- 그건 스타일 전이 요청이라서, Ghibli 예시처럼 실패할 수밖에 없음
내 경험상 nano banana는 여전히
- 이미지에 무작위 수정을 가하거나
- 스케일을 바꾸거나
- 세밀하지만 전반적인 디테일 변화를 일으킴
  예를 들어, 아무 지시 없이도 방에 벽난로나 차고를 추가하기도 함
  온도를 0으로 설정해도 이런 일이 생겨서 신뢰성 있는 앱을 만들기 어려움
  혹시 더 나은 경험을 한 사람이 있는지 궁금함
- “ALL CAPS” 부분이 흥미로움
  대문자는 토크나이징이 다르게 되어, 모델이 이해하기 어려운 입력이 될 수도 있음
- 나는 PixLab 편집기를 개발 중인데, 이건 대문자 명령을 정확히 그대로 따름