Gemini 2.5 Flash Image - 최신 이미

▲

GN⁺ 8달전 | parent | ★ favorite | on: Gemini 2.5 Flash Image - 최신 이미지 생성 및 편집 모델 공개(developers.googleblog.com)

Hacker News 의견

이건 이미지 편집 모델의 GPT-4 순간 같음. 트위터에서 놀라운 결과물 보기
- nano banana, 즉 gemini 2.5 flash는 성능이 엄청나서 lmarena에서 171 elo 포인트가 뛰었음
- Twitter에서 nano banana 검색하면 놀라운 결과들을 볼 수 있음
- 요즘 "nano banana" 도메인이 전부 등록돼서 각자 이미지 생성 UI를 제공하는데, 다들 인기 모델 이름을 이용한 중간 상인 같은 느낌임
- 왜 이름이 nano banana인지 궁금함
이게 바로 유명한 nano-banana 모델이고, 지금은 LMArena에서 gemini-2.5-flash-image-preview로 이름이 바뀜
- nano-banana가 뭔지 모르는 사람을 위한 링크 Google Nano Banana란 무엇인가? Google의 비밀 이미지 AI
- 나도 그게 궁금해서 들어왔는데 답을 얻어서 고마움
Gemini로 이미지를 만들려고 하면 절반은 불가능하다고 답변함
- 게다가 Google이 발표한 기능들이 여기저기 흩어져 있어서 어떤 제품에서 쓸 수 있는지, 어디서 결제해야 하는지 전혀 감이 안 오는 혼란스러움이 있음
이미지 모델들은 결국 시간 흡혈귀 같음
- 방 하나 만드는 건 쉽지만 같은 방을 여러 각도에서 일관성 있게 만드는 건 사실상 불가능함
- 이미지 일관성이 필요한 작업에는 쓰기 어려움
가족 사진을 디지털화했는데 손상된 게 많아서 복구가 힘들었음
- 이번 모델은 디테일을 바꾸지 않고 복원하는 게 좋아 보여서 드디어 쓸만한 시점이 온 것 같음
- 사실 이런 결함들은 필름 스캐너 + ICE 기능과 Vuescan 같은 소프트웨어로 자동 복구 가능함
  - 수백 장을 실험적인 클라우드 AI에 맡기는 건 불필요해 보임
- 혹시 비디오 화질 개선 소프트웨어 아는지 궁금함
  - Video 2000과 VHS 테이프를 디지털화 중인데, 추억 영상을 조금이라도 개선하고 싶음
- 잘 되길 바라지만, 예시 중 하나는 얼굴이 지나치게 AI화된 느낌이 있었음
- 사실 Flux Kontext라는 모델이 몇 달 전부터 이미 이 수준에 도달했음
모델 성능은 인상적이지만, 동시에 사회적 영향이 걱정됨
- Facebook 댓글만 봐도 불안해짐
- Google의 SynthID를 테스트해봤는데 꽤 괜찮았음
  - 압축, 크롭, 리사이즈, 색 보정, 오버페인팅에도 워터마크가 남아있음
- 나도 최근 SpaceX 발사 이벤트 중 딥페이크 사기에 속아 15k BTC를 잃었음
  - 기술이 너무 정교해서 공격이 점점 더 위험해짐
- Facebook 댓글은 봇이 돌리는 게 확실해 보임
램프 예시는 꽤 인상적이었음
- 전원 연결, 조명, 그림자까지 자연스럽게 표현됨
ChatGPT의 이미지 생성보다 훨씬 빠른 속도가 마음에 듦
- ChatGPT는 너무 느려서 알림으로 결과를 받아야 할 정도였음
- “Gemini 2.5 Flash Image를 써본 OpenAI 투자자들의 모습” 같은 이미지를 떠올리니 웃김
예전부터 하고 싶었던 작업이 있었음
- 이미지1에서 특정 객체를 이미지2의 객체로 교체하는 것인데, 위치까지 정확히 지정하고 싶었음
- 여러 모델을 시도했지만 다 실패했고, 이번 모델은 거의 맞췄지만 결국 다른 객체를 교체했음
- 혹시 특정 위치를 참조 이미지로 교체하는 데 특화된 모델이 있는지 궁금함
- Alibaba의 ACE++ 모델이 그런 기능을 지원함
  - phind.design에서 사용 중인데, 꽤 특수한 작업이라 흔하진 않음