Gemini 2.0 플래시 프리뷰: 이미지 생성 및 편집 기능 공개
(developers.googleblog.com)- Google이 Gemini 2.0 Flash 모델을 통한 이미지 생성 기능을 개발자 프리뷰로 공개
- 텍스트 기반 명령으로 이미지 생성, 수정, 부분 편집까지 가능하며, 시각 품질과 텍스트 렌더링도 개선됨
- 제품 리스킨, SKU 생성, 실시간 공동 편집 등 다양한 활용 사례 소개
- [Google AI Studio] 및 [Vertex AI]를 통해 바로 테스트 가능하며, API 사용량 제한도 상향 조정됨
Gemini 2.0 Flash 이미지 생성 기능 프리뷰 공개
- 개발자들의 피드백에 따라, Google은 Gemini 2.0 Flash 모델을 통해 이미지 생성 기능을 프리뷰 버전으로 제공
- 사용자는 Google AI Studio 또는 Vertex AI를 통해 이용 가능
주요 개선 사항
- 시각적 품질 향상 (이전 실험 버전 대비)
- 텍스트 렌더링 정확도 향상
- 필터 차단 비율 감소
활용 가능한 이미지 생성 기능 예시
- 제품 이미지 재배경화 : 기존 제품 사진을 다양한 배경과 환경으로 재구성 가능
- 실시간 협업 편집 : Gemini Co-Drawing 앱에서 다중 사용자 실시간 이미지 편집 지원
- 이미지 일부만 대화식 편집 : 전체를 변경하지 않고 특정 영역만 대화형 명령으로 수정 가능
- 제품 SKU 동적 생성 : 이미지와 텍스트를 조합해 신규 제품 변형(컬러, 라벨 등)을 자동 생성
- Gemini와 아이디어 발상 협업 : 텍스트+이미지 조합을 통해 요리, 제품, 기획 등 다양한 시나리오 구현 가능
API 사용 예시 (Python)
from google import genai
from google.genai import types
client = genai.Client(api_key="GEMINI_API_KEY")
response = client.models.generate_content(
model="gemini-2.0-flash-preview-image-generation",
contents=("Show me how to bake a macaron with images."),
config=types.GenerateContentConfig(
response_modalities=["TEXT", "IMAGE"]
),
)
향후 계획
- Google은 향후 더 높은 품질, 기능 추가, 속도 향상 및 요금제 개선 등을 통해 기능을 지속 확장할 예정
- 자세한 문서는 Gemini API 이미지 생성 가이드 참조
Hacker News 의견
- Gemini 2.0을 여러 이미지 생성 모델과 비교 테스트했음. Google의 Imagen 3.0이 얼마나 포함되었는지는 모르겠지만, 전반적인 미적 품질은 상당히 떨어지는 것 같음
- 주요 장점은 OpenAI의 제품과의 동등성을 유지하려는 멀티모달 측면과 OpenAI 4o 이미지 생성보다 훨씬 빠른 속도임
- 도구를 사용할 때마다 원하는 결과를 얻기 위해 여러 번 시도해야 하는 경우가 많음. 대화형 인터페이스 사용에 대한 의문이 있음
- 조심해서 사용해야 함. 예를 들어, 채식 버터 치킨 레시피를 요청했을 때 41MB의 JSON과 28개의 base64 이미지가 반환되었음. 이미지당 4센트로, 한 번의 요청에 1달러 이상이 소요됨
- Gemini 2.0을 사용하여 100개의 레시피와 이미지를 생성했으며, 결과가 꽤 잘 나왔음. 텍스트 프롬프트 대신 원시 데이터와 테이블 메타데이터를 사용함
- Gemini 2.0 이미지 생성의 이미지당 가격은 $0.039로 Imagen 3보다 비쌈. Gemini는 대화를 통해 이미지를 생성할 수 있지만, Imagen 3는 텍스트 입력/이미지 출력 방식임
- 코-드로잉 데모에서 혼합된 결과를 얻었음. 장면을 스케치하고 모델이 이를 확장하기를 기대했지만, 3D 렌더링된 스틱 피규어가 생성됨
- 모델 출력은 괜찮은 편이며, 최근 프로젝트에 새로운 모델을 업데이트했음. 여전히 많은 실패 모드가 있지만, 좋은 워크플로우를 보여주는 대형 요리책이 필요함
- Google과 다른 AI 회사들이 목표로 하는 것은 쇼핑이나 전자상거래에 사용될 수 있는 무한한 AI 생성 객체의 세계임. 이는 진정한 인간의 장인 정신과 실제 존재하는 객체에 대한 도전임