2P by GN⁺ 14시간전 | ★ favorite | 댓글 1개
  • Google이 Gemini 2.0 Flash 모델을 통한 이미지 생성 기능을 개발자 프리뷰로 공개
  • 텍스트 기반 명령으로 이미지 생성, 수정, 부분 편집까지 가능하며, 시각 품질과 텍스트 렌더링도 개선됨
  • 제품 리스킨, SKU 생성, 실시간 공동 편집 등 다양한 활용 사례 소개
  • [Google AI Studio] 및 [Vertex AI]를 통해 바로 테스트 가능하며, API 사용량 제한도 상향 조정

Gemini 2.0 Flash 이미지 생성 기능 프리뷰 공개

  • 개발자들의 피드백에 따라, Google은 Gemini 2.0 Flash 모델을 통해 이미지 생성 기능을 프리뷰 버전으로 제공
  • 사용자는 Google AI Studio 또는 Vertex AI를 통해 이용 가능

주요 개선 사항

  • 시각적 품질 향상 (이전 실험 버전 대비)
  • 텍스트 렌더링 정확도 향상
  • 필터 차단 비율 감소

활용 가능한 이미지 생성 기능 예시

  • 제품 이미지 재배경화 : 기존 제품 사진을 다양한 배경과 환경으로 재구성 가능
  • 실시간 협업 편집 : Gemini Co-Drawing 앱에서 다중 사용자 실시간 이미지 편집 지원
  • 이미지 일부만 대화식 편집 : 전체를 변경하지 않고 특정 영역만 대화형 명령으로 수정 가능
  • 제품 SKU 동적 생성 : 이미지와 텍스트를 조합해 신규 제품 변형(컬러, 라벨 등)을 자동 생성
  • Gemini와 아이디어 발상 협업 : 텍스트+이미지 조합을 통해 요리, 제품, 기획 등 다양한 시나리오 구현 가능

API 사용 예시 (Python)

from google import genai  
from google.genai import types  
  
client = genai.Client(api_key="GEMINI_API_KEY")  
response = client.models.generate_content(  
    model="gemini-2.0-flash-preview-image-generation",  
    contents=("Show me how to bake a macaron with images."),  
    config=types.GenerateContentConfig(  
        response_modalities=["TEXT", "IMAGE"]  
    ),  
)  

향후 계획

  • Google은 향후 더 높은 품질, 기능 추가, 속도 향상 및 요금제 개선 등을 통해 기능을 지속 확장할 예정
  • 자세한 문서는 Gemini API 이미지 생성 가이드 참조
Hacker News 의견
  • Gemini 2.0을 여러 이미지 생성 모델과 비교 테스트했음. Google의 Imagen 3.0이 얼마나 포함되었는지는 모르겠지만, 전반적인 미적 품질은 상당히 떨어지는 것 같음
    • 주요 장점은 OpenAI의 제품과의 동등성을 유지하려는 멀티모달 측면과 OpenAI 4o 이미지 생성보다 훨씬 빠른 속도임
  • 도구를 사용할 때마다 원하는 결과를 얻기 위해 여러 번 시도해야 하는 경우가 많음. 대화형 인터페이스 사용에 대한 의문이 있음
  • 조심해서 사용해야 함. 예를 들어, 채식 버터 치킨 레시피를 요청했을 때 41MB의 JSON과 28개의 base64 이미지가 반환되었음. 이미지당 4센트로, 한 번의 요청에 1달러 이상이 소요됨
  • Gemini 2.0을 사용하여 100개의 레시피와 이미지를 생성했으며, 결과가 꽤 잘 나왔음. 텍스트 프롬프트 대신 원시 데이터와 테이블 메타데이터를 사용함
  • Gemini 2.0 이미지 생성의 이미지당 가격은 $0.039로 Imagen 3보다 비쌈. Gemini는 대화를 통해 이미지를 생성할 수 있지만, Imagen 3는 텍스트 입력/이미지 출력 방식임
  • 코-드로잉 데모에서 혼합된 결과를 얻었음. 장면을 스케치하고 모델이 이를 확장하기를 기대했지만, 3D 렌더링된 스틱 피규어가 생성됨
  • 모델 출력은 괜찮은 편이며, 최근 프로젝트에 새로운 모델을 업데이트했음. 여전히 많은 실패 모드가 있지만, 좋은 워크플로우를 보여주는 대형 요리책이 필요함
  • Google과 다른 AI 회사들이 목표로 하는 것은 쇼핑이나 전자상거래에 사용될 수 있는 무한한 AI 생성 객체의 세계임. 이는 진정한 인간의 장인 정신과 실제 존재하는 객체에 대한 도전임