Gemini 2.0 플래시 프리뷰: 이미지 생성 및 편

▲

GN⁺ 12달전 | parent | ★ favorite | on: Gemini 2.0 플래시 프리뷰: 이미지 생성 및 편집 기능 공개(developers.googleblog.com)

Hacker News 의견

Gemini 2.0을 여러 이미지 생성 모델과 비교 테스트했음. Google의 Imagen 3.0이 얼마나 포함되었는지는 모르겠지만, 전반적인 미적 품질은 상당히 떨어지는 것 같음
- 주요 장점은 OpenAI의 제품과의 동등성을 유지하려는 멀티모달 측면과 OpenAI 4o 이미지 생성보다 훨씬 빠른 속도임
도구를 사용할 때마다 원하는 결과를 얻기 위해 여러 번 시도해야 하는 경우가 많음. 대화형 인터페이스 사용에 대한 의문이 있음
조심해서 사용해야 함. 예를 들어, 채식 버터 치킨 레시피를 요청했을 때 41MB의 JSON과 28개의 base64 이미지가 반환되었음. 이미지당 4센트로, 한 번의 요청에 1달러 이상이 소요됨
Gemini 2.0을 사용하여 100개의 레시피와 이미지를 생성했으며, 결과가 꽤 잘 나왔음. 텍스트 프롬프트 대신 원시 데이터와 테이블 메타데이터를 사용함
Gemini 2.0 이미지 생성의 이미지당 가격은 $0.039로 Imagen 3보다 비쌈. Gemini는 대화를 통해 이미지를 생성할 수 있지만, Imagen 3는 텍스트 입력/이미지 출력 방식임
코-드로잉 데모에서 혼합된 결과를 얻었음. 장면을 스케치하고 모델이 이를 확장하기를 기대했지만, 3D 렌더링된 스틱 피규어가 생성됨
모델 출력은 괜찮은 편이며, 최근 프로젝트에 새로운 모델을 업데이트했음. 여전히 많은 실패 모드가 있지만, 좋은 워크플로우를 보여주는 대형 요리책이 필요함
Google과 다른 AI 회사들이 목표로 하는 것은 쇼핑이나 전자상거래에 사용될 수 있는 무한한 AI 생성 객체의 세계임. 이는 진정한 인간의 장인 정신과 실제 존재하는 객체에 대한 도전임