Hacker News 의견
  • Gemini 2.0을 여러 이미지 생성 모델과 비교 테스트했음. Google의 Imagen 3.0이 얼마나 포함되었는지는 모르겠지만, 전반적인 미적 품질은 상당히 떨어지는 것 같음
    • 주요 장점은 OpenAI의 제품과의 동등성을 유지하려는 멀티모달 측면과 OpenAI 4o 이미지 생성보다 훨씬 빠른 속도임
  • 도구를 사용할 때마다 원하는 결과를 얻기 위해 여러 번 시도해야 하는 경우가 많음. 대화형 인터페이스 사용에 대한 의문이 있음
  • 조심해서 사용해야 함. 예를 들어, 채식 버터 치킨 레시피를 요청했을 때 41MB의 JSON과 28개의 base64 이미지가 반환되었음. 이미지당 4센트로, 한 번의 요청에 1달러 이상이 소요됨
  • Gemini 2.0을 사용하여 100개의 레시피와 이미지를 생성했으며, 결과가 꽤 잘 나왔음. 텍스트 프롬프트 대신 원시 데이터와 테이블 메타데이터를 사용함
  • Gemini 2.0 이미지 생성의 이미지당 가격은 $0.039로 Imagen 3보다 비쌈. Gemini는 대화를 통해 이미지를 생성할 수 있지만, Imagen 3는 텍스트 입력/이미지 출력 방식임
  • 코-드로잉 데모에서 혼합된 결과를 얻었음. 장면을 스케치하고 모델이 이를 확장하기를 기대했지만, 3D 렌더링된 스틱 피규어가 생성됨
  • 모델 출력은 괜찮은 편이며, 최근 프로젝트에 새로운 모델을 업데이트했음. 여전히 많은 실패 모드가 있지만, 좋은 워크플로우를 보여주는 대형 요리책이 필요함
  • Google과 다른 AI 회사들이 목표로 하는 것은 쇼핑이나 전자상거래에 사용될 수 있는 무한한 AI 생성 객체의 세계임. 이는 진정한 인간의 장인 정신과 실제 존재하는 객체에 대한 도전임