Hacker News 의견
  • Whisk는 몇 달 전 Imagen 3의 데모로 조용히 출시되었음. 놀랍게도 재미있고 구현이 견고함

    • 업로드된 이미지를 텍스트 설명으로 변환하는 트릭을 사용함
    • Imagen 3의 현대적인 텍스트 인코더의 강점을 활용하여 긴 변환된 설명을 따를 수 있음
  • 2027년까지 한 사람이 만든 영화가 1억 달러 이상 수익을 올릴 것이라는 Polymarket 이벤트에 "예" 주식을 사고 싶음

  • Veo2에서 8초짜리 동영상 12개를 만드는데 GCP 크레딧 48달러를 소모했음. 주의 필요함

  • 8초짜리 동영상을 생성하는 것이 유료 API 외부에서 가능할 것이라고 생각하지 않았음

  • 이 분야에 기술적으로 능숙하지 않지만, 왜 모든 것이 텍스트-투-X인지 궁금함

    • 전통적인 키프레임 스타일 편집기를 사용하면서 지형의 대략적인 스케치를 그리고, 캐릭터 사진을 넣고, 3D 스플라인을 그려서 세부적인 창의적 제어가 가능한 것이 가능하지 않을까 생각함
  • Ghibli 스타일로 광고를 만드는 것은 용감한 일임. 이제는 그 스타일이 소진되었을 것이라고 생각했음

  • Google Vids도 Veo 2를 사용함. 제품 혼란이 있음

  • 콘텐츠 조정이 매우 좌절스러움. Veo2와 Gemini가 궁극적으로 실패할 주요 이유일 수 있음

    • 아이가 슈퍼히어로로 노는 재미있는 동영상을 만들고 싶지만 계속 실패함
  • 이 모든 것이 기술적으로 놀랍지만, 이 분야에서 열심히 노력한 사람에게는 큰 경고가 있음

    • 텍스트-투-무엇이든 매우 피곤함. 결과가 멋져도 내가 한 것이 아니기 때문에 아무 감정이 없음
    • 97%의 경우 결과가 원하는 것이 아님. 텍스트를 약간 변경하면 또 다른 잘못된 결과가 나옴
    • 이 모든 과정이 내 지갑과 인내심, 영혼을 소모함
    • 이러한 "도구"가 창작자에게 어떻게 도움이 될지 모르겠음. 현재까지 이러한 도구에서 나오는 제품은 TikTok/일반 인터넷 스팸 회사들뿐임
  • Krita에 연결되어 img2img와 마스킹, txt2img를 결합한 Krita-ai-diffusion이 예술가들에게 힘을 실어주는 가장 가까운 도구임

  • 1년 전과 비교해 매우 인상적인 출시임. 현재 ML에 있어 모든 대기업이 서로 경쟁하며 기술을 발전시키고 있어 좋은 상태임. 이는 미국(또는 일반적으로)에서는 드문 일임