비디오 생성모델 Veo 2로 Gemini와 Whisk에

▲

GN⁺ 2025-04-17 | parent | ★ favorite | on: 비디오 생성모델 Veo 2로 Gemini와 Whisk에서 비디오 생성하기(blog.google)

Hacker News 의견

Whisk는 몇 달 전 Imagen 3의 데모로 조용히 출시되었음. 놀랍게도 재미있고 구현이 견고함
- 업로드된 이미지를 텍스트 설명으로 변환하는 트릭을 사용함
- Imagen 3의 현대적인 텍스트 인코더의 강점을 활용하여 긴 변환된 설명을 따를 수 있음
2027년까지 한 사람이 만든 영화가 1억 달러 이상 수익을 올릴 것이라는 Polymarket 이벤트에 "예" 주식을 사고 싶음
Veo2에서 8초짜리 동영상 12개를 만드는데 GCP 크레딧 48달러를 소모했음. 주의 필요함
8초짜리 동영상을 생성하는 것이 유료 API 외부에서 가능할 것이라고 생각하지 않았음
이 분야에 기술적으로 능숙하지 않지만, 왜 모든 것이 텍스트-투-X인지 궁금함
- 전통적인 키프레임 스타일 편집기를 사용하면서 지형의 대략적인 스케치를 그리고, 캐릭터 사진을 넣고, 3D 스플라인을 그려서 세부적인 창의적 제어가 가능한 것이 가능하지 않을까 생각함
Ghibli 스타일로 광고를 만드는 것은 용감한 일임. 이제는 그 스타일이 소진되었을 것이라고 생각했음
Google Vids도 Veo 2를 사용함. 제품 혼란이 있음
콘텐츠 조정이 매우 좌절스러움. Veo2와 Gemini가 궁극적으로 실패할 주요 이유일 수 있음
- 아이가 슈퍼히어로로 노는 재미있는 동영상을 만들고 싶지만 계속 실패함
이 모든 것이 기술적으로 놀랍지만, 이 분야에서 열심히 노력한 사람에게는 큰 경고가 있음
- 텍스트-투-무엇이든 매우 피곤함. 결과가 멋져도 내가 한 것이 아니기 때문에 아무 감정이 없음
- 97%의 경우 결과가 원하는 것이 아님. 텍스트를 약간 변경하면 또 다른 잘못된 결과가 나옴
- 이 모든 과정이 내 지갑과 인내심, 영혼을 소모함
- 이러한 "도구"가 창작자에게 어떻게 도움이 될지 모르겠음. 현재까지 이러한 도구에서 나오는 제품은 TikTok/일반 인터넷 스팸 회사들뿐임
Krita에 연결되어 img2img와 마스킹, txt2img를 결합한 Krita-ai-diffusion이 예술가들에게 힘을 실어주는 가장 가까운 도구임
1년 전과 비교해 매우 인상적인 출시임. 현재 ML에 있어 모든 대기업이 서로 경쟁하며 기술을 발전시키고 있어 좋은 상태임. 이는 미국(또는 일반적으로)에서는 드문 일임