GN⁺: Google DeepMind, 비디오 생성 모델 Veo 2 공개
(deepmind.google)- Veo 2는 최첨단 비디오 생성 모델로, 현실적인 움직임과 최대 4K의 고품질 출력을 제공
- 다양한 스타일을 탐색하고 광범위한 카메라 제어를 통해 자신만의 스타일을 찾을 수 있음
-
품질과 제어의 재정의
- Veo 2는 단순하고 복잡한 지시를 충실히 따르며, 현실 세계의 물리학과 다양한 시각적 스타일을 설득력 있게 시뮬레이션함
- 향상된 현실감과 충실도: 세부 사항, 현실감, 아티팩트 감소 측면에서 다른 AI 비디오 모델보다 크게 개선됨
- 고급 모션 기능: 물리학에 대한 이해와 세부 지시를 따르는 능력 덕분에 높은 정확도로 움직임을 표현
- 더 많은 카메라 제어 옵션: 다양한 샷 스타일, 각도, 움직임을 정확하게 해석하여 생성
-
벤치마크
- Veo는 인간 평가자들이 다른 최상위 비디오 생성 모델과의 비교에서 최첨단 결과를 달성
- 1003개의 프롬프트와 해당 비디오를 MovieGenBench에서 평가했으며, Veo 2는 전반적인 선호도와 프롬프트를 정확하게 따르는 능력에서 최고 성능을 보임
-
제한 사항
- Veo 2는 현실적이고 역동적이며 복잡한 비디오를 생성하는 데 있어 놀라운 진전을 보였으나, 복잡한 장면이나 복잡한 움직임이 있는 장면에서 완전한 일관성을 유지하는 것은 여전히 도전 과제임
- 이러한 영역에서 성능을 계속 개발하고 개선할 계획
Hacker News 의견
-
사용자가 "A pelican riding a bicycle along a coastal path overlooking a harbor"라는 프롬프트로 생성한 비디오에 대한 피드백을 공유함. 네 가지 버전 중 두 개는 자전거를 타는 펠리컨, 하나는 도로를 달리는 펠리컨, 하나는 자전거에 앉아 있는 펠리컨, 마지막은 이상한 헬멧을 쓴 펠리컨이었음. Sora보다 더 나은 결과였음
-
사용자 선호도에서 Sora Turbo를 2:1로 이긴 것은 인상적임. Sora와 비슷한 제한사항이 있지만, 자연스러운 움직임과 물리학을 조금 더 잘 모방하는 것으로 보임. 블로그 게시물에서 4K 해상도까지 확장 가능하고 길이가 몇 분까지 늘어날 수 있다고 설명함
-
발표에서 제공되는 예시와 훈련 데이터의 유사성에 대한 궁금증을 표현함. 프롬프트의 세부사항이 결과에 얼마나 반영되는지 의문을 가짐. 예를 들어, DJ의 매력적인 존재감과 음악의 힘에 대한 설명이 비디오에 어떤 영향을 미치는지 궁금해함
-
스케이트보드 비디오가 비현실적이지만 일부 비디오는 매우 그럴듯하게 보임
-
페이지가 iPad의 Chrome에서 충돌했음을 언급함
-
Google의 큰 발표 이후 OpenAI가 Sora 프리뷰를 공개하며 Google을 압도했지만, Veo 2가 Sora보다 발전된 것으로 보임
-
TV 방송국에서 일하는 친구가 이미 공공 광고 프로그램을 위해 이러한 도구를 사용하고 있음
-
Google이 Youtube에 대한 접근성을 통해 텍스트/이미지에서 비디오로의 전환을 지배할 가능성이 있다고 생각함
-
Veo 2의 샘플 길이가 8초, VideoGen의 샘플 길이가 10초, 다른 모델의 샘플 길이가 5초인 부분에 혼란스러움을 표현함. Veo 2의 긍정적인 결과가 더 긴 비디오를 선호하는 평가자 때문인지 의문을 가짐
-
Google의 AI 부서는 OpenAI의 화려한 요트와 비교하여 거대한 핵잠수함과 같다고 비유함. Google이 AGI에 가까워졌을 가능성을 제기하며, Microsoft와 Amazon의 상황도 언급함