Google DeepMind, 비디오 생성 모델 Veo 2 공개

(deepmind.google)

7P by GN⁺ 2024-12-17 | ★ favorite | 댓글 1개

Veo 2는 최첨단 비디오 생성 모델로, 현실적인 움직임과 최대 4K의 고품질 출력을 제공
다양한 스타일을 탐색하고 광범위한 카메라 제어를 통해 자신만의 스타일을 찾을 수 있음
품질과 제어의 재정의
- Veo 2는 단순하고 복잡한 지시를 충실히 따르며, 현실 세계의 물리학과 다양한 시각적 스타일을 설득력 있게 시뮬레이션함
- 향상된 현실감과 충실도: 세부 사항, 현실감, 아티팩트 감소 측면에서 다른 AI 비디오 모델보다 크게 개선됨
- 고급 모션 기능: 물리학에 대한 이해와 세부 지시를 따르는 능력 덕분에 높은 정확도로 움직임을 표현
- 더 많은 카메라 제어 옵션: 다양한 샷 스타일, 각도, 움직임을 정확하게 해석하여 생성
벤치마크
- Veo는 인간 평가자들이 다른 최상위 비디오 생성 모델과의 비교에서 최첨단 결과를 달성
- 1003개의 프롬프트와 해당 비디오를 MovieGenBench에서 평가했으며, Veo 2는 전반적인 선호도와 프롬프트를 정확하게 따르는 능력에서 최고 성능을 보임
제한 사항
- Veo 2는 현실적이고 역동적이며 복잡한 비디오를 생성하는 데 있어 놀라운 진전을 보였으나, 복잡한 장면이나 복잡한 움직임이 있는 장면에서 완전한 일관성을 유지하는 것은 여전히 도전 과제임
- 이러한 영역에서 성능을 계속 개발하고 개선할 계획

GeekNews Weekly에 포함된 글입니다. 에디터 코멘트 보기

GN⁺ 2024-12-17 [-]

Hacker News 의견

사용자가 "A pelican riding a bicycle along a coastal path overlooking a harbor"라는 프롬프트로 생성한 비디오에 대한 피드백을 공유함. 네 가지 버전 중 두 개는 자전거를 타는 펠리컨, 하나는 도로를 달리는 펠리컨, 하나는 자전거에 앉아 있는 펠리컨, 마지막은 이상한 헬멧을 쓴 펠리컨이었음. Sora보다 더 나은 결과였음
사용자 선호도에서 Sora Turbo를 2:1로 이긴 것은 인상적임. Sora와 비슷한 제한사항이 있지만, 자연스러운 움직임과 물리학을 조금 더 잘 모방하는 것으로 보임. 블로그 게시물에서 4K 해상도까지 확장 가능하고 길이가 몇 분까지 늘어날 수 있다고 설명함
발표에서 제공되는 예시와 훈련 데이터의 유사성에 대한 궁금증을 표현함. 프롬프트의 세부사항이 결과에 얼마나 반영되는지 의문을 가짐. 예를 들어, DJ의 매력적인 존재감과 음악의 힘에 대한 설명이 비디오에 어떤 영향을 미치는지 궁금해함
스케이트보드 비디오가 비현실적이지만 일부 비디오는 매우 그럴듯하게 보임
페이지가 iPad의 Chrome에서 충돌했음을 언급함
Google의 큰 발표 이후 OpenAI가 Sora 프리뷰를 공개하며 Google을 압도했지만, Veo 2가 Sora보다 발전된 것으로 보임
TV 방송국에서 일하는 친구가 이미 공공 광고 프로그램을 위해 이러한 도구를 사용하고 있음
Google이 Youtube에 대한 접근성을 통해 텍스트/이미지에서 비디오로의 전환을 지배할 가능성이 있다고 생각함
Veo 2의 샘플 길이가 8초, VideoGen의 샘플 길이가 10초, 다른 모델의 샘플 길이가 5초인 부분에 혼란스러움을 표현함. Veo 2의 긍정적인 결과가 더 긴 비디오를 선호하는 평가자 때문인지 의문을 가짐
Google의 AI 부서는 OpenAI의 화려한 요트와 비교하여 거대한 핵잠수함과 같다고 비유함. Google이 AGI에 가까워졌을 가능성을 제기하며, Microsoft와 Amazon의 상황도 언급함

답변달기

Google DeepMind, 비디오 생성 모델 Veo 2 공개

함께 보면 좋은 글 β

댓글과 토론

Hacker News 의견