Google DeepMind Veo - 가장 강력한 생성형 비디오 모델

(deepmind.google)

11P by GN⁺ 2024-05-15 | ★ favorite | 댓글 2개

Veo는 현재까지 가장 강력한 비디오 생성 모델임.
고품질의 1080p 해상도 비디오를 1분 이상 생성할 수 있음.
다양한 영화적 및 시각적 스타일을 지원함.
프롬프트의 뉘앙스와 톤을 정확하게 포착하고, 창의적인 제어를 제공함.
시간 경과 촬영이나 풍경의 항공 촬영과 같은 영화적 효과를 이해함.
비디오 제작을 누구나 접근할 수 있도록 도와줌.
경험 많은 영화 제작자, 창작자, 교육자 등에게 새로운 가능성을 열어줌.
VideoFX라는 새로운 실험 도구를 통해 일부 기능을 제공할 예정임.
향후 YouTube Shorts 및 기타 제품에도 Veo의 기능을 적용할 계획임.

언어와 비전의 더 깊은 이해

텍스트 프롬프트를 정확하게 해석하고 관련 시각적 참조와 결합해야 함.
자연어와 시각적 의미를 고급 수준으로 이해하여 프롬프트를 충실히 따르는 비디오를 생성함.
복잡한 장면 내에서 세부 사항을 정교하게 렌더링함.

영화 제작을 위한 제어 기능

입력 비디오와 편집 명령을 제공하면, Veo는 이를 적용하여 새로운 편집된 비디오를 생성함.
마스크 편집을 지원하여 비디오의 특정 영역을 변경할 수 있음.
이미지와 텍스트 프롬프트를 함께 제공하면, 해당 스타일과 지침을 따르는 비디오를 생성함.
단일 프롬프트 또는 일련의 프롬프트를 통해 60초 이상의 비디오 클립을 생성하고 확장할 수 있음.

비디오 프레임 간 일관성 유지

비디오 생성 모델에서 시각적 일관성을 유지하는 것이 도전 과제임.
Veo의 최신 잠재 확산 변환기는 이러한 불일치의 발생을 줄여줌.
실제와 같이 캐릭터, 객체 및 스타일을 유지함.

수년간의 비디오 생성 연구 기반

Veo는 Generative Query Network (GQN), DVD-GAN, Imagen-Video, Phenaki, WALT, VideoPoet, Lumiere 등의 연구를 기반으로 함.
Transformer 아키텍처와 Gemini를 활용함.
프롬프트를 더 정확하게 이해하고 따르기 위해 각 비디오의 캡션에 더 많은 세부 정보를 추가함.
고품질의 압축된 비디오 표현을 사용하여 성능을 향상시킴.

책임 있는 설계

Veo는 책임감 있게 세상에 도입되는 것이 중요함.
Veo가 생성한 비디오는 SynthID를 사용하여 워터마크가 삽입됨.
안전 필터와 메모리 체크 과정을 통해 프라이버시, 저작권 및 편향 위험을 완화함.
주요 창작자 및 영화 제작자와의 협력을 통해 Veo의 미래를 설계함.
그들의 피드백을 통해 생성 비디오 기술을 개선하고 더 넓은 창작 커뮤니티에 혜택을 제공함.

GN⁺의 의견

Veo의 혁신성: Veo는 고품질 비디오 생성 모델로, 창작자들에게 새로운 가능성을 열어줌.
교육적 활용: 교육자들이 비디오를 통해 지식을 전달하는 데 큰 도움이 될 수 있음.
책임 있는 기술 도입: Veo는 워터마크와 안전 필터를 통해 책임감 있게 사용될 수 있음.
경쟁 제품: 비슷한 기능을 제공하는 다른 비디오 생성 모델과의 비교가 필요함.
기술 도입 고려사항: Veo를 도입할 때 프라이버시와 저작권 문제를 충분히 고려해야 함.

▲

xguru 2024-05-15 [-]

역시나 Sora가 없었다면 아주 훌륭한데.. 비교가 되네요. 구글이 어쩌다 이렇게 ㅠ

답변달기

▲

GN⁺ 2024-05-15 [-]

Hacker News 의견

해커뉴스 댓글 모음 요약

영화 제작 관점에서의 한계
- 의견: 현재 기술로는 영화 제작에 큰 영향을 미치지 못함. 감독이 구체적인 지시를 내릴 수 있는 기능이 필요함. 현재는 주로 B-roll 콘텐츠 수준임.
Google의 SynthID 기술
- 의견: Google은 AI 생성 비디오에 SynthID 기술을 사용해 워터마크를 추가함. 이 기술은 비디오뿐만 아니라 이미지, 텍스트, 오디오에도 적용됨.
Sora와의 비교
- 의견: Sora가 더 인상적임. Sora는 긴 클립과 빠른 움직임을 잘 처리함. 반면, 현재 데모는 짧은 클립과 느린 움직임만 포함되어 있음. 유일하게 비교할 만한 것은 사이버펑크 비디오인데, 일관성이 부족함.
60초 예제 비디오
- 의견: 60초 예제 비디오 링크 제공. YouTube 링크
인간 비디오의 부재
- 의견: 인간 비디오가 없다는 것은 기술이 인간을 생성하는 데 어려움을 겪고 있음을 나타낼 수 있음.
영화 촬영 시간의 변화
- 의견: 2014년 Wired 기사에 따르면, 영어 영화의 평균 촬영 시간은 1930년대 12초에서 오늘날 2.5초로 감소함. 이 기술이 실제 세계에 더 큰 영향을 미칠 수 있음. Wired 기사 링크
데모 비디오의 인상
- 의견: 데모 비디오는 흥미로움. 그러나 Sora 데모와 비교하면 인상적이지 않음. Google에서 발표한 것치고는 기대에 못 미침. Sora는 아직 공개되지 않았고, Veo가 더 많은 것을 제공할 수 있을 것임.
일관성 유지 방법
- 의견: Veo의 최신 기술이 일관성을 유지하는 방법에 대한 궁금증. 프레임 간의 시간적 메모리가 있는지 궁금함.
Westworld와의 유사성
- 의견: 첫 번째 예제 프롬프트의 썸네일이 1973년 Westworld의 Gunslinger 안드로이드와 유사함. 당시 컴퓨터 그래픽스의 초기 사용 사례였음. YouTube 링크
Donald Glover 세그먼트의 혼란
- 의견: Donald Glover 세그먼트가 혼란스러웠음. 짧은 클립 몇 개만 제공되어 단편 영화를 기대했으나 실망스러웠음.

답변달기