루미에르: 현실적인 비디오 생성을 위한 시공간 확산 모델

(lumiere-video.github.io)

1P by GN⁺ 2024-01-26 | ★ favorite | 댓글 1개

텍스트-비디오

구글 연구팀이 Lumiere라는 텍스트-비디오 확산 모델을 소개함.
이 모델은 현실적이고 다양하며 일관된 움직임을 표현하는 비디오를 합성하는 데 중점을 둠.
공간-시간 U-Net 아키텍처를 사용하여 비디오의 전체 시간을 한 번에 생성함.

이미지-비디오

Lumiere를 사용하면 단일 참조 이미지를 사용하여 목표 스타일의 비디오를 생성할 수 있음.
미세 조정된 텍스트-이미지 모델 가중치를 활용함.

비디오 스타일화

Lumiere를 통해 기존 텍스트 기반 이미지 편집 방법을 일관된 비디오 편집에 사용할 수 있음.

시네마그래프

Lumiere 모델은 사용자가 제공한 특정 영역 내 이미지의 내용을 애니메이션화할 수 있음.

비디오 인페인팅

Lumiere 모델은 마스크된 비디오의 내용을 복원하여 완성된 비디오를 생성할 수 있음.

저자 및 감사의 글

연구팀은 구글 연구소와 여러 대학의 공동 저자들로 구성됨.
인턴십을 수행하며 연구에 기여한 저자들과 협력 및 지원을 제공한 다양한 인물들에게 감사를 표함.

GN⁺의 의견:

Lumiere 모델은 비디오 합성 분야에서 중요한 진보를 나타냄. 현실적이고 다양한 움직임을 가진 비디오 생성이 가능한 것은 콘텐츠 제작자와 비디오 편집자에게 큰 도움이 될 것임.
이 기술은 특히 영화나 광고 산업에서 시각적 스토리텔링을 강화하고, 창의적인 표현을 확장하는 데 기여할 수 있음.
Lumiere의 개발은 인공지능 기반의 창작 도구가 어떻게 창의적인 작업을 변화시키고 있는지를 보여주는 사례임.

▲

GN⁺ 2024-01-26 [-]

Hacker News 의견

- 과학적 연구의 이름으로 제시된 이 작업에 대해 매우 불쾌함을 느낌. 이것은 자랑, 광고, 마케팅으로만 설명될 수 있음. 재현 가능한 과정이 설명되지 않았고, 아키텍처 다이어그램은 영감을 줄 수 있으나 과학적 시도의 가장 중요한 측면인 반증을 허용하지 않음. 구글이 거짓말을 하고 있는지 확인할 방법이 없으므로 모든 예시가 선별되고 후처리되었다고 가정해야 함. 모델을 훈련하는 데 사용된 데이터가 불법적으로 획득되었다고 가정해야 함. 구글은 이제 입증할 수 없는 주장을 일상적으로 하기 때문에 극단적인 회의주의에서 출발해야 함. 예를 들어, 바드에서의 제미니의 성능이 GPT-4와 비교했을 때 훨씬 못 미침. 모델과의 상호작용을 주장하는 비디오를 공개했을 때 실제로는 그런 것이 아니었음.
- 예시들이 이전에 본 기술들보다 훨씬 일관되고 길게 보임. 다른 모델들과 비교할 때 다리가 바닥에서 미끄러지는 것이 훨씬 적음. 반면, 인간의 얼굴은 좋아 보이지 않음. 예를 들어, 미소 짓는 모나리자가 그렇다고 함. 이것은 첫 번째로 좋은 비디오 생성 모델처럼 보임. 수정: 구글이 만들었다는 것을 방금 알았으니, 공개될 일은 없을 것임.
- 그들의 GitHub에는 현재 연결된 페이지 외에 아무 것도 없음. 그들이 공개할 것이라고 주장한 적도 없음. 그래도 확인해봐야 했고, GitHub 프로필로 연결되는 링크는 보이지 않았음. 호스팅된 웹사이트 URL을 수동으로 입력하고 싶지 않은 사람을 위해 링크를 여기에 공유함.
- 비디오 인페인팅이 흥미로움. 최근 아이들이 오래된 스폰지밥 에피소드를 보고 있었는데, 4:3 화면비가 놀라웠음. 16:9 화면비로 되돌리기 위해 옆쪽 테두리를 인페인트하는 것이 흥미로운 사용 사례가 될 것 같음. 하지만 옆에서 들어오는 물체에 대한 어떤 종류의 선견지명이 필요할 것으로 보임.
- 이 작은 AI 비디오 생성 샘플들의 기괴하고 꿈같은 특성으로 인해, 이러한 논문들이 '전기 양을 꿈꾸는' 프롬프트를 부활절 달걀로 포함하지 않는 것에 대해 늘 실망함.
- 이 발표를 단지 2-3년 전으로 돌려놓았다면 정말 놀라웠을 것임. 우리 모두가 이런 신제품들이 매우 빠르고 자주 나오는 것에 익숙해졌지만, 여전히 놀랍다고 생각함. 이런 능력을 가진 소프트웨어를 갖게 될 날을 기다릴 수 없음. 수정: 구글이 만들었으니, 오픈 소스가 공개될 때까지 기다릴 것임.
- 종종 오래된 이미지들을 현대적인 데이터셋과 섞는 것 같음. 조지 워싱턴의 초상화를 가지고 "웃고 있는 남자"를 요청한다면, 그의 이는 의치가 보일까, 아니면 하얀 치아가 보일까?
- 몇 가지 코멘트: 구글이기 때문에 우리가 직접 사용할 수는 없을 것임. 그럼에도 불구하고 아이디어는 매우 흥미로움 -- 모델을 훈련시켜 비디오의 작은 전체 시간 표현을 생성하게 한 다음, 시간과 픽셀 모두에 대해 업스케일함. 깊이 맵을 추가하는 모델들을 보았지만, 이 모델은 '시간 맵'을 또 다른 차원으로 추가함. 일관성은 꽤 좋아 보임. 모델이 시간에 걸쳐 무엇을 '해야 할지' 결정하는 것에 대한 어색함이 더 많이 보임. 구글러들의 큰 통찰은 일관성을 자체적인 것으로 조건을 부여하고 훈련하고 생성할 수 있다는 것임. 이것은 Stability와 같은 다른 모델 제공업체들에 의해 복제될 수 있을 것으로 보임; 구현할 수 없는 것으로 보이는 것은 없음.
- 픽셀 테마의 게시물로 픽셀 테마의 논문임. 상당히 인상적이고, 아마도 곧 "한 문단으로 영화 만들기" 프로그램의 거대한 무리를 초래할 것임. 구글이기 때문에 아마도 상자 안에 넣어져서 우리가 결코 보지 못할 릭 앤 모티의 장치가 될 것임. 저자 목록 형식이 멋짐. 주요 저자, 기관 인증, 핵심 기여자를 위한 1,2,3,4,*,+ 표기법이 좋음. 10명 이상의 저자가 있는 천문학 및 물리학 논문을 많이 읽었지만, 누가 무엇을 했는지 전혀 모름. 예를 들어, arXiv 링크는 유사한 형식을 보여주지 않음. 아마도 즉시 남용적인 포르노에 사용될 것임. 걷는 여성 예시: (5번째 변형) "옷을 입지 않은 채로"
- 올해 첫 번째 기능 길이의 AI 생성 영화를 볼 것임. 내가 미쳤다고 생각한다면, 심지어 영화의 새벽에 평균 샷 길이가 12초였고 오늘날에는 단 2.5초라는 것을 고려해보라. 세대 간에 일관된 주제를 유지하는 것과 같은 몇 가지 중요한 기술이 정제되어야 하지만, 깊이에 따라 레이어를 분리하여 더 정적인 이미지를 사용하거나 더 많은 깊이가 필요한 곳에 텍스처가 있는 간단한 3D 모델을 생성하는 기존 방법을 적용하여 많은 불일치를 보완할 수 있음. 충분한 노력과 기술을 가진 사람이라면 기존 기술로도 할 수 있을 것임.

답변달기