루미에르: 현실적인 비디오 생성을 위한 시공간 확산 모

▲

GN⁺ 2024-01-26 | parent | ★ favorite | on: 루미에르: 현실적인 비디오 생성을 위한 시공간 확산 모델(lumiere-video.github.io)

Hacker News 의견

- 과학적 연구의 이름으로 제시된 이 작업에 대해 매우 불쾌함을 느낌. 이것은 자랑, 광고, 마케팅으로만 설명될 수 있음. 재현 가능한 과정이 설명되지 않았고, 아키텍처 다이어그램은 영감을 줄 수 있으나 과학적 시도의 가장 중요한 측면인 반증을 허용하지 않음. 구글이 거짓말을 하고 있는지 확인할 방법이 없으므로 모든 예시가 선별되고 후처리되었다고 가정해야 함. 모델을 훈련하는 데 사용된 데이터가 불법적으로 획득되었다고 가정해야 함. 구글은 이제 입증할 수 없는 주장을 일상적으로 하기 때문에 극단적인 회의주의에서 출발해야 함. 예를 들어, 바드에서의 제미니의 성능이 GPT-4와 비교했을 때 훨씬 못 미침. 모델과의 상호작용을 주장하는 비디오를 공개했을 때 실제로는 그런 것이 아니었음.
- 예시들이 이전에 본 기술들보다 훨씬 일관되고 길게 보임. 다른 모델들과 비교할 때 다리가 바닥에서 미끄러지는 것이 훨씬 적음. 반면, 인간의 얼굴은 좋아 보이지 않음. 예를 들어, 미소 짓는 모나리자가 그렇다고 함. 이것은 첫 번째로 좋은 비디오 생성 모델처럼 보임. 수정: 구글이 만들었다는 것을 방금 알았으니, 공개될 일은 없을 것임.
- 그들의 GitHub에는 현재 연결된 페이지 외에 아무 것도 없음. 그들이 공개할 것이라고 주장한 적도 없음. 그래도 확인해봐야 했고, GitHub 프로필로 연결되는 링크는 보이지 않았음. 호스팅된 웹사이트 URL을 수동으로 입력하고 싶지 않은 사람을 위해 링크를 여기에 공유함.
- 비디오 인페인팅이 흥미로움. 최근 아이들이 오래된 스폰지밥 에피소드를 보고 있었는데, 4:3 화면비가 놀라웠음. 16:9 화면비로 되돌리기 위해 옆쪽 테두리를 인페인트하는 것이 흥미로운 사용 사례가 될 것 같음. 하지만 옆에서 들어오는 물체에 대한 어떤 종류의 선견지명이 필요할 것으로 보임.
- 이 작은 AI 비디오 생성 샘플들의 기괴하고 꿈같은 특성으로 인해, 이러한 논문들이 '전기 양을 꿈꾸는' 프롬프트를 부활절 달걀로 포함하지 않는 것에 대해 늘 실망함.
- 이 발표를 단지 2-3년 전으로 돌려놓았다면 정말 놀라웠을 것임. 우리 모두가 이런 신제품들이 매우 빠르고 자주 나오는 것에 익숙해졌지만, 여전히 놀랍다고 생각함. 이런 능력을 가진 소프트웨어를 갖게 될 날을 기다릴 수 없음. 수정: 구글이 만들었으니, 오픈 소스가 공개될 때까지 기다릴 것임.
- 종종 오래된 이미지들을 현대적인 데이터셋과 섞는 것 같음. 조지 워싱턴의 초상화를 가지고 "웃고 있는 남자"를 요청한다면, 그의 이는 의치가 보일까, 아니면 하얀 치아가 보일까?
- 몇 가지 코멘트: 구글이기 때문에 우리가 직접 사용할 수는 없을 것임. 그럼에도 불구하고 아이디어는 매우 흥미로움 -- 모델을 훈련시켜 비디오의 작은 전체 시간 표현을 생성하게 한 다음, 시간과 픽셀 모두에 대해 업스케일함. 깊이 맵을 추가하는 모델들을 보았지만, 이 모델은 '시간 맵'을 또 다른 차원으로 추가함. 일관성은 꽤 좋아 보임. 모델이 시간에 걸쳐 무엇을 '해야 할지' 결정하는 것에 대한 어색함이 더 많이 보임. 구글러들의 큰 통찰은 일관성을 자체적인 것으로 조건을 부여하고 훈련하고 생성할 수 있다는 것임. 이것은 Stability와 같은 다른 모델 제공업체들에 의해 복제될 수 있을 것으로 보임; 구현할 수 없는 것으로 보이는 것은 없음.
- 픽셀 테마의 게시물로 픽셀 테마의 논문임. 상당히 인상적이고, 아마도 곧 "한 문단으로 영화 만들기" 프로그램의 거대한 무리를 초래할 것임. 구글이기 때문에 아마도 상자 안에 넣어져서 우리가 결코 보지 못할 릭 앤 모티의 장치가 될 것임. 저자 목록 형식이 멋짐. 주요 저자, 기관 인증, 핵심 기여자를 위한 1,2,3,4,*,+ 표기법이 좋음. 10명 이상의 저자가 있는 천문학 및 물리학 논문을 많이 읽었지만, 누가 무엇을 했는지 전혀 모름. 예를 들어, arXiv 링크는 유사한 형식을 보여주지 않음. 아마도 즉시 남용적인 포르노에 사용될 것임. 걷는 여성 예시: (5번째 변형) "옷을 입지 않은 채로"
- 올해 첫 번째 기능 길이의 AI 생성 영화를 볼 것임. 내가 미쳤다고 생각한다면, 심지어 영화의 새벽에 평균 샷 길이가 12초였고 오늘날에는 단 2.5초라는 것을 고려해보라. 세대 간에 일관된 주제를 유지하는 것과 같은 몇 가지 중요한 기술이 정제되어야 하지만, 깊이에 따라 레이어를 분리하여 더 정적인 이미지를 사용하거나 더 많은 깊이가 필요한 곳에 텍스처가 있는 간단한 3D 모델을 생성하는 기존 방법을 적용하여 많은 불일치를 보완할 수 있음. 충분한 노력과 기술을 가진 사람이라면 기존 기술로도 할 수 있을 것임.