구글, 텍스트-to-비디오 AI "Imagen Video" 공개

xguru · 2022-10-07T10:52:01+09:00

Video Diffusion Model로 텍스트를 입력받아 동영상을 만드는 "Text-conditional Video Generation System" 텍스트에서 저해상도 비디오(24x48 픽셀, 16프레임, 3fps) 영상을 만들고, 디퓨전 모델을 7개 중첩(cascade)시켜서 업스케일 하는 것이 특징 최종 출력은 1280x768 24fps . 5.3초 길이의 비디오를 생성 가능 논문 : Imagen Video : High Definition Video Generation with Diffusion Models

(imagen.research.google)

9P by xguru 2022-10-07 | ★ favorite | 댓글 1개

Video Diffusion Model로 텍스트를 입력받아 동영상을 만드는 "Text-conditional Video Generation System"
텍스트에서 저해상도 비디오(24x48 픽셀, 16프레임, 3fps) 영상을 만들고, 디퓨전 모델을 7개 중첩(cascade)시켜서 업스케일 하는 것이 특징
최종 출력은 1280x768 24fps . 5.3초 길이의 비디오를 생성 가능
논문 : Imagen Video : High Definition Video Generation with Diffusion Models

xguru 2022-10-07 [-]

Imagen - 구글의 text-to-image diffusion model
Imagen-pytorch - 구글 Imagen을 Pytorch로 구현
Make-A-Video : 텍스트로 비디오를 생성하는 AI

답변달기

구글, 텍스트-to-비디오 AI "Imagen Video" 공개

함께 보면 좋은 글 β

댓글과 토론