- ByteDance 연구진이 "단일 사진을 사용해 자연스럽게 말하고, 노래하고, 움직이는 사람의 영상을 생성"하는 AI 시스템을 개발
- 기존 AI 모델이 얼굴이나 상반신만 애니메이션화할 수 있었던 한계를 뛰어넘어 "전신 움직임을 반영한 영상"을 생성할 수 있음
- "음성, 영상, 또는 두 가지를 조합한 입력을 활용"하여 사람의 움직임을 사실적으로 애니메이션화하는 최초의 통합 모델임
- 주요 특징
-
단일 이미지 기반 동영상 생성
- 인물의 사진 한 장만으로 전신 움직임을 반영한 자연스러운 영상 생성 가능
-
멀티모달 입력 지원
- 오디오, 비디오, 혹은 두 가지를 결합한 입력 방식 지원
- 기존 모델 대비 제스처 표현력이 크게 향상됨
-
어떤 비율의 이미지도 처리 가능
- 세로형 인물 사진, 반신 사진, 전신 사진 등 다양한 이미지 비율 지원
-
다양한 스타일과 입력 데이터 호환
-
만화, 인공 캐릭터, 동물, 복잡한 포즈 등 다양한 스타일 반영 가능
-
음악 스타일에 따른 자연스러운 몸짓 표현
-
고음, 저음, 다양한 음악 장르에 맞춘 움직임 생성 가능
-
비디오 기반 움직임 모방 가능
- 특정 인물의 동작을 그대로 재현하는 비디오 드라이빙(video driving) 지원