OmniHuman - 사진 한장으로 실사 같은 영상을 생성하는 모델

xguru · 2025-02-13T10:28:01+09:00

ByteDance 연구진이 "단일 사진을 사용해 자연스럽게 말하고, 노래하고, 움직이는 사람의 영상을 생성"하는 AI 시스템을 개발 기존 AI 모델이 얼굴이나 상반신만 애니메이션화할 수 있었던 한계를 뛰어넘어 "전신 움직임을 반영한 영상"을 생성할 수 있음 "음성, 영상, 또는 두 가지를 조합한 입력을 활용"하여 사람의 움직임을 사실적으로 애니메이션화하는 최초의 통합 모델임 주요 특징 단일 이미지 기반 동영상 생성 인물의 사진 한 장만으로 전신 움직임을 반영한 자연스러운 영상 생성 가능 멀티모달 입력 지원 오디오, 비디오, 혹은 두 가지를 결합한 입력 방식 지원 기존 모델 대비 제스처 표현력이 크게 향상됨 어떤 비율의 이미지도 처리 가능 세로형 인물 사진, 반신 사진, 전신 사진 등 다양한 이미지 비율 지원 다양한 스타일과 입력 데이터 호환 만화, 인공 캐릭터, 동물, 복잡한 포즈 등 다양한 스타일 반영 가능 음악 스타일에 따른 자연스러운 몸짓 표현 고음, 저음, 다양한 음악 장르에 맞춘 움직임 생성 가능 비디오 기반 움직임 모방 가능 특정 인물의 동작을 그대로 재현하는 비디오 드라이빙(video driving) 지원

(omnihuman-lab.github.io)

20P by xguru 2025-02-13 | ★ favorite | 댓글 2개

ByteDance 연구진이 "단일 사진을 사용해 자연스럽게 말하고, 노래하고, 움직이는 사람의 영상을 생성"하는 AI 시스템을 개발
기존 AI 모델이 얼굴이나 상반신만 애니메이션화할 수 있었던 한계를 뛰어넘어 "전신 움직임을 반영한 영상"을 생성할 수 있음
"음성, 영상, 또는 두 가지를 조합한 입력을 활용"하여 사람의 움직임을 사실적으로 애니메이션화하는 최초의 통합 모델임
주요 특징
- 단일 이미지 기반 동영상 생성
  - 인물의 사진 한 장만으로 전신 움직임을 반영한 자연스러운 영상 생성 가능
- 멀티모달 입력 지원
  - 오디오, 비디오, 혹은 두 가지를 결합한 입력 방식 지원
  - 기존 모델 대비 제스처 표현력이 크게 향상됨
- 어떤 비율의 이미지도 처리 가능
  - 세로형 인물 사진, 반신 사진, 전신 사진 등 다양한 이미지 비율 지원
- 다양한 스타일과 입력 데이터 호환
  - 만화, 인공 캐릭터, 동물, 복잡한 포즈 등 다양한 스타일 반영 가능
- 음악 스타일에 따른 자연스러운 몸짓 표현
  - 고음, 저음, 다양한 음악 장르에 맞춘 움직임 생성 가능
- 비디오 기반 움직임 모방 가능
  - 특정 인물의 동작을 그대로 재현하는 비디오 드라이빙(video driving) 지원

GeekNews Weekly에 포함된 글입니다. 에디터 코멘트 보기

dhy0613 2025-02-13 [-]

와 이제 중국이 전쟁하면 조작된 프로파간다 영상이 한둘이 아니겠네요

답변달기

colus001 2025-02-13 [-]

와... 이거 멋진데요?

답변달기

OmniHuman - 사진 한장으로 실사 같은 영상을 생성하는 모델

함께 보면 좋은 글 β

댓글과 토론