Infinity AI 소개
- Infinity AI는 사람을 중심으로 한 비디오 모델을 훈련한 회사임
- 오디오 입력으로 구동되는 비디오 확산 변환기를 훈련한 최초의 사례임
- 이 모델은 실제로 말하는 표현력 있고 현실적인 캐릭터를 생성할 수 있음
사용 방법
- Infinity AI의 도구를 사용하여 스크립트를 입력하면 캐릭터가 말하는 비디오를 생성할 수 있음
- 예시:
- "모나리자가 '뭘 보고 웃고 있어?'라고 말하는 비디오"
- "빨간 모자를 쓴 3D 픽사 스타일의 노움이 독립 선언문을 낭독하는 비디오"
- "엘론 머스크가 프랭크 시나트라의 'Fly Me To The Moon'을 부르는 비디오"
기존 AI 도구의 문제점
- 기존의 생성 AI 비디오 모델은 캐릭터가 말을 할 수 없었음
- 기존의 말하는 아바타 회사들은 기존 비디오 위에 립싱크를 추가하는 방식이었음
- 이로 인해 오디오와 일치하지 않는 표정과 제스처가 발생하여 "언캐니 밸리" 현상이 나타남
V1 모델의 한계
- 립싱크 접근 방식은 제스처 불일치 외에도 여러 한계가 있었음
- 제한된 배우 라이브러리와 상상 속 캐릭터를 애니메이션화할 수 없는 문제
V2 모델의 개선점
- 단일 이미지, 오디오 및 기타 조건 신호를 입력받아 비디오를 출력하는 종단 간 비디오 확산 변환기 모델을 훈련함
- 인간의 움직임과 감정의 복잡성과 미묘함을 포착하는 데 최적의 접근 방식이라고 믿음
- 모델이 느리다는 단점이 있음
모델의 장점
- 여러 언어를 처리할 수 있음
- 물리학을 일부 학습함 (예: 귀걸이가 제대로 흔들림)
- 다양한 유형의 이미지를 애니메이션화할 수 있음 (그림, 조각 등)
- 노래를 처리할 수 있음
모델의 단점
- 동물 이미지를 처리할 수 없음 (인간형 이미지만 가능)
- 종종 손을 프레임에 삽입함 (매우 성가시고 산만함)
- 만화에 대해 강건하지 않음
- 사람의 정체성을 왜곡할 수 있음 (유명 인물에게서 두드러짐)
모델 사용해보기
GN⁺의 정리
- Infinity AI의 비디오 모델은 오디오 입력을 통해 현실적인 캐릭터를 생성할 수 있는 최초의 사례임
- 기존 AI 도구의 한계를 극복하고 종단 간 비디오 확산 변환기 모델을 통해 인간의 움직임과 감정을 더 잘 포착함
- 여러 언어와 다양한 이미지 유형을 처리할 수 있는 장점이 있지만, 동물 이미지를 처리하지 못하고 손을 프레임에 삽입하는 등의 단점이 있음
- 비슷한 기능을 가진 다른 프로젝트로는 Runway와 Luma가 있음