1P by neo 13일전 | favorite | 댓글 1개

Infinity AI 소개

  • Infinity AI는 사람을 중심으로 한 비디오 모델을 훈련한 회사임
  • 오디오 입력으로 구동되는 비디오 확산 변환기를 훈련한 최초의 사례임
  • 이 모델은 실제로 말하는 표현력 있고 현실적인 캐릭터를 생성할 수 있음

사용 방법

  • Infinity AI의 도구를 사용하여 스크립트를 입력하면 캐릭터가 말하는 비디오를 생성할 수 있음
  • 예시:
    • "모나리자가 '뭘 보고 웃고 있어?'라고 말하는 비디오"
    • "빨간 모자를 쓴 3D 픽사 스타일의 노움이 독립 선언문을 낭독하는 비디오"
    • "엘론 머스크가 프랭크 시나트라의 'Fly Me To The Moon'을 부르는 비디오"

기존 AI 도구의 문제점

  • 기존의 생성 AI 비디오 모델은 캐릭터가 말을 할 수 없었음
  • 기존의 말하는 아바타 회사들은 기존 비디오 위에 립싱크를 추가하는 방식이었음
  • 이로 인해 오디오와 일치하지 않는 표정과 제스처가 발생하여 "언캐니 밸리" 현상이 나타남

V1 모델의 한계

  • 립싱크 접근 방식은 제스처 불일치 외에도 여러 한계가 있었음
  • 제한된 배우 라이브러리와 상상 속 캐릭터를 애니메이션화할 수 없는 문제

V2 모델의 개선점

  • 단일 이미지, 오디오 및 기타 조건 신호를 입력받아 비디오를 출력하는 종단 간 비디오 확산 변환기 모델을 훈련함
  • 인간의 움직임과 감정의 복잡성과 미묘함을 포착하는 데 최적의 접근 방식이라고 믿음
  • 모델이 느리다는 단점이 있음

모델의 장점

  • 여러 언어를 처리할 수 있음
  • 물리학을 일부 학습함 (예: 귀걸이가 제대로 흔들림)
  • 다양한 유형의 이미지를 애니메이션화할 수 있음 (그림, 조각 등)
  • 노래를 처리할 수 있음

모델의 단점

  • 동물 이미지를 처리할 수 없음 (인간형 이미지만 가능)
  • 종종 손을 프레임에 삽입함 (매우 성가시고 산만함)
  • 만화에 대해 강건하지 않음
  • 사람의 정체성을 왜곡할 수 있음 (유명 인물에게서 두드러짐)

모델 사용해보기

GN⁺의 정리

  • Infinity AI의 비디오 모델은 오디오 입력을 통해 현실적인 캐릭터를 생성할 수 있는 최초의 사례임
  • 기존 AI 도구의 한계를 극복하고 종단 간 비디오 확산 변환기 모델을 통해 인간의 움직임과 감정을 더 잘 포착함
  • 여러 언어와 다양한 이미지 유형을 처리할 수 있는 장점이 있지만, 동물 이미지를 처리하지 못하고 손을 프레임에 삽입하는 등의 단점이 있음
  • 비슷한 기능을 가진 다른 프로젝트로는 Runway와 Luma가 있음
Hacker News 의견
  • Hedra의 저급한 모방작으로 보이며, 현재로서는 많이 뒤처져 있음
  • 텍스트-이미지 변환을 사용하여 우주 해병을 생성했는데, 추가 수정 없이도 놀라운 결과물 나옴
  • "Gnome" 얼굴 옵션을 보자마자 무엇을 해야 할지 알았음
  • 모델이 Duke Nukem을 좋아하지 않는 것 같음
  • 그의 권총을 잘라내니 상황이 더 나빠짐
  • 다른 이미지는 조금 더 나은 결과를 보임
  • 이 이미지가 가장 마음에 듦
  • 누군가는 이 작업을 해야 했음
  • Alibaba 연구의 Emo와 같은 선행 연구가 있지만, 이 데모는 실제로 사람들이 시도할 수 있어 인상적임
  • 밈을 현실로 만들려고 했으나 원본 이미지가 어려웠음
    • 오디오에 약간의 언어 문제가 있음
  • 언캐니 밸리로 밀어붙이려고 했으나 꽤 어려웠음
  • 종종 프레임에 손을 삽입함
    • 너무 많은 이탈리아 데이터로 훈련된 것 같음
  • 이 도구가 매우 놀라움
    • 짧은 오디오(3~5초)에서는 이미지가 완전히 정지된 상태로 남아 있는 작은 문제가 있음