Show HN: Infinity – 말할 수 있는 현실적인 AI 캐릭터

(news.ycombinator.com)

1P by GN⁺ 2024-09-07 | ★ favorite | 댓글 1개

Infinity AI 소개

Infinity AI는 사람을 중심으로 한 비디오 모델을 훈련한 회사임
오디오 입력으로 구동되는 비디오 확산 변환기를 훈련한 최초의 사례임
이 모델은 실제로 말하는 표현력 있고 현실적인 캐릭터를 생성할 수 있음

사용 방법

Infinity AI의 도구를 사용하여 스크립트를 입력하면 캐릭터가 말하는 비디오를 생성할 수 있음
예시:
- "모나리자가 '뭘 보고 웃고 있어?'라고 말하는 비디오"
- "빨간 모자를 쓴 3D 픽사 스타일의 노움이 독립 선언문을 낭독하는 비디오"
- "엘론 머스크가 프랭크 시나트라의 'Fly Me To The Moon'을 부르는 비디오"

기존 AI 도구의 문제점

기존의 생성 AI 비디오 모델은 캐릭터가 말을 할 수 없었음
기존의 말하는 아바타 회사들은 기존 비디오 위에 립싱크를 추가하는 방식이었음
이로 인해 오디오와 일치하지 않는 표정과 제스처가 발생하여 "언캐니 밸리" 현상이 나타남

V1 모델의 한계

립싱크 접근 방식은 제스처 불일치 외에도 여러 한계가 있었음
제한된 배우 라이브러리와 상상 속 캐릭터를 애니메이션화할 수 없는 문제

V2 모델의 개선점

단일 이미지, 오디오 및 기타 조건 신호를 입력받아 비디오를 출력하는 종단 간 비디오 확산 변환기 모델을 훈련함
인간의 움직임과 감정의 복잡성과 미묘함을 포착하는 데 최적의 접근 방식이라고 믿음
모델이 느리다는 단점이 있음

모델의 장점

여러 언어를 처리할 수 있음
물리학을 일부 학습함 (예: 귀걸이가 제대로 흔들림)
다양한 유형의 이미지를 애니메이션화할 수 있음 (그림, 조각 등)
노래를 처리할 수 있음

모델의 단점

동물 이미지를 처리할 수 없음 (인간형 이미지만 가능)
종종 손을 프레임에 삽입함 (매우 성가시고 산만함)
만화에 대해 강건하지 않음
사람의 정체성을 왜곡할 수 있음 (유명 인물에게서 두드러짐)

모델 사용해보기

모델 사용 링크: https://studio.infinity.ai/try-inf2

GN⁺의 정리

Infinity AI의 비디오 모델은 오디오 입력을 통해 현실적인 캐릭터를 생성할 수 있는 최초의 사례임
기존 AI 도구의 한계를 극복하고 종단 간 비디오 확산 변환기 모델을 통해 인간의 움직임과 감정을 더 잘 포착함
여러 언어와 다양한 이미지 유형을 처리할 수 있는 장점이 있지만, 동물 이미지를 처리하지 못하고 손을 프레임에 삽입하는 등의 단점이 있음
비슷한 기능을 가진 다른 프로젝트로는 Runway와 Luma가 있음

GN⁺ 2024-09-07 [-]

Hacker News 의견

Hedra의 저급한 모방작으로 보이며, 현재로서는 많이 뒤처져 있음
텍스트-이미지 변환을 사용하여 우주 해병을 생성했는데, 추가 수정 없이도 놀라운 결과물 나옴
"Gnome" 얼굴 옵션을 보자마자 무엇을 해야 할지 알았음
모델이 Duke Nukem을 좋아하지 않는 것 같음
그의 권총을 잘라내니 상황이 더 나빠짐
다른 이미지는 조금 더 나은 결과를 보임
이 이미지가 가장 마음에 듦
누군가는 이 작업을 해야 했음
Alibaba 연구의 Emo와 같은 선행 연구가 있지만, 이 데모는 실제로 사람들이 시도할 수 있어 인상적임
밈을 현실로 만들려고 했으나 원본 이미지가 어려웠음
- 오디오에 약간의 언어 문제가 있음
언캐니 밸리로 밀어붙이려고 했으나 꽤 어려웠음
종종 프레임에 손을 삽입함
- 너무 많은 이탈리아 데이터로 훈련된 것 같음
이 도구가 매우 놀라움
- 짧은 오디오(3~5초)에서는 이미지가 완전히 정지된 상태로 남아 있는 작은 문제가 있음