# Show HN: Infinity – 말할 수 있는 현실적인 AI 캐릭터

> Clean Markdown view of GeekNews topic #16648. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=16648](https://news.hada.io/topic?id=16648)
- GeekNews Markdown: [https://news.hada.io/topic/16648.md](https://news.hada.io/topic/16648.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2024-09-07T10:33:01+09:00
- Updated: 2024-09-07T10:33:01+09:00
- Original source: [news.ycombinator.com](https://news.ycombinator.com/item?id=41467704)
- Points: 1
- Comments: 1

## Topic Body

##### Infinity AI 소개

- Infinity AI는 사람을 중심으로 한 비디오 모델을 훈련한 회사임
- 오디오 입력으로 구동되는 비디오 확산 변환기를 훈련한 최초의 사례임
- 이 모델은 실제로 말하는 표현력 있고 현실적인 캐릭터를 생성할 수 있음

##### 사용 방법

- Infinity AI의 도구를 사용하여 스크립트를 입력하면 캐릭터가 말하는 비디오를 생성할 수 있음
- 예시:
  - "모나리자가 '뭘 보고 웃고 있어?'라고 말하는 비디오"
  - "빨간 모자를 쓴 3D 픽사 스타일의 노움이 독립 선언문을 낭독하는 비디오"
  - "엘론 머스크가 프랭크 시나트라의 'Fly Me To The Moon'을 부르는 비디오"

##### 기존 AI 도구의 문제점

- 기존의 생성 AI 비디오 모델은 캐릭터가 말을 할 수 없었음
- 기존의 말하는 아바타 회사들은 기존 비디오 위에 립싱크를 추가하는 방식이었음
- 이로 인해 오디오와 일치하지 않는 표정과 제스처가 발생하여 "언캐니 밸리" 현상이 나타남

##### V1 모델의 한계

- 립싱크 접근 방식은 제스처 불일치 외에도 여러 한계가 있었음
- 제한된 배우 라이브러리와 상상 속 캐릭터를 애니메이션화할 수 없는 문제

##### V2 모델의 개선점

- 단일 이미지, 오디오 및 기타 조건 신호를 입력받아 비디오를 출력하는 종단 간 비디오 확산 변환기 모델을 훈련함
- 인간의 움직임과 감정의 복잡성과 미묘함을 포착하는 데 최적의 접근 방식이라고 믿음
- 모델이 느리다는 단점이 있음

##### 모델의 장점

- 여러 언어를 처리할 수 있음
- 물리학을 일부 학습함 (예: 귀걸이가 제대로 흔들림)
- 다양한 유형의 이미지를 애니메이션화할 수 있음 (그림, 조각 등)
- 노래를 처리할 수 있음

##### 모델의 단점

- 동물 이미지를 처리할 수 없음 (인간형 이미지만 가능)
- 종종 손을 프레임에 삽입함 (매우 성가시고 산만함)
- 만화에 대해 강건하지 않음
- 사람의 정체성을 왜곡할 수 있음 (유명 인물에게서 두드러짐)

##### 모델 사용해보기

- 모델 사용 링크: [https://studio.infinity.ai/try-inf2](https://studio.infinity.ai/try-inf2)

##### GN⁺의 정리

- Infinity AI의 비디오 모델은 오디오 입력을 통해 현실적인 캐릭터를 생성할 수 있는 최초의 사례임
- 기존 AI 도구의 한계를 극복하고 종단 간 비디오 확산 변환기 모델을 통해 인간의 움직임과 감정을 더 잘 포착함
- 여러 언어와 다양한 이미지 유형을 처리할 수 있는 장점이 있지만, 동물 이미지를 처리하지 못하고 손을 프레임에 삽입하는 등의 단점이 있음
- 비슷한 기능을 가진 다른 프로젝트로는 Runway와 Luma가 있음

## Comments


### Comment 28677

- Author: neo
- Created: 2024-09-07T10:33:01+09:00
- Points: 1

###### [Hacker News 의견](https://news.ycombinator.com/item?id=41467704) 
- Hedra의 저급한 모방작으로 보이며, 현재로서는 많이 뒤처져 있음
- 텍스트-이미지 변환을 사용하여 우주 해병을 생성했는데, 추가 수정 없이도 놀라운 결과물 나옴
- "Gnome" 얼굴 옵션을 보자마자 무엇을 해야 할지 알았음
- 모델이 Duke Nukem을 좋아하지 않는 것 같음
- 그의 권총을 잘라내니 상황이 더 나빠짐
- 다른 이미지는 조금 더 나은 결과를 보임
- 이 이미지가 가장 마음에 듦
- 누군가는 이 작업을 해야 했음
- Alibaba 연구의 Emo와 같은 선행 연구가 있지만, 이 데모는 실제로 사람들이 시도할 수 있어 인상적임
- 밈을 현실로 만들려고 했으나 원본 이미지가 어려웠음
  - 오디오에 약간의 언어 문제가 있음
- 언캐니 밸리로 밀어붙이려고 했으나 꽤 어려웠음
- 종종 프레임에 손을 삽입함
  - 너무 많은 이탈리아 데이터로 훈련된 것 같음
- 이 도구가 매우 놀라움
  - 짧은 오디오(3~5초)에서는 이미지가 완전히 정지된 상태로 남아 있는 작은 문제가 있음