# HN 공개: 1초 미만 지연 시간의 실시간 AI 비디오 에이전트

> Clean Markdown view of GeekNews topic #17035. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=17035](https://news.hada.io/topic?id=17035)
- GeekNews Markdown: [https://news.hada.io/topic/17035.md](https://news.hada.io/topic/17035.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2024-10-02T10:33:11+09:00
- Updated: 2024-10-02T10:33:11+09:00
- Original source: [news.ycombinator.com](https://news.ycombinator.com/item?id=41710227)
- Points: 2
- Comments: 1

## Topic Body

- Tavus의 공동 창립자인 Hassaan과 Quinn이 AI 연구 회사 및 비디오 API 개발 플랫폼을 소개함
- 2020년부터 '디지털 트윈' 또는 '아바타'를 위한 AI 비디오 모델을 개발해옴
- 인간과의 현실적인 대화를 위한 AI 비디오 인터페이스 구축의 도전 과제를 공유함

#### 도전 과제
- 대화형 비디오가 효과적이기 위해서는 매우 낮은 지연 시간과 대화 인식이 필요함
- 친구 간의 빠른 대화는 발언 사이에 약 250ms의 시간이 걸리지만, 복잡한 주제나 새로운 사람과의 대화는 추가적인 '생각' 시간이 필요함
- 1000ms 이하의 지연 시간은 대화를 현실감 있게 만듦

#### 아키텍처 결정
- 지연 시간, 확장성, 비용의 균형을 맞추는 것이 큰 도전 과제였음
- 지연 시간을 줄이기 위해 처음부터 새로 구축해야 했음
- 수천 개의 대화를 동시에 지원하면서도 컴퓨팅 비용을 절감해야 했음

#### 초기 개발
- 초기 개발 단계에서는 각 대화가 개별 H100에서 실행되어야 했음
- 이는 확장성이 없고 비용이 많이 들었음

#### Phoenix-2 모델 개발
- 여러 개선 사항을 포함한 새로운 모델, Phoenix-2를 개발함
- NeRF 기반 백본에서 Gaussian Splatting으로 전환하여 실시간보다 빠르게 프레임을 생성할 수 있게 됨
- 메모리와 GPU 코어 사용을 최적화하여 저사양 하드웨어에서도 실행 가능하게 함
- 스트리밍 vs 배칭, 프로세스 병렬화 등 시간과 비용을 절감하는 다른 방법들도 사용함

#### 최적화
- 각 구성 요소(비전, ASR, LLM, TTS, 비디오 생성)를 초고속으로 최적화해야 했음
- 가장 큰 문제는 LLM이었음
- 토큰 당 초속(t/s)이 빠르더라도 첫 번째 토큰까지의 시간(ttft)이 느리면 문제가 됨
- 대부분의 제공업체가 너무 느렸음

#### 발언 종료 감지
- 발언 종료 감지가 어려웠음
- 기본 솔루션은 침묵 후 시간을 사용하여 발언 종료를 '결정'하지만, 이는 지연 시간을 추가함
- AI 에이전트가 사용자의 말을 끊지 않도록 적절한 타이밍을 맞추는 것이 중요했음

#### 결과
- 이러한 최적화로 3-5초에서 1초 미만(최대 600ms)으로 지연 시간을 줄일 수 있었음
- 저사양 하드웨어에서도 1초 미만의 지연 시간을 달성함
- Delphi와 같은 여러 고객이 있으며, 디지털 트윈과의 대화가 몇 분에서 최대 4시간까지 이어짐

#### GN⁺의 정리
- Tavus의 AI 비디오 모델은 인간과의 자연스러운 대화를 목표로 함
- 지연 시간을 줄이기 위해 아키텍처를 새로 구축하고 최적화함
- Phoenix-2 모델은 저사양 하드웨어에서도 실시간보다 빠르게 프레임을 생성할 수 있음
- 이 기술은 인간-컴퓨터 인터페이스의 중요한 요소가 될 가능성이 있음
- 유사한 기능을 가진 다른 프로젝트로는 Google의 Duplex가 있음

## Comments


### Comment 29590

- Author: neo
- Created: 2024-10-02T10:33:12+09:00
- Points: 1

###### [Hacker News 의견](https://news.ycombinator.com/item?id=41710227) 
- 웹사이트와 다이얼업 소리가 마음에 듦, 카우보이 모자도 좋음
- 두 아바타의 채팅 경험이 좋지 않음, 자주 끊기고 혼란스러움
- 이미지 인식은 좋음, 아바타가 천천히 반응할 때 물건을 인식할 수 있었음
- 구체적인 어려움을 공유해줘서 감사함, 앞으로 더 좋아질 것임
- Hassan 버전이 더 나았음, 배경을 인식하고 벽에 있는 모델에 대해 이야기함
  - LEGO 세트에 대해 대화함
- 화장실에서 카메라가 수건을 비추고 있었는데 "아늑한 화장실이네요"라고 말함
- 실제 사람과 대화하는 느낌이었음, 코드처럼 대할 수 없었음
  - 사람과 대화할 때의 의식적인 노력을 생각하게 됨
  - Google 검색 시 최소한의 키워드만 사용함
  - 이 기술이 사람들에게 비슷한 행동을 훈련시킬까 걱정됨
- 저지연, 멀티모달 AI에 관심 있다면 Tavus가 10월 19-20일 SF에서 해커톤을 후원함
  - 원격 트랙도 있음
- 데모 기능: 9.5/10
  - 소름 끼침: 10/10
- GPU 배포에 익숙하지 않지만, 비용이 많이 들고 할당이 어려움
  - 클라우드 GPU 자원을 대규모로 처리하는 방법이 궁금함
  - 웹소켓 연결당 GPU를 할당하는지, 그렇다면 비용이 많이 들 것임
- 기술적으로 매우 인상적임, Carter 아바타가 긴장한 듯 보임
  - 입/치아에 이상이 있지만 반응이 빠름
  - Zoom에서 더 많은 지연을 본 적 있음
  - 콜센터의 미래라고 생각함, 아바타가 표현력이 높아지면 CSAT가 더 높아질 것임
- 기술적으로 놀라운 작업, 1초 미만의 반응 시간은 매우 인상적임
  - FaceTime에서 가짜 사람과 대화할 수 있다는 점이 무서움
  - 사회적 영향에 대해 어떻게 생각하는지 궁금함
  - 오늘날 인간 연결의 부족으로 외로움 위기가 있음
- ChatGPT가 대화 중단을 감지하는 데 문제가 있음
  - 항상 말을 끊음