- Tavus의 공동 창립자인 Hassaan과 Quinn이 AI 연구 회사 및 비디오 API 개발 플랫폼을 소개함
- 2020년부터 '디지털 트윈' 또는 '아바타'를 위한 AI 비디오 모델을 개발해옴
- 인간과의 현실적인 대화를 위한 AI 비디오 인터페이스 구축의 도전 과제를 공유함
도전 과제
- 대화형 비디오가 효과적이기 위해서는 매우 낮은 지연 시간과 대화 인식이 필요함
- 친구 간의 빠른 대화는 발언 사이에 약 250ms의 시간이 걸리지만, 복잡한 주제나 새로운 사람과의 대화는 추가적인 '생각' 시간이 필요함
- 1000ms 이하의 지연 시간은 대화를 현실감 있게 만듦
아키텍처 결정
- 지연 시간, 확장성, 비용의 균형을 맞추는 것이 큰 도전 과제였음
- 지연 시간을 줄이기 위해 처음부터 새로 구축해야 했음
- 수천 개의 대화를 동시에 지원하면서도 컴퓨팅 비용을 절감해야 했음
초기 개발
- 초기 개발 단계에서는 각 대화가 개별 H100에서 실행되어야 했음
- 이는 확장성이 없고 비용이 많이 들었음
Phoenix-2 모델 개발
- 여러 개선 사항을 포함한 새로운 모델, Phoenix-2를 개발함
- NeRF 기반 백본에서 Gaussian Splatting으로 전환하여 실시간보다 빠르게 프레임을 생성할 수 있게 됨
- 메모리와 GPU 코어 사용을 최적화하여 저사양 하드웨어에서도 실행 가능하게 함
- 스트리밍 vs 배칭, 프로세스 병렬화 등 시간과 비용을 절감하는 다른 방법들도 사용함
최적화
- 각 구성 요소(비전, ASR, LLM, TTS, 비디오 생성)를 초고속으로 최적화해야 했음
- 가장 큰 문제는 LLM이었음
- 토큰 당 초속(t/s)이 빠르더라도 첫 번째 토큰까지의 시간(ttft)이 느리면 문제가 됨
- 대부분의 제공업체가 너무 느렸음
발언 종료 감지
- 발언 종료 감지가 어려웠음
- 기본 솔루션은 침묵 후 시간을 사용하여 발언 종료를 '결정'하지만, 이는 지연 시간을 추가함
- AI 에이전트가 사용자의 말을 끊지 않도록 적절한 타이밍을 맞추는 것이 중요했음
결과
- 이러한 최적화로 3-5초에서 1초 미만(최대 600ms)으로 지연 시간을 줄일 수 있었음
- 저사양 하드웨어에서도 1초 미만의 지연 시간을 달성함
- Delphi와 같은 여러 고객이 있으며, 디지털 트윈과의 대화가 몇 분에서 최대 4시간까지 이어짐
GN⁺의 정리
- Tavus의 AI 비디오 모델은 인간과의 자연스러운 대화를 목표로 함
- 지연 시간을 줄이기 위해 아키텍처를 새로 구축하고 최적화함
- Phoenix-2 모델은 저사양 하드웨어에서도 실시간보다 빠르게 프레임을 생성할 수 있음
- 이 기술은 인간-컴퓨터 인터페이스의 중요한 요소가 될 가능성이 있음
- 유사한 기능을 가진 다른 프로젝트로는 Google의 Duplex가 있음