Ovi - 오디오-비디오 생성을 위한 트윈 백본 크로스모달 융합
(github.com/character-ai)- Character AI가 개발한 Ovi는 텍스트나 이미지 입력으로부터 동시에 오디오와 비디오를 생성하는 AI 모델
- Ovi는 자체 구축한 5B 규모의 오디오 브랜치와 Wan2.2 기반의 비디오 브랜치를 결합해, 고품질의 동기화된 시청각 콘텐츠를 생성함
- 모델은 720×720 해상도에서 학습되었지만, 960×960 이상의 해상도에서도 자연스러운 결과를 생성하며, 다양한 종횡비(9:16, 16:9 등)를 지원
- Gradio UI, ComfyUI 통합(WIP) , 멀티 GPU 추론, qint8/fp8 양자화 등 다양한 실행 옵션과 효율화 기능을 제공
- 이 프로젝트는 텍스트-비디오 생성(T2V) 및 이미지-비디오 생성(I2V) 기술 발전의 최신 사례로, 오디오-비디오 융합 생성의 새로운 표준을 제시
Ovi 개요
-
Ovi는 Character AI와 Yale University 연구진이 공동 개발한 크로스모달 생성 모델로, 텍스트 또는 텍스트+이미지 입력으로부터 동기화된 오디오와 비디오를 동시에 생성하는 시스템임
- 모델 구조는 “Twin Backbone Cross-Modal Fusion”으로 명명되어, 오디오와 비디오 브랜치를 병렬로 학습하고 융합하는 방식 사용
- 프로젝트 리드는 Weimin Wang이며, 공동 기여자는 Chetwin Low와 Calder Katyal
- Veo-3 유사 모델로 소개되며, Character AI의 내부 오디오 데이터셋을 활용해 5B 파라미터 규모의 오디오 브랜치를 처음부터 사전학습함
- 생성된 영상은 5초 길이, 24FPS, 720×720 해상도를 기본으로 하며, 9:16, 16:9, 1:1 등 다양한 비율을 지원
주요 기능 및 특징
- 🎬 Video+Audio Generation: 텍스트 또는 이미지 입력으로부터 오디오와 비디오를 동시에 생성
- 🎵 High-Quality Audio Branch: 자체 구축한 대규모 오디오 데이터셋으로 학습된 오디오 브랜치 제공
- 📝 Flexible Input: 텍스트 단독 또는 텍스트+이미지 입력 모두 지원
- ⏱️ 5초 비디오 생성: 24FPS로 5초 길이의 짧은 영상 생성
-
🎯 고해상도 지원: 960×960 이상 해상도에서도 자연스러운 결과 생성 가능
- 예시로 1280×704, 1504×608, 1344×704 등 다양한 비율의 영상 제공
- 🚀 업스케일링 능력: 학습은 720×720에서 진행되었으나, 고해상도에서도 시간적·공간적 일관성을 유지
사용 가능한 플랫폼 및 데모
- Wavespeed.ai에서 텍스트→비디오 및 이미지→비디오 생성 가능
- HuggingFace Spaces에서도 데모 제공
-
ComfyUI 통합(WIP) :
ComfyUI-WanVideoWrapper를 통해 Ovi 모델을 워크플로우에 통합 가능
학습 및 성능
- 학습 해상도: 720×720
- 추론 시 해상도 확장: 960×960 및 다양한 종횡비 지원
- 시간적 일관성 유지: 프레임 간 자연스러운 전환 구현
- 오디오-비디오 싱크 품질: 오디오 가이드 스케일 조정으로 동기화 품질 제어 가능
실행 및 구성
-
설치 절차
- PyTorch 2.6.0, Flash Attention, requirements.txt 의존성 설치
-
download_weights.py로 체크포인트 다운로드 (T5, VAE, MMAudio 포함) - GPU VRAM이 24GB인 경우
fp8또는qint8양자화 버전 사용 가능
-
추론 구성 파일:
ovi/configs/inference/inference_fusion.yaml- 주요 설정 항목:
-
num_steps: 디노이징 단계 수 (30~50) -
audio_guidance_scale,video_guidance_scale: 오디오·비디오 동기화 강도 -
sp_size: 시퀀스 병렬 크기 (GPU 개수와 동일하게 설정) -
cpu_offload: GPU VRAM 절약 모드 -
fp8: 24GB VRAM 환경에서 실행 가능
-
- 주요 설정 항목:
-
추론 실행 예시
- 단일 GPU:
python3 inference.py --config-file ... - 멀티 GPU:
torchrun --nnodes 1 --nproc_per_node 8 inference.py ...
- 단일 GPU:
성능 및 메모리 요구사항
- 기본 모델 실행 시 최소 32GB VRAM 필요, fp8 모드에서는 24GB로 가능
- FlashAttention-3 활성화 시 처리 속도 향상
- 시퀀스 병렬 처리로 4~8 GPU 사용 시 처리 시간 40~55초 수준
- CPU 오프로딩 시 VRAM 절약 가능하지만, 처리 시간 약 20초 증가
Gradio UI 실행
- 간단한 명령으로 Gradio 기반 인터페이스 실행 가능
-
python3 gradio_app.py -
--cpu_offload,--use_image_gen,--qint8,--fp8옵션으로 다양한 환경 지원
-
- I2V 모드에서는 첫 프레임 생성을 위한 이미지 생성 모델 자동 활성화
프롬프트 구조 및 예시
-
Text-to-Audio-Video (T2AV) :
example_prompts/gpt_examples_t2v.csv -
Image-to-Audio-Video (I2AV) :
example_prompts/gpt_examples_i2v.csv -
특수 태그 사용
-
...: 음성 변환용 텍스트 -
...: 배경음 및 효과음 설명
-
-
GPT를 활용한 프롬프트 생성
- 예시 CSV를 기반으로 GPT에게 특정 주제(예: “AI와 인간의 대결”)로 대사를 수정하도록 요청
- 수정된 프롬프트를 Ovi에 입력해 주제 기반 영상 생성 가능
향후 계획 (Todo List)
- 연구 논문 및 데모 웹사이트 공개 예정
- 11B 모델 체크포인트 및 멀티 GPU 추론 코드 공개
- fp8 가중치, 시퀀스 병렬 효율 개선, FSDP 샤딩 추론 구현 예정
- 고해상도 데이터 파인튜닝 및 RL 기반 성능 향상 연구 진행
- 긴 영상 생성, 참조 음성 조건, 추론 속도 향상을 위한 Distilled 모델 개발 예정
기술적 감사 및 협업
- Wan2.2: 비디오 브랜치 초기화에 사용
- MMAudio: 오디오 VAE 재사용
- 기여자: @rkfg (fp8 효율화), @gluttony-10 (qint8 양자화)
- 협업 제안 및 문의: Weimin Wang에게 연락 가능
인용 정보
- 논문: Ovi: Twin Backbone Cross-Modal Fusion for Audio-Video Generation
- arXiv: https://arxiv.org/abs/2510.01284
- BibTeX 제공, 연구 활용 시 인용 권장
프로젝트 메타데이터
- 라이선스: Apache-2.0
- 언어 구성: Python 96.3%, CUDA 2.1%, C 1.4%, C++ 0.2%
- GitHub 통계: ★955, 포크 92, 이슈 20, PR 2
- 개발자: Character AI 팀, Yale University 연구진
Hacker News 의견
-
몇 달째 AI 생성 도구를 다뤄왔는데, 각각의 툴이 빠르게 하나로 통합되어 로컬 머신에서도 쓸 수 있게 된 게 놀라움
지난주부터 Ovi를 써봤는데 정말 재밌음. AI 생성물은 일종의 슬롯머신 같아서 좋은 입력을 넣어도 결과가 엉망일 때가 있지만, 여러 번 돌리면 쓸만한 게 나옴
I2V와 T2V로 꽤 진짜처럼 보이고 들리는 영상을 만들었음. T2V는 가끔 90년대 TV 화질처럼 보이지만, 그게 오히려 현실감 있게 느껴짐
Flux SPRO를 이미지 소스로 쓰면 꽤 사실적인 영상이 나옴. 내 GPU는 5090이라 5초짜리 클립을 만드는 데 4~5분 정도 걸림 -
영상 모델이 Wan 2.2 기반인 것 같음
최근 Wan 관련 활동이 활발하고, OpenAI나 Runway 같은 거대 자본의 폐쇄형 모델에 맞서는 유연한 오픈 모델이 등장하는 게 반가움- VeniceAI가 제공하는 프라이버시 중심 오픈소스 비디오 모델들이 주력임. Ovi는 이미지→비디오, Wan 2.1은 이미지→비디오, Wan 2.2는 텍스트→비디오를 지원함
Wan 2.5도 있지만 공식 제공자 경유로 익명 라우팅됨. Kling, Veo, Sora 같은 경유형 옵션보다 훨씬 저렴함 - 관련 논의는 Wan – Open-source alternative to VEO 3 스레드에서도 다뤄졌음
- 그리고 Google도 여기에 얽혀 있음
- VeniceAI가 제공하는 프라이버시 중심 오픈소스 비디오 모델들이 주력임. Ovi는 이미지→비디오, Wan 2.1은 이미지→비디오, Wan 2.2는 텍스트→비디오를 지원함
-
예전에 Nokia의 Ovi에서 일했었음. 당시 Ovi는 노키아폰용 GSuite 같은 개념이었고, 공식 설명은 “Ovi는 핀란드어로 문(Door)”이었지만 내부 농담으로는 “헝가리어로 유치원(Kindergarten)”이라 불렀음. 이번 Ovi 이름의 유래는 찾지 못했음
- 나도 Ovi 관련 프로젝트에서 일했었음. 헬싱키 본사 초기 회의에서 임원들이 Google을 경쟁 상대로 삼겠다는 얘기를 들었는데, 꽤 대담한 시도였음
하지만 브랜드 전략 부재와 실패한 디바이스 소프트웨어 정책에 묶여 결국 몰락함. 아마 2013년쯤 완전히 종료된 듯함. 그땐 이미 회사를 떠났음
- 나도 Ovi 관련 프로젝트에서 일했었음. 헬싱키 본사 초기 회의에서 임원들이 Google을 경쟁 상대로 삼겠다는 얘기를 들었는데, 꽤 대담한 시도였음
-
내 귀가 AutoTune 이전 세대라 그런지, 오디오에 여전히 완벽한 피치와 압축(companding)의 흔적이 느껴짐
특히 Invincible 시리즈의 Machine Head 캐릭터 음성과 비슷하게 들림
그래도 전반적으로 훌륭한 작업임 -
프로젝트 자체는 흥미롭지만, 생성형 오디오비주얼 콘텐츠의 실용성은 아직 잘 모르겠음
지금으로선 이득보다는 귀찮은 요소가 더 많아 보임 -
이런 속도라면 몇 달 안에 고품질 숏필름이 전부 생성형으로 만들어질 수도 있을 것 같음
- 하지만 그만큼 딥페이크 악용으로 개인의 삶이 망가지는 사례도 나올 것 같음
- 오히려 친구들과 모여 각자 프롬프트를 써서 이어붙인 영화를 함께 보는 프롬프트 파티 같은 미래가 올 수도 있음. 상상만 해도 웃김
- 그래도 숏필름보다 먼저 장편 영화가 나올 가능성이 높다고 봄. 짧은 영상일수록 완성도가 더 어렵기 때문임
-
이 프로젝트들이 서로 관련 있는지 궁금해서 이 스레드와 이 스레드를 비교해봤음
- 새로운 오픈 가중치 모델이 나오면, 기회주의자들이 그 이름으로 도메인을 등록하고 SEO로 돈을 벌려 함
요즘은 AI 코딩 툴 덕분에 이런 랜딩 페이지 자동 생성이 훨씬 쉬워짐
- 새로운 오픈 가중치 모델이 나오면, 기회주의자들이 그 이름으로 도메인을 등록하고 SEO로 돈을 벌려 함
-
I2V의 경우, NVIDIA 4070 이상 GPU와 충분한 VRAM이 있다면 440x440 해상도에서 1~2분 만에 쓸만한 초안을 얻을 수 있음
T2V는 아직 훈련된 해상도 근처에서만 품질이 안정적임. 그래도 Wan의 알려진 해상도에서는 간헐적으로 좋은 결과가 나옴
CUDA 12.8 이상, Torch 2.8 이상, 그리고 Flash 2보다 SageAttention을 쓸 때 품질이 눈에 띄게 좋아짐 -
흥미로운 발전이지만, CAI 같은 회사가 이걸 갖게 된 건 아쉬움
젊고 외로운 사람들을 상대로 AI를 이용