# Ovi - 오디오-비디오 생성을 위한 트윈 백본 크로스모달 융합

> Clean Markdown view of GeekNews topic #23870. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=23870](https://news.hada.io/topic?id=23870)
- GeekNews Markdown: [https://news.hada.io/topic/23870.md](https://news.hada.io/topic/23870.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2025-10-24T04:33:16+09:00
- Updated: 2025-10-24T04:33:16+09:00
- Original source: [github.com/character-ai](https://github.com/character-ai/Ovi)
- Points: 1
- Comments: 1

## Topic Body

- Character AI가 개발한 **Ovi**는 텍스트나 이미지 입력으로부터 **동시에 오디오와 비디오를 생성**하는 AI 모델  
- Ovi는 자체 구축한 **5B 규모의 오디오 브랜치**와 Wan2.2 기반의 비디오 브랜치를 결합해, 고품질의 동기화된 시청각 콘텐츠를 생성함  
- 모델은 **720×720 해상도**에서 학습되었지만, **960×960 이상의 해상도**에서도 자연스러운 결과를 생성하며, 다양한 종횡비(9:16, 16:9 등)를 지원  
- **Gradio UI**, **ComfyUI 통합(WIP)** , **멀티 GPU 추론**, **qint8/fp8 양자화** 등 다양한 실행 옵션과 효율화 기능을 제공  
- 이 프로젝트는 **텍스트-비디오 생성(T2V)** 및 **이미지-비디오 생성(I2V)** 기술 발전의 최신 사례로, 오디오-비디오 융합 생성의 새로운 표준을 제시  
  
---  
  
### Ovi 개요  
- **Ovi**는 Character AI와 Yale University 연구진이 공동 개발한 **크로스모달 생성 모델**로, 텍스트 또는 텍스트+이미지 입력으로부터 **동기화된 오디오와 비디오를 동시에 생성**하는 시스템임  
  - 모델 구조는 “**Twin Backbone Cross-Modal Fusion**”으로 명명되어, 오디오와 비디오 브랜치를 병렬로 학습하고 융합하는 방식 사용  
  - 프로젝트 리드는 Weimin Wang이며, 공동 기여자는 Chetwin Low와 Calder Katyal  
- **Veo-3 유사 모델**로 소개되며, Character AI의 내부 오디오 데이터셋을 활용해 **5B 파라미터 규모의 오디오 브랜치**를 처음부터 사전학습함  
- 생성된 영상은 **5초 길이, 24FPS, 720×720 해상도**를 기본으로 하며, 9:16, 16:9, 1:1 등 다양한 비율을 지원  
  
### 주요 기능 및 특징  
- **🎬 Video+Audio Generation**: 텍스트 또는 이미지 입력으로부터 오디오와 비디오를 동시에 생성  
- **🎵 High-Quality Audio Branch**: 자체 구축한 대규모 오디오 데이터셋으로 학습된 오디오 브랜치 제공  
- **📝 Flexible Input**: 텍스트 단독 또는 텍스트+이미지 입력 모두 지원  
- **⏱️ 5초 비디오 생성**: 24FPS로 5초 길이의 짧은 영상 생성  
- **🎯 고해상도 지원**: 960×960 이상 해상도에서도 자연스러운 결과 생성 가능  
  - 예시로 1280×704, 1504×608, 1344×704 등 다양한 비율의 영상 제공  
- **🚀 업스케일링 능력**: 학습은 720×720에서 진행되었으나, 고해상도에서도 시간적·공간적 일관성을 유지  
  
### 사용 가능한 플랫폼 및 데모  
- **Wavespeed.ai**에서 텍스트→비디오 및 이미지→비디오 생성 가능  
  - https://wavespeed.ai/models/character-ai/ovi/image-to-video  
  - https://wavespeed.ai/models/character-ai/ovi/text-to-video  
- **HuggingFace Spaces**에서도 데모 제공  
  - https://huggingface.co/spaces/akhaliq/Ovi  
- **ComfyUI 통합(WIP)** : `ComfyUI-WanVideoWrapper`를 통해 Ovi 모델을 워크플로우에 통합 가능  
  
### 학습 및 성능  
- **학습 해상도**: 720×720  
- **추론 시 해상도 확장**: 960×960 및 다양한 종횡비 지원  
- **시간적 일관성 유지**: 프레임 간 자연스러운 전환 구현  
- **오디오-비디오 싱크 품질**: 오디오 가이드 스케일 조정으로 동기화 품질 제어 가능  
  
### 실행 및 구성  
- **설치 절차**  
  - PyTorch 2.6.0, Flash Attention, requirements.txt 의존성 설치  
  - `download_weights.py`로 체크포인트 다운로드 (T5, VAE, MMAudio 포함)  
  - GPU VRAM이 24GB인 경우 `fp8` 또는 `qint8` 양자화 버전 사용 가능  
- **추론 구성 파일**: `ovi/configs/inference/inference_fusion.yaml`  
  - 주요 설정 항목:  
    - `num_steps`: 디노이징 단계 수 (30~50)  
    - `audio_guidance_scale`, `video_guidance_scale`: 오디오·비디오 동기화 강도  
    - `sp_size`: 시퀀스 병렬 크기 (GPU 개수와 동일하게 설정)  
    - `cpu_offload`: GPU VRAM 절약 모드  
    - `fp8`: 24GB VRAM 환경에서 실행 가능  
- **추론 실행 예시**  
  - 단일 GPU: `python3 inference.py --config-file ...`  
  - 멀티 GPU: `torchrun --nnodes 1 --nproc_per_node 8 inference.py ...`  
  
### 성능 및 메모리 요구사항  
- **기본 모델 실행 시 최소 32GB VRAM 필요**, fp8 모드에서는 24GB로 가능  
- **FlashAttention-3** 활성화 시 처리 속도 향상  
- **시퀀스 병렬 처리**로 4~8 GPU 사용 시 처리 시간 40~55초 수준  
- **CPU 오프로딩** 시 VRAM 절약 가능하지만, 처리 시간 약 20초 증가  
  
### Gradio UI 실행  
- 간단한 명령으로 Gradio 기반 인터페이스 실행 가능  
  - `python3 gradio_app.py`  
  - `--cpu_offload`, `--use_image_gen`, `--qint8`, `--fp8` 옵션으로 다양한 환경 지원  
- I2V 모드에서는 첫 프레임 생성을 위한 이미지 생성 모델 자동 활성화  
  
### 프롬프트 구조 및 예시  
- **Text-to-Audio-Video (T2AV)** : `example_prompts/gpt_examples_t2v.csv`  
- **Image-to-Audio-Video (I2AV)** : `example_prompts/gpt_examples_i2v.csv`  
- **특수 태그 사용**  
  - ` ... `: 음성 변환용 텍스트  
  - ` ... `: 배경음 및 효과음 설명  
- **GPT를 활용한 프롬프트 생성**  
  - 예시 CSV를 기반으로 GPT에게 특정 주제(예: “AI와 인간의 대결”)로 대사를 수정하도록 요청  
  - 수정된 프롬프트를 Ovi에 입력해 주제 기반 영상 생성 가능  
  
### 향후 계획 (Todo List)  
- **연구 논문 및 데모 웹사이트 공개 예정**  
- **11B 모델 체크포인트** 및 **멀티 GPU 추론 코드** 공개  
- **fp8 가중치**, **시퀀스 병렬 효율 개선**, **FSDP 샤딩 추론** 구현 예정  
- **고해상도 데이터 파인튜닝** 및 **RL 기반 성능 향상** 연구 진행  
- **긴 영상 생성**, **참조 음성 조건**, **추론 속도 향상을 위한 Distilled 모델** 개발 예정  
  
### 기술적 감사 및 협업  
- **Wan2.2**: 비디오 브랜치 초기화에 사용  
- **MMAudio**: 오디오 VAE 재사용  
- **기여자**: @rkfg (fp8 효율화), @gluttony-10 (qint8 양자화)  
- **협업 제안 및 문의**: Weimin Wang에게 연락 가능  
  
### 인용 정보  
- 논문: *Ovi: Twin Backbone Cross-Modal Fusion for Audio-Video Generation*  
- arXiv: [https://arxiv.org/abs/2510.01284](https://arxiv.org/abs/2510.01284)  
- BibTeX 제공, 연구 활용 시 인용 권장  
  
### 프로젝트 메타데이터  
- **라이선스**: Apache-2.0  
- **언어 구성**: Python 96.3%, CUDA 2.1%, C 1.4%, C++ 0.2%  
- **GitHub 통계**: ★955, 포크 92, 이슈 20, PR 2  
- **개발자**: Character AI 팀, Yale University 연구진

## Comments



### Comment 45383

- Author: neo
- Created: 2025-10-24T04:33:16+09:00
- Points: 1

###### [Hacker News 의견](https://news.ycombinator.com/item?id=45674166) 
- 몇 달째 **AI 생성 도구**를 다뤄왔는데, 각각의 툴이 빠르게 하나로 통합되어 로컬 머신에서도 쓸 수 있게 된 게 놀라움  
  지난주부터 Ovi를 써봤는데 정말 재밌음. AI 생성물은 일종의 슬롯머신 같아서 좋은 입력을 넣어도 결과가 엉망일 때가 있지만, 여러 번 돌리면 쓸만한 게 나옴  
  I2V와 T2V로 꽤 **진짜처럼 보이고 들리는 영상**을 만들었음. T2V는 가끔 90년대 TV 화질처럼 보이지만, 그게 오히려 현실감 있게 느껴짐  
  Flux SPRO를 이미지 소스로 쓰면 꽤 사실적인 영상이 나옴. 내 GPU는 5090이라 5초짜리 클립을 만드는 데 4~5분 정도 걸림  

- 영상 모델이 **Wan 2.2** 기반인 것 같음  
  최근 Wan 관련 활동이 활발하고, OpenAI나 Runway 같은 거대 자본의 폐쇄형 모델에 맞서는 **유연한 오픈 모델**이 등장하는 게 반가움  
  - VeniceAI가 제공하는 **프라이버시 중심 오픈소스 비디오 모델**들이 주력임. Ovi는 이미지→비디오, Wan 2.1은 이미지→비디오, Wan 2.2는 텍스트→비디오를 지원함  
    Wan 2.5도 있지만 공식 제공자 경유로 익명 라우팅됨. Kling, Veo, Sora 같은 경유형 옵션보다 훨씬 저렴함  
  - 관련 논의는 [Wan – Open-source alternative to VEO 3](https://news.ycombinator.com/item?id=44928997) 스레드에서도 다뤄졌음  
  - 그리고 **Google**도 여기에 얽혀 있음  

- 예전에 **Nokia의 Ovi**에서 일했었음. 당시 Ovi는 노키아폰용 GSuite 같은 개념이었고, 공식 설명은 “Ovi는 핀란드어로 문(Door)”이었지만 내부 농담으로는 “헝가리어로 유치원(Kindergarten)”이라 불렀음. 이번 Ovi 이름의 유래는 찾지 못했음  
  - 나도 Ovi 관련 프로젝트에서 일했었음. 헬싱키 본사 초기 회의에서 임원들이 Google을 경쟁 상대로 삼겠다는 얘기를 들었는데, 꽤 **대담한 시도**였음  
    하지만 브랜드 전략 부재와 실패한 디바이스 소프트웨어 정책에 묶여 결국 몰락함. 아마 2013년쯤 완전히 종료된 듯함. 그땐 이미 회사를 떠났음  

- 내 귀가 **AutoTune 이전 세대**라 그런지, 오디오에 여전히 완벽한 피치와 압축(companding)의 흔적이 느껴짐  
  특히 Invincible 시리즈의 Machine Head 캐릭터 음성과 비슷하게 들림  
  그래도 전반적으로 훌륭한 작업임  

- 프로젝트 자체는 흥미롭지만, **생성형 오디오비주얼 콘텐츠의 실용성**은 아직 잘 모르겠음  
  지금으로선 이득보다는 귀찮은 요소가 더 많아 보임  

- 이런 속도라면 몇 달 안에 **고품질 숏필름**이 전부 생성형으로 만들어질 수도 있을 것 같음  
  - 하지만 그만큼 **딥페이크 악용**으로 개인의 삶이 망가지는 사례도 나올 것 같음  
  - 오히려 친구들과 모여 각자 프롬프트를 써서 이어붙인 영화를 함께 보는 **프롬프트 파티** 같은 미래가 올 수도 있음. 상상만 해도 웃김  
  - 그래도 숏필름보다 먼저 **장편 영화**가 나올 가능성이 높다고 봄. 짧은 영상일수록 완성도가 더 어렵기 때문임  

- 이 프로젝트들이 서로 관련 있는지 궁금해서 [이 스레드](https://news.ycombinator.com/item?id=45603435)와 [이 스레드](https://news.ycombinator.com/item?id=45652726)를 비교해봤음  
  - 새로운 **오픈 가중치 모델**이 나오면, 기회주의자들이 그 이름으로 도메인을 등록하고 SEO로 돈을 벌려 함  
    요즘은 AI 코딩 툴 덕분에 이런 **랜딩 페이지 자동 생성**이 훨씬 쉬워짐  

- I2V의 경우, **NVIDIA 4070 이상 GPU**와 충분한 VRAM이 있다면 440x440 해상도에서 1~2분 만에 쓸만한 초안을 얻을 수 있음  
  T2V는 아직 훈련된 해상도 근처에서만 품질이 안정적임. 그래도 Wan의 알려진 해상도에서는 간헐적으로 좋은 결과가 나옴  
  CUDA 12.8 이상, Torch 2.8 이상, 그리고 Flash 2보다 **SageAttention**을 쓸 때 품질이 눈에 띄게 좋아짐  

- 흥미로운 발전이지만, **CAI** 같은 회사가 이걸 갖게 된 건 아쉬움  
  젊고 외로운 사람들을 상대로 AI를 이용
