Ovi - 오디오-비디오 생성을 위한 트윈 백본 크로스

▲

GN⁺ 6달전 | parent | ★ favorite | on: Ovi - 오디오-비디오 생성을 위한 트윈 백본 크로스모달 융합(github.com/character-ai)

Hacker News 의견

몇 달째 AI 생성 도구를 다뤄왔는데, 각각의 툴이 빠르게 하나로 통합되어 로컬 머신에서도 쓸 수 있게 된 게 놀라움
지난주부터 Ovi를 써봤는데 정말 재밌음. AI 생성물은 일종의 슬롯머신 같아서 좋은 입력을 넣어도 결과가 엉망일 때가 있지만, 여러 번 돌리면 쓸만한 게 나옴
I2V와 T2V로 꽤 진짜처럼 보이고 들리는 영상을 만들었음. T2V는 가끔 90년대 TV 화질처럼 보이지만, 그게 오히려 현실감 있게 느껴짐
Flux SPRO를 이미지 소스로 쓰면 꽤 사실적인 영상이 나옴. 내 GPU는 5090이라 5초짜리 클립을 만드는 데 4~5분 정도 걸림
영상 모델이 Wan 2.2 기반인 것 같음
최근 Wan 관련 활동이 활발하고, OpenAI나 Runway 같은 거대 자본의 폐쇄형 모델에 맞서는 유연한 오픈 모델이 등장하는 게 반가움
- VeniceAI가 제공하는 프라이버시 중심 오픈소스 비디오 모델들이 주력임. Ovi는 이미지→비디오, Wan 2.1은 이미지→비디오, Wan 2.2는 텍스트→비디오를 지원함
  Wan 2.5도 있지만 공식 제공자 경유로 익명 라우팅됨. Kling, Veo, Sora 같은 경유형 옵션보다 훨씬 저렴함
- 관련 논의는 Wan – Open-source alternative to VEO 3 스레드에서도 다뤄졌음
- 그리고 Google도 여기에 얽혀 있음
예전에 Nokia의 Ovi에서 일했었음. 당시 Ovi는 노키아폰용 GSuite 같은 개념이었고, 공식 설명은 “Ovi는 핀란드어로 문(Door)”이었지만 내부 농담으로는 “헝가리어로 유치원(Kindergarten)”이라 불렀음. 이번 Ovi 이름의 유래는 찾지 못했음
- 나도 Ovi 관련 프로젝트에서 일했었음. 헬싱키 본사 초기 회의에서 임원들이 Google을 경쟁 상대로 삼겠다는 얘기를 들었는데, 꽤 대담한 시도였음
  하지만 브랜드 전략 부재와 실패한 디바이스 소프트웨어 정책에 묶여 결국 몰락함. 아마 2013년쯤 완전히 종료된 듯함. 그땐 이미 회사를 떠났음
내 귀가 AutoTune 이전 세대라 그런지, 오디오에 여전히 완벽한 피치와 압축(companding)의 흔적이 느껴짐
특히 Invincible 시리즈의 Machine Head 캐릭터 음성과 비슷하게 들림
그래도 전반적으로 훌륭한 작업임
프로젝트 자체는 흥미롭지만, 생성형 오디오비주얼 콘텐츠의 실용성은 아직 잘 모르겠음
지금으로선 이득보다는 귀찮은 요소가 더 많아 보임
이런 속도라면 몇 달 안에 고품질 숏필름이 전부 생성형으로 만들어질 수도 있을 것 같음
- 하지만 그만큼 딥페이크 악용으로 개인의 삶이 망가지는 사례도 나올 것 같음
- 오히려 친구들과 모여 각자 프롬프트를 써서 이어붙인 영화를 함께 보는 프롬프트 파티 같은 미래가 올 수도 있음. 상상만 해도 웃김
- 그래도 숏필름보다 먼저 장편 영화가 나올 가능성이 높다고 봄. 짧은 영상일수록 완성도가 더 어렵기 때문임
이 프로젝트들이 서로 관련 있는지 궁금해서 이 스레드와 이 스레드를 비교해봤음
- 새로운 오픈 가중치 모델이 나오면, 기회주의자들이 그 이름으로 도메인을 등록하고 SEO로 돈을 벌려 함
  요즘은 AI 코딩 툴 덕분에 이런 랜딩 페이지 자동 생성이 훨씬 쉬워짐
I2V의 경우, NVIDIA 4070 이상 GPU와 충분한 VRAM이 있다면 440x440 해상도에서 1~2분 만에 쓸만한 초안을 얻을 수 있음
T2V는 아직 훈련된 해상도 근처에서만 품질이 안정적임. 그래도 Wan의 알려진 해상도에서는 간헐적으로 좋은 결과가 나옴
CUDA 12.8 이상, Torch 2.8 이상, 그리고 Flash 2보다 SageAttention을 쓸 때 품질이 눈에 띄게 좋아짐
흥미로운 발전이지만, CAI 같은 회사가 이걸 갖게 된 건 아쉬움
젊고 외로운 사람들을 상대로 AI를 이용