Hacker News 의견
  • 몇 달째 AI 생성 도구를 다뤄왔는데, 각각의 툴이 빠르게 하나로 통합되어 로컬 머신에서도 쓸 수 있게 된 게 놀라움
    지난주부터 Ovi를 써봤는데 정말 재밌음. AI 생성물은 일종의 슬롯머신 같아서 좋은 입력을 넣어도 결과가 엉망일 때가 있지만, 여러 번 돌리면 쓸만한 게 나옴
    I2V와 T2V로 꽤 진짜처럼 보이고 들리는 영상을 만들었음. T2V는 가끔 90년대 TV 화질처럼 보이지만, 그게 오히려 현실감 있게 느껴짐
    Flux SPRO를 이미지 소스로 쓰면 꽤 사실적인 영상이 나옴. 내 GPU는 5090이라 5초짜리 클립을 만드는 데 4~5분 정도 걸림

  • 영상 모델이 Wan 2.2 기반인 것 같음
    최근 Wan 관련 활동이 활발하고, OpenAI나 Runway 같은 거대 자본의 폐쇄형 모델에 맞서는 유연한 오픈 모델이 등장하는 게 반가움

    • VeniceAI가 제공하는 프라이버시 중심 오픈소스 비디오 모델들이 주력임. Ovi는 이미지→비디오, Wan 2.1은 이미지→비디오, Wan 2.2는 텍스트→비디오를 지원함
      Wan 2.5도 있지만 공식 제공자 경유로 익명 라우팅됨. Kling, Veo, Sora 같은 경유형 옵션보다 훨씬 저렴함
    • 관련 논의는 Wan – Open-source alternative to VEO 3 스레드에서도 다뤄졌음
    • 그리고 Google도 여기에 얽혀 있음
  • 예전에 Nokia의 Ovi에서 일했었음. 당시 Ovi는 노키아폰용 GSuite 같은 개념이었고, 공식 설명은 “Ovi는 핀란드어로 문(Door)”이었지만 내부 농담으로는 “헝가리어로 유치원(Kindergarten)”이라 불렀음. 이번 Ovi 이름의 유래는 찾지 못했음

    • 나도 Ovi 관련 프로젝트에서 일했었음. 헬싱키 본사 초기 회의에서 임원들이 Google을 경쟁 상대로 삼겠다는 얘기를 들었는데, 꽤 대담한 시도였음
      하지만 브랜드 전략 부재와 실패한 디바이스 소프트웨어 정책에 묶여 결국 몰락함. 아마 2013년쯤 완전히 종료된 듯함. 그땐 이미 회사를 떠났음
  • 내 귀가 AutoTune 이전 세대라 그런지, 오디오에 여전히 완벽한 피치와 압축(companding)의 흔적이 느껴짐
    특히 Invincible 시리즈의 Machine Head 캐릭터 음성과 비슷하게 들림
    그래도 전반적으로 훌륭한 작업임

  • 프로젝트 자체는 흥미롭지만, 생성형 오디오비주얼 콘텐츠의 실용성은 아직 잘 모르겠음
    지금으로선 이득보다는 귀찮은 요소가 더 많아 보임

  • 이런 속도라면 몇 달 안에 고품질 숏필름이 전부 생성형으로 만들어질 수도 있을 것 같음

    • 하지만 그만큼 딥페이크 악용으로 개인의 삶이 망가지는 사례도 나올 것 같음
    • 오히려 친구들과 모여 각자 프롬프트를 써서 이어붙인 영화를 함께 보는 프롬프트 파티 같은 미래가 올 수도 있음. 상상만 해도 웃김
    • 그래도 숏필름보다 먼저 장편 영화가 나올 가능성이 높다고 봄. 짧은 영상일수록 완성도가 더 어렵기 때문임
  • 이 프로젝트들이 서로 관련 있는지 궁금해서 이 스레드이 스레드를 비교해봤음

    • 새로운 오픈 가중치 모델이 나오면, 기회주의자들이 그 이름으로 도메인을 등록하고 SEO로 돈을 벌려 함
      요즘은 AI 코딩 툴 덕분에 이런 랜딩 페이지 자동 생성이 훨씬 쉬워짐
  • I2V의 경우, NVIDIA 4070 이상 GPU와 충분한 VRAM이 있다면 440x440 해상도에서 1~2분 만에 쓸만한 초안을 얻을 수 있음
    T2V는 아직 훈련된 해상도 근처에서만 품질이 안정적임. 그래도 Wan의 알려진 해상도에서는 간헐적으로 좋은 결과가 나옴
    CUDA 12.8 이상, Torch 2.8 이상, 그리고 Flash 2보다 SageAttention을 쓸 때 품질이 눈에 띄게 좋아짐

  • 흥미로운 발전이지만, CAI 같은 회사가 이걸 갖게 된 건 아쉬움
    젊고 외로운 사람들을 상대로 AI를 이용