6P by xguru 15일전 | ★ favorite | 댓글 2개
  • Goku는 "Rectified Flow Transformer"를 기반으로 한 새로운 이미지 및 비디오 생성 모델군으로, 업계 최고 수준의 성능을 목표로 함
  • 고품질 시각적 생성 기술을 위해 "데이터 선별, 모델 설계, 플로우 공식화" 등 다양한 최적화를 적용
  • 주요 특징
    • 고품질 데이터 선별을 통한 정밀한 이미지 및 비디오 생성
    • Rectified Flow 기법을 활용하여 이미지 및 비디오 토큰 간 상호작용 강화
    • 이미지 및 비디오 생성에서 뛰어난 성능을 제공
  • 지원하는 생성 작업
    • 텍스트 → 비디오 생성
    • 이미지 → 비디오 생성
    • 텍스트 → 이미지 생성
  • 성능 벤치마크 : 주요 벤치마크에서 높은 성능을 기록
    • 0.76 (GenEval - 텍스트 → 이미지 생성)
    • 83.65 (DPG-Bench - 텍스트 → 이미지 생성)
    • 84.85 (VBench - 텍스트 → 비디오 생성)
  • Goku-T2V는 VBench 성능 비교에서 84.85점을 기록하며 2024년 10월 7일 기준 2위를 차지
    • 여러 상업용 텍스트-비디오 모델을 능가하는 성과 (AnimateDiff-V2, OpenSora, Gen-3, Kling 등)

최근 ByteDance에서 관련 기술 논문을 엄청 발표하던데.. 곧 틱톡에도 적용되지 않을까 싶습니다.

Goku+: Video Ads Foundation Models

여기 하단에 실제 적용 사례가 더 재미있습니다.

마케팅용 아바타를 만들어내거나, 제품 이미지에서 비디오 클립을 생성하기도 합니다.
다시 그걸 통해서 사람이랑 제품을 하나로 합성해서 아예 상품 소개 영상도 만들어냅니다.
그래서 음식을 먹기도 하고, 옷입고 걸어다니고, 화장하고 샴푸하는 영상까지 척척이네요.
중국 소셜 커머스에 특화된 예제가 아닐까 합니다.