- Goku는 "Rectified Flow Transformer"를 기반으로 한 새로운 이미지 및 비디오 생성 모델군으로, 업계 최고 수준의 성능을 목표로 함
- 고품질 시각적 생성 기술을 위해 "데이터 선별, 모델 설계, 플로우 공식화" 등 다양한 최적화를 적용
- 주요 특징
- 고품질 데이터 선별을 통한 정밀한 이미지 및 비디오 생성
- Rectified Flow 기법을 활용하여 이미지 및 비디오 토큰 간 상호작용 강화
- 이미지 및 비디오 생성에서 뛰어난 성능을 제공
- 지원하는 생성 작업
- 텍스트 → 비디오 생성
- 이미지 → 비디오 생성
- 텍스트 → 이미지 생성
- 성능 벤치마크 : 주요 벤치마크에서 높은 성능을 기록
- 0.76 (GenEval - 텍스트 → 이미지 생성)
- 83.65 (DPG-Bench - 텍스트 → 이미지 생성)
- 84.85 (VBench - 텍스트 → 비디오 생성)
- Goku-T2V는 VBench 성능 비교에서 84.85점을 기록하며 2024년 10월 7일 기준 2위를 차지
- 여러 상업용 텍스트-비디오 모델을 능가하는 성과 (AnimateDiff-V2, OpenSora, Gen-3, Kling 등)