# Goku - ByteDance의 Flow 기반 비디오 생성 모델

> Clean Markdown view of GeekNews topic #19222. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=19222](https://news.hada.io/topic?id=19222)
- GeekNews Markdown: [https://news.hada.io/topic/19222.md](https://news.hada.io/topic/19222.md)
- Type: news
- Author: [xguru](https://news.hada.io/@xguru)
- Published: 2025-02-14T10:02:01+09:00
- Updated: 2025-02-14T10:02:01+09:00
- Original source: [github.com/Saiyan-World](https://github.com/Saiyan-World/goku)
- Points: 6
- Comments: 2

## Summary

Goku는 "Rectified Flow Transformer"를 기반으로 한 이미지 및 비디오 생성 모델로, 고품질 데이터 선별과 플로우 공식화를 통해 뛰어난 성능을 제공합니다. 이 모델은 텍스트에서 비디오 생성, 이미지에서 비디오 생성, 텍스트에서 이미지 생성 작업을 지원하며, 주요 벤치마크에서 높은 성능을 기록했습니다. 관련 페이지에 있는 실제 적용 사례가 더 재미있습니다. 마케팅용 아바타를 만들어내거나, 제품 이미지에서 비디오 클립을 생성하고, 다시 그걸 통해서 사람이랑 제품을 하나로 합성해서 아예 상품 소개 영상도 만들어냅니다. 그래서 음식을 먹기도 하고, 옷입고 걸어다니고, 화장하고 샴푸하는 영상까지 척척이네요. 중국 소셜 커머스에 특화된 예제가 아닐까 합니다.

## Topic Body

- Goku는 "Rectified Flow Transformer"를 기반으로 한 새로운 이미지 및 비디오 생성 모델군으로, 업계 최고 수준의 성능을 목표로 함  
- 고품질 시각적 생성 기술을 위해 "데이터 선별, 모델 설계, 플로우 공식화" 등 다양한 최적화를 적용  
- 주요 특징  
  - 고품질 데이터 선별을 통한 정밀한 이미지 및 비디오 생성  
  - Rectified Flow 기법을 활용하여 이미지 및 비디오 토큰 간 상호작용 강화  
  - 이미지 및 비디오 생성에서 뛰어난 성능을 제공  
- 지원하는 생성 작업  
  - 텍스트 → 비디오 생성  
  - 이미지 → 비디오 생성  
  - 텍스트 → 이미지 생성  
- 성능 벤치마크 : 주요 벤치마크에서 높은 성능을 기록  
  - 0.76 (GenEval - 텍스트 → 이미지 생성)  
  - 83.65 (DPG-Bench - 텍스트 → 이미지 생성)  
  - 84.85 (VBench - 텍스트 → 비디오 생성)  
- Goku-T2V는 VBench 성능 비교에서 84.85점을 기록하며 2024년 10월 7일 기준 2위를 차지  
  - 여러 상업용 텍스트-비디오 모델을 능가하는 성과 (AnimateDiff-V2, OpenSora, Gen-3, Kling 등)

## Comments



### Comment 34578

- Author: kimhj
- Created: 2025-02-14T17:45:51+09:00
- Points: 1

최근 ByteDance에서 관련 기술 논문을 엄청 발표하던데.. 곧 틱톡에도 적용되지 않을까 싶습니다.

### Comment 34570

- Author: xguru
- Created: 2025-02-14T15:43:59+09:00
- Points: 1

[Goku+: Video Ads Foundation Models](https://saiyan-world.github.io/goku/)  
  
여기 하단에 실제 적용 사례가 더 재미있습니다.   
  
마케팅용 아바타를 만들어내거나, 제품 이미지에서 비디오 클립을 생성하기도 합니다.  
다시 그걸 통해서 사람이랑 제품을 하나로 합성해서 아예 상품 소개 영상도 만들어냅니다.   
그래서 음식을 먹기도 하고, 옷입고 걸어다니고, 화장하고 샴푸하는 영상까지 척척이네요.   
중국 소셜 커머스에 특화된 예제가 아닐까 합니다.
