# DeepSeek, Text-To-Image 생성 모델 Janus Pro 공개 [PDF]

> Clean Markdown view of GeekNews topic #18944. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=18944](https://news.hada.io/topic?id=18944)
- GeekNews Markdown: [https://news.hada.io/topic/18944.md](https://news.hada.io/topic/18944.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2025-01-28T09:50:36+09:00
- Updated: 2025-01-28T09:50:36+09:00
- Original source: [github.com/deepseek-ai](https://github.com/deepseek-ai/Janus/blob/main/janus_pro_tech_report.pdf)
- Points: 5
- Comments: 0

## Summary

Janus-Pro는 기존 Janus 모델의 향상된 버전으로, 최적화된 훈련 전략과 확장된 데이터, 더 큰 모델 규모를 통해 멀티모달 이해와 텍스트-이미지 생성 성능을 크게 개선했습니다. 이 모델은 MMBench와 GenEval 벤치마크에서 각각 최고 점수와 높은 정확도를 기록하며, 다른 모델들보다 우수한 성능을 보여주었습니다. 그러나 낮은 해상도로 인해 세부적인 작업에서 제한이 있으며, 향후 해상도 향상을 통해 이러한 문제를 해결할 계획입니다.

## Topic Body

- Janus-Pro: 통합 멀티모달 이해 및 생성 모델의 향상된 버전  
- 기존 Janus 모델을 발전시킨 모델로, 다음과 같은 개선점을 포함함  
  - 최적화된 훈련 전략  
  - 확장된 훈련 데이터  
  - 더 큰 모델 규모로의 확장  
- 목표: 멀티모달 이해와 텍스트-이미지 생성 성능을 향상시키고, 생성 안정성을 강화  
  
### 주요 성능 향상  
#### 멀티모달 이해  
- Janus-Pro는 멀티모달 이해 벤치마크(MMBench)에서 최고 점수 79.2를 기록  
- 기존 모델(Janus, TokenFlow, MetaMorph)보다 우수한 성능 달성  
- 시각적 인코딩을 분리해 이해와 생성 간 충돌을 완화함  
  
#### 텍스트-이미지 생성  
- GenEval 벤치마크에서 80% 정확도로 DALL-E 3(67%), SD3-Medium(74%) 등을 능가  
- DPG-Bench에서 84.19점 기록, 다른 모든 모델보다 우수한 성능  
  
### 모델 구조와 개선  
#### 모델 아키텍처  
- 시각적 인코딩을 멀티모달 이해 및 생성으로 분리  
- 고차원 의미론적 특징을 추출하는 **SigLIP 인코더** 사용  
- 이미지 디코더는 이미지를 ID로 변환해 LLM 입력으로 연결  
  
#### 최적화된 훈련 전략  
- **단계별 훈련**: 이전 3단계 전략의 비효율성을 개선  
  - ImageNet 데이터에서 더 긴 훈련 시간 적용(Stage I)  
  - 텍스트-이미지 데이터로만 훈련 집중(Stage II)  
- 데이터 비율 조정: 텍스트-이미지 데이터 비율을 줄이고 멀티모달 이해 성능 강화  
  
#### 데이터 및 모델 확장  
- **데이터 확장**:  
  - 멀티모달 이해를 위해 9천만 개의 샘플 추가  
  - 7천만 개의 합성 미학 데이터로 텍스트-이미지 생성 데이터 강화  
- **모델 확장**:  
  - 1.5B에서 7B 규모로 확장, 학습 효율성과 성능 대폭 개선  
  
### 실험 및 평가  
#### 성능 비교  
- Janus-Pro-7B는 동일한 크기의 모델과 비교해 최고 성능을 보임  
  - 멀티모달 이해와 생성에서 TokenFlow-XL(13B) 등 대규모 모델을 능가  
- 생성된 이미지의 안정성과 미학적 품질 모두 개선됨  
  
#### 한계점  
- 낮은 해상도(384 × 384)는 세부적인 작업(OCR 등)에서 제한적  
- 텍스트-이미지 생성 시 세밀한 디테일 부족  
  
### 결론  
- Janus-Pro는 훈련 전략, 데이터, 모델 크기 면에서 중요한 진전을 이룸  
- 멀티모달 이해 및 텍스트-이미지 생성 모두에서 최고 성능을 달성  
- 향후 해상도 향상을 통해 세부적인 과제를 해결할 계획

## Comments



_No public comments on this page._
