- Janus-Pro: 통합 멀티모달 이해 및 생성 모델의 향상된 버전
- 기존 Janus 모델을 발전시킨 모델로, 다음과 같은 개선점을 포함함
- 최적화된 훈련 전략
- 확장된 훈련 데이터
- 더 큰 모델 규모로의 확장
- 목표: 멀티모달 이해와 텍스트-이미지 생성 성능을 향상시키고, 생성 안정성을 강화
주요 성능 향상
멀티모달 이해
- Janus-Pro는 멀티모달 이해 벤치마크(MMBench)에서 최고 점수 79.2를 기록
- 기존 모델(Janus, TokenFlow, MetaMorph)보다 우수한 성능 달성
- 시각적 인코딩을 분리해 이해와 생성 간 충돌을 완화함
텍스트-이미지 생성
- GenEval 벤치마크에서 80% 정확도로 DALL-E 3(67%), SD3-Medium(74%) 등을 능가
- DPG-Bench에서 84.19점 기록, 다른 모든 모델보다 우수한 성능
모델 구조와 개선
모델 아키텍처
- 시각적 인코딩을 멀티모달 이해 및 생성으로 분리
- 고차원 의미론적 특징을 추출하는 SigLIP 인코더 사용
- 이미지 디코더는 이미지를 ID로 변환해 LLM 입력으로 연결
최적화된 훈련 전략
-
단계별 훈련: 이전 3단계 전략의 비효율성을 개선
- ImageNet 데이터에서 더 긴 훈련 시간 적용(Stage I)
- 텍스트-이미지 데이터로만 훈련 집중(Stage II)
- 데이터 비율 조정: 텍스트-이미지 데이터 비율을 줄이고 멀티모달 이해 성능 강화
데이터 및 모델 확장
-
데이터 확장:
- 멀티모달 이해를 위해 9천만 개의 샘플 추가
- 7천만 개의 합성 미학 데이터로 텍스트-이미지 생성 데이터 강화
-
모델 확장:
- 1.5B에서 7B 규모로 확장, 학습 효율성과 성능 대폭 개선
실험 및 평가
성능 비교
- Janus-Pro-7B는 동일한 크기의 모델과 비교해 최고 성능을 보임
- 멀티모달 이해와 생성에서 TokenFlow-XL(13B) 등 대규모 모델을 능가
- 생성된 이미지의 안정성과 미학적 품질 모두 개선됨
한계점
- 낮은 해상도(384 × 384)는 세부적인 작업(OCR 등)에서 제한적
- 텍스트-이미지 생성 시 세밀한 디테일 부족
결론
- Janus-Pro는 훈련 전략, 데이터, 모델 크기 면에서 중요한 진전을 이룸
- 멀티모달 이해 및 텍스트-이미지 생성 모두에서 최고 성능을 달성
- 향후 해상도 향상을 통해 세부적인 과제를 해결할 계획