5P by neo 7일전 | ★ favorite | 댓글과 토론
  • Janus-Pro: 통합 멀티모달 이해 및 생성 모델의 향상된 버전
  • 기존 Janus 모델을 발전시킨 모델로, 다음과 같은 개선점을 포함함
    • 최적화된 훈련 전략
    • 확장된 훈련 데이터
    • 더 큰 모델 규모로의 확장
  • 목표: 멀티모달 이해와 텍스트-이미지 생성 성능을 향상시키고, 생성 안정성을 강화

주요 성능 향상

멀티모달 이해

  • Janus-Pro는 멀티모달 이해 벤치마크(MMBench)에서 최고 점수 79.2를 기록
  • 기존 모델(Janus, TokenFlow, MetaMorph)보다 우수한 성능 달성
  • 시각적 인코딩을 분리해 이해와 생성 간 충돌을 완화함

텍스트-이미지 생성

  • GenEval 벤치마크에서 80% 정확도로 DALL-E 3(67%), SD3-Medium(74%) 등을 능가
  • DPG-Bench에서 84.19점 기록, 다른 모든 모델보다 우수한 성능

모델 구조와 개선

모델 아키텍처

  • 시각적 인코딩을 멀티모달 이해 및 생성으로 분리
  • 고차원 의미론적 특징을 추출하는 SigLIP 인코더 사용
  • 이미지 디코더는 이미지를 ID로 변환해 LLM 입력으로 연결

최적화된 훈련 전략

  • 단계별 훈련: 이전 3단계 전략의 비효율성을 개선
    • ImageNet 데이터에서 더 긴 훈련 시간 적용(Stage I)
    • 텍스트-이미지 데이터로만 훈련 집중(Stage II)
  • 데이터 비율 조정: 텍스트-이미지 데이터 비율을 줄이고 멀티모달 이해 성능 강화

데이터 및 모델 확장

  • 데이터 확장:
    • 멀티모달 이해를 위해 9천만 개의 샘플 추가
    • 7천만 개의 합성 미학 데이터로 텍스트-이미지 생성 데이터 강화
  • 모델 확장:
    • 1.5B에서 7B 규모로 확장, 학습 효율성과 성능 대폭 개선

실험 및 평가

성능 비교

  • Janus-Pro-7B는 동일한 크기의 모델과 비교해 최고 성능을 보임
    • 멀티모달 이해와 생성에서 TokenFlow-XL(13B) 등 대규모 모델을 능가
  • 생성된 이미지의 안정성과 미학적 품질 모두 개선됨

한계점

  • 낮은 해상도(384 × 384)는 세부적인 작업(OCR 등)에서 제한적
  • 텍스트-이미지 생성 시 세밀한 디테일 부족

결론

  • Janus-Pro는 훈련 전략, 데이터, 모델 크기 면에서 중요한 진전을 이룸
  • 멀티모달 이해 및 텍스트-이미지 생성 모두에서 최고 성능을 달성
  • 향후 해상도 향상을 통해 세부적인 과제를 해결할 계획