11P by xguru 12달전 | favorite | 댓글 1개
  • GPT-4처럼 이미지/텍스트 입력을 같이 처리할수 있는 멀티 모달 시스템을 개발하는 것을 목표
  • 이를 위해 이미지/동영상/텍스트를 처리하고 추론하는 LMM(Large Multimodal Model)인 DeepMind의 Flamingo 모델을 오픈소스로 구현
  • 첫번째 릴리즈에 포함된 것
    • Flamingo 스타일 LMM을 훈련하기 위한 파이썬 프레임워크
    • 이미지/텍스트가 인터리브된 대규모 멀티모달 데이터셋
    • 시각-언어 태스크를 위한 인컨텍스트 학습 평가 벤치마크
    • LLaMA에 기반한 OpenFlamingo-9B 모델
  • Flamingo의 훈련 데이터셋은 공개되어 있지 않으므로, LAION-2B의 Multimodal C4 데이터셋 및 1천만개 샘플에서 5백만개 샘플을 추출하여 훈련