- GPT-4처럼 이미지/텍스트 입력을 같이 처리할수 있는 멀티 모달 시스템을 개발하는 것을 목표
- 이를 위해 이미지/동영상/텍스트를 처리하고 추론하는 LMM(Large Multimodal Model)인 DeepMind의 Flamingo 모델을 오픈소스로 구현
- 첫번째 릴리즈에 포함된 것
- Flamingo 스타일 LMM을 훈련하기 위한 파이썬 프레임워크
- 이미지/텍스트가 인터리브된 대규모 멀티모달 데이터셋
- 시각-언어 태스크를 위한 인컨텍스트 학습 평가 벤치마크
- LLaMA에 기반한 OpenFlamingo-9B 모델
- Flamingo의 훈련 데이터셋은 공개되어 있지 않으므로, LAION-2B의 Multimodal C4 데이터셋 및 1천만개 샘플에서 5백만개 샘플을 추출하여 훈련