OpenFlamingo - 대규모 멀티모달 모델(LMM)을 훈련/평가하기 위한 오픈소스 프레임워크

xguru · 2023-03-31T10:15:01+09:00

GPT-4처럼 이미지/텍스트 입력을 같이 처리할수 있는 멀티 모달 시스템을 개발하는 것을 목표 이를 위해 이미지/동영상/텍스트를 처리하고 추론하는 LMM(Large Multimodal Model)인 DeepMind의 Flamingo 모델을 오픈소스로 구현 첫번째 릴리즈에 포함된 것 Flamingo 스타일 LMM을 훈련하기 위한 파이썬 프레임워크 이미지/텍스트가 인터리브된 대규모 멀티모달 데이터셋 시각-언어 태스크를 위한 인컨텍스트 학습 평가 벤치마크 LLaMA에 기반한 OpenFlamingo-9B 모델 Flamingo의 훈련 데이터셋은 공개되어 있지 않으므로, LAION-2B의 Multimodal C4 데이터셋 및 1천만개 샘플에서 5백만개 샘플을 추출하여 훈련

(laion.ai)

11P by xguru 2023-03-31 | ★ favorite | 댓글 1개

GPT-4처럼 이미지/텍스트 입력을 같이 처리할수 있는 멀티 모달 시스템을 개발하는 것을 목표
이를 위해 이미지/동영상/텍스트를 처리하고 추론하는 LMM(Large Multimodal Model)인 DeepMind의 Flamingo 모델을 오픈소스로 구현
첫번째 릴리즈에 포함된 것
- Flamingo 스타일 LMM을 훈련하기 위한 파이썬 프레임워크
- 이미지/텍스트가 인터리브된 대규모 멀티모달 데이터셋
- 시각-언어 태스크를 위한 인컨텍스트 학습 평가 벤치마크
- LLaMA에 기반한 OpenFlamingo-9B 모델
Flamingo의 훈련 데이터셋은 공개되어 있지 않으므로, LAION-2B의 Multimodal C4 데이터셋 및 1천만개 샘플에서 5백만개 샘플을 추출하여 훈련

xguru 2023-03-31 [-]

Flamingo: Visual Language Model for Few-Shot Learning

답변달기

OpenFlamingo - 대규모 멀티모달 모델(LMM)을 훈련/평가하기 위한 오픈소스 프레임워크

함께 보면 좋은 글 β

댓글과 토론