Otter: 컨텍스트 내에서 명령어 튜닝이 가능한 멀티모달 모델

xguru · 2023-06-14T10:16:01+09:00

LLM의 제로샷 성능이 좋으려면 고품질 인스트럭션 셋이 필수적이고, VLM(시각-언어 모델)도 마찬가지 하지만 현재 vision-language 인스트럭션 셋은 수량/다양성/창의성 면에서 매우 제한적 MIMIC-IT(MultI-Modal In-Context Instruction Tuning)을 제시 이미지 & 비디오 에서 가져온 220만개의 고유명령과, 280만개의 멀티모달 명령-응답 쌍으로 구성된 데이터 셋 MIMIC-IT 데이터셋으로 훈련한 대규모 VLM이 Otter 8개 언어 지원: 영어, 중국어, 한국어, 일본어, 독일어, 프랑스어, 스페인어, 아랍어

(github.com/Luodian)

6P by xguru 2023-06-14 | ★ favorite | 댓글과 토론

LLM의 제로샷 성능이 좋으려면 고품질 인스트럭션 셋이 필수적이고, VLM(시각-언어 모델)도 마찬가지
하지만 현재 vision-language 인스트럭션 셋은 수량/다양성/창의성 면에서 매우 제한적
MIMIC-IT(MultI-Modal In-Context Instruction Tuning)을 제시
이미지 & 비디오 에서 가져온 220만개의 고유명령과, 280만개의 멀티모달 명령-응답 쌍으로 구성된 데이터 셋
MIMIC-IT 데이터셋으로 훈련한 대규모 VLM이 Otter
8개 언어 지원: 영어, 중국어, 한국어, 일본어, 독일어, 프랑스어, 스페인어, 아랍어

Otter: 컨텍스트 내에서 명령어 튜닝이 가능한 멀티모달 모델

함께 보면 좋은 글 β

댓글과 토론