Microsoft Kosmos-1: Multimodal LLM(MLLM)
(arxiv.org)- 일반적인 양식을 인식하고, 콘텍스트에서 학습하며(few-shot), 지시를 따르는(zero-shot) Multimodal Large Language Model (MLLM)
- 텍스트, 이미지, 이미지 캡션 쌍등으로 훈련된 모델로 아래 작업에서 인상적인 성능을 발휘
- 언어 이해, 생성, OCR이 필요없는 NLP(문서 이미지에서 직접인식)
- 멀티모달 대화, 이미지 캡셔닝, 시각적 질문 답변
- 설명이 포함된 이미지 인식(텍스트 지시를 통한 분류 지정) 등의 비전 작업
- 교차 모달 전달(언어에서 다중 모달로, 다중모달에서 언어로 지식을 전달)을 통해서 MLLM이 이점을 얻을수 있음