9P by xguru 19일전 | favorite | 댓글 1개
  • 일반적인 양식을 인식하고, 콘텍스트에서 학습하며(few-shot), 지시를 따르는(zero-shot) Multimodal Large Language Model (MLLM)
  • 텍스트, 이미지, 이미지 캡션 쌍등으로 훈련된 모델로 아래 작업에서 인상적인 성능을 발휘
    1. 언어 이해, 생성, OCR이 필요없는 NLP(문서 이미지에서 직접인식)
    2. 멀티모달 대화, 이미지 캡셔닝, 시각적 질문 답변
    3. 설명이 포함된 이미지 인식(텍스트 지시를 통한 분류 지정) 등의 비전 작업
  • 교차 모달 전달(언어에서 다중 모달로, 다중모달에서 언어로 지식을 전달)을 통해서 MLLM이 이점을 얻을수 있음