13P by xguru 11달전 | favorite | 댓글과 토론
  • MLLM(Multimodal Large Language Model)
    • 이미지 내의 모든 형태 및 세분화된 공간 참조를 이해
  • Key Contributions
    • Ferret Model: 하이브리드 영역 표현 + 공간 인식 비주얼 샘플러
    • GRIT 데이터셋: 대규모, 계층적, 견고한 명령어 튜닝 데이터셋. 110만개의 샘플과 95만개의 하드 네거티브 데이터를 포함
    • Ferret Bench: 멀티모달 평가 벤치마크 (Referring/Grounding + Semantics + Knowledge + Reasoning 을 복합적으로 요구)