Ferret - 애플의 멀티모달 LLM

xguru · 2023-12-28T11:21:02+09:00

MLLM(Multimodal Large Language Model) 이미지 내의 모든 형태 및 세분화된 공간 참조를 이해 Key Contributions Ferret Model: 하이브리드 영역 표현 + 공간 인식 비주얼 샘플러 GRIT 데이터셋: 대규모, 계층적, 견고한 명령어 튜닝 데이터셋. 110만개의 샘플과 95만개의 하드 네거티브 데이터를 포함 Ferret Bench: 멀티모달 평가 벤치마크 (Referring/Grounding + Semantics + Knowledge + Reasoning 을 복합적으로 요구)

(github.com/apple)

13P by xguru 2023-12-28 | ★ favorite | 댓글과 토론

MLLM(Multimodal Large Language Model)
- 이미지 내의 모든 형태 및 세분화된 공간 참조를 이해
Key Contributions
- Ferret Model: 하이브리드 영역 표현 + 공간 인식 비주얼 샘플러
- GRIT 데이터셋: 대규모, 계층적, 견고한 명령어 튜닝 데이터셋. 110만개의 샘플과 95만개의 하드 네거티브 데이터를 포함
- Ferret Bench: 멀티모달 평가 벤치마크 (Referring/Grounding + Semantics + Knowledge + Reasoning 을 복합적으로 요구)

Ferret - 애플의 멀티모달 LLM

함께 보면 좋은 글 β

댓글과 토론