Ferret - 애플의 멀티모달 LLM
(github.com/apple)- MLLM(Multimodal Large Language Model)
- 이미지 내의 모든 형태 및 세분화된 공간 참조를 이해
- Key Contributions
- Ferret Model: 하이브리드 영역 표현 + 공간 인식 비주얼 샘플러
- GRIT 데이터셋: 대규모, 계층적, 견고한 명령어 튜닝 데이터셋. 110만개의 샘플과 95만개의 하드 네거티브 데이터를 포함
- Ferret Bench: 멀티모달 평가 벤치마크 (Referring/Grounding + Semantics + Knowledge + Reasoning 을 복합적으로 요구)