Ferret 모델 개요
- Ferret 모델은 하이브리드 영역 표현 및 공간 인식 시각 샘플러를 통해 세밀하고 개방된 어휘로 참조 및 정밀 위치 지정이 가능함.
- GRIT 데이터셋(~1.1M)은 대규모, 계층적이며 강건한 지시어 튜닝 데이터셋임.
- Ferret-Bench는 참조/위치 지정, 의미, 지식, 추론을 동시에 요구하는 다중 모달 평가 벤치마크임.
Ferret 모델 출시
- [12/14] 7B, 13B 체크포인트 출시.
- [10/30] FERRET 모델과 Ferret-Bench 코드 출시.
- 데이터와 코드는 연구 목적으로만 사용되며, LLaMA, Vicuna, GPT-4의 라이선스 협약을 따름.
- 데이터셋은 CC BY NC 4.0(비상업적 사용만 허용)이며, 이 데이터셋을 사용하여 훈련된 모델은 연구 목적 외에는 사용할 수 없음.
설치 및 사용법
- FERRET 저장소를 복제하고 해당 폴더로 이동 후 필요한 패키지 설치.
- 추가 패키지 설치는 특정 훈련 사례에 필요함.
훈련
- FERRET은 8개의 A100 GPU(각각 80GB 메모리)에서 훈련됨.
- 적은 수의 GPU에서 훈련 시
per_device_train_batch_size
를 줄이고 gradient_accumulation_steps
를 증가시켜야 함.
- Vicuna 체크포인트와 LLaVA의 프로젝터 준비 필요.
- 훈련 스크립트 제공.
평가
체크포인트
- 사전 훈련된 모델과 Vicuna 사이의
delta
추출.
- Vicuna의 가중치 다운로드 후, 준비된 가중치 오프셋 다운로드 및 적용.
데모
- FERRET 훈련 후, 로컬에서 체크포인트 사용하여 데모 실행.
- Gradio 웹 UI 사용.
- 컨트롤러, 그라디오 웹 서버, 모델 워커 순차적으로 실행.
인용
- Ferret을 유용하게 사용한다면, 다음 BibTeX로 인용.
감사의 말
- LLaVA: 기반 코드베이스.
- Vicuna: LLM 코드베이스.
GN⁺의 의견
-
혁신적인 기술: Ferret 모델은 다양한 어휘를 사용하여 세밀한 참조 및 위치 지정을 가능하게 하는 혁신적인 기술을 제시함.
-
연구의 중요성: 이 모델과 데이터셋은 인공지능 분야에서 참조 및 위치 지정 작업의 연구를 촉진할 수 있는 중요한 자원임.
-
다양한 응용 가능성: 이 기술은 이미지 및 텍스트를 결합한 다양한 응용 프로그램에 활용될 수 있으며, 이는 인공지능의 시각적 이해와 상호작용을 한 단계 끌어올릴 수 있음.