페럿: 다중 모달 대형 언어 모델

(github.com/apple)

2P by GN⁺ 2023-12-24 | ★ favorite | 댓글과 토론

Ferret 모델 개요

Ferret 모델은 하이브리드 영역 표현 및 공간 인식 시각 샘플러를 통해 세밀하고 개방된 어휘로 참조 및 정밀 위치 지정이 가능함.
GRIT 데이터셋(~1.1M)은 대규모, 계층적이며 강건한 지시어 튜닝 데이터셋임.
Ferret-Bench는 참조/위치 지정, 의미, 지식, 추론을 동시에 요구하는 다중 모달 평가 벤치마크임.

Ferret 모델 출시

[12/14] 7B, 13B 체크포인트 출시.
[10/30] FERRET 모델과 Ferret-Bench 코드 출시.
데이터와 코드는 연구 목적으로만 사용되며, LLaMA, Vicuna, GPT-4의 라이선스 협약을 따름.
데이터셋은 CC BY NC 4.0(비상업적 사용만 허용)이며, 이 데이터셋을 사용하여 훈련된 모델은 연구 목적 외에는 사용할 수 없음.

설치 및 사용법

FERRET 저장소를 복제하고 해당 폴더로 이동 후 필요한 패키지 설치.
추가 패키지 설치는 특정 훈련 사례에 필요함.

훈련

FERRET은 8개의 A100 GPU(각각 80GB 메모리)에서 훈련됨.
적은 수의 GPU에서 훈련 시 per_device_train_batch_size를 줄이고 gradient_accumulation_steps를 증가시켜야 함.
Vicuna 체크포인트와 LLaVA의 프로젝터 준비 필요.
훈련 스크립트 제공.

평가

자세한 내용은 문서 참조.

체크포인트

사전 훈련된 모델과 Vicuna 사이의 delta 추출.
Vicuna의 가중치 다운로드 후, 준비된 가중치 오프셋 다운로드 및 적용.

데모

FERRET 훈련 후, 로컬에서 체크포인트 사용하여 데모 실행.
Gradio 웹 UI 사용.
컨트롤러, 그라디오 웹 서버, 모델 워커 순차적으로 실행.

인용

Ferret을 유용하게 사용한다면, 다음 BibTeX로 인용.

감사의 말

LLaVA: 기반 코드베이스.
Vicuna: LLM 코드베이스.

GN⁺의 의견

혁신적인 기술: Ferret 모델은 다양한 어휘를 사용하여 세밀한 참조 및 위치 지정을 가능하게 하는 혁신적인 기술을 제시함.
연구의 중요성: 이 모델과 데이터셋은 인공지능 분야에서 참조 및 위치 지정 작업의 연구를 촉진할 수 있는 중요한 자원임.
다양한 응용 가능성: 이 기술은 이미지 및 텍스트를 결합한 다양한 응용 프로그램에 활용될 수 있으며, 이는 인공지능의 시각적 이해와 상호작용을 한 단계 끌어올릴 수 있음.