2P by neo 6달전 | favorite | 댓글과 토론

Ferret 모델 개요

  • Ferret 모델은 하이브리드 영역 표현 및 공간 인식 시각 샘플러를 통해 세밀하고 개방된 어휘로 참조 및 정밀 위치 지정이 가능함.
  • GRIT 데이터셋(~1.1M)은 대규모, 계층적이며 강건한 지시어 튜닝 데이터셋임.
  • Ferret-Bench는 참조/위치 지정, 의미, 지식, 추론을 동시에 요구하는 다중 모달 평가 벤치마크임.

Ferret 모델 출시

  • [12/14] 7B, 13B 체크포인트 출시.
  • [10/30] FERRET 모델과 Ferret-Bench 코드 출시.
  • 데이터와 코드는 연구 목적으로만 사용되며, LLaMA, Vicuna, GPT-4의 라이선스 협약을 따름.
  • 데이터셋은 CC BY NC 4.0(비상업적 사용만 허용)이며, 이 데이터셋을 사용하여 훈련된 모델은 연구 목적 외에는 사용할 수 없음.

설치 및 사용법

  • FERRET 저장소를 복제하고 해당 폴더로 이동 후 필요한 패키지 설치.
  • 추가 패키지 설치는 특정 훈련 사례에 필요함.

훈련

  • FERRET은 8개의 A100 GPU(각각 80GB 메모리)에서 훈련됨.
  • 적은 수의 GPU에서 훈련 시 per_device_train_batch_size를 줄이고 gradient_accumulation_steps를 증가시켜야 함.
  • Vicuna 체크포인트와 LLaVA의 프로젝터 준비 필요.
  • 훈련 스크립트 제공.

평가

  • 자세한 내용은 문서 참조.

체크포인트

  • 사전 훈련된 모델과 Vicuna 사이의 delta 추출.
  • Vicuna의 가중치 다운로드 후, 준비된 가중치 오프셋 다운로드 및 적용.

데모

  • FERRET 훈련 후, 로컬에서 체크포인트 사용하여 데모 실행.
  • Gradio 웹 UI 사용.
  • 컨트롤러, 그라디오 웹 서버, 모델 워커 순차적으로 실행.

인용

  • Ferret을 유용하게 사용한다면, 다음 BibTeX로 인용.

감사의 말

  • LLaVA: 기반 코드베이스.
  • Vicuna: LLM 코드베이스.

GN⁺의 의견

  • 혁신적인 기술: Ferret 모델은 다양한 어휘를 사용하여 세밀한 참조 및 위치 지정을 가능하게 하는 혁신적인 기술을 제시함.
  • 연구의 중요성: 이 모델과 데이터셋은 인공지능 분야에서 참조 및 위치 지정 작업의 연구를 촉진할 수 있는 중요한 자원임.
  • 다양한 응용 가능성: 이 기술은 이미지 및 텍스트를 결합한 다양한 응용 프로그램에 활용될 수 있으며, 이는 인공지능의 시각적 이해와 상호작용을 한 단계 끌어올릴 수 있음.